Esse tipo de fluxo representa uma evolução dos assistentes de programação: em vez de simples autocompletar, a IA passa a atuar como um agente persistente dentro do ambiente de desenvolvimento.
Nos testes divulgados pela Cursor e por análises independentes, o Composer 2.5 aparece na mesma faixa de desempenho de modelos líderes em várias tarefas de engenharia de software.
Principais resultados reportados:
Esses números mostram um cenário interessante:
Em relação à geração anterior, a melhoria também é significativa. O modelo anterior, Composer 2, registrava 73,7% no SWE‑Bench Multilingual, enquanto a nova versão sobe para 79,8%.
O aspecto mais chamativo do Composer 2.5 é o custo.
A Cursor divulgou os seguintes preços aproximados:
Existe também uma variante mais rápida, com:
Para comparação, estimativas colocam modelos como o Claude Opus 4.7 perto de US$5 por milhão de tokens de entrada e US$25 por milhão de tokens de saída, o que significa que o Composer 2.5 pode custar uma fração do preço — especialmente na geração de respostas.
Essa diferença importa porque agentes de programação consomem enormes quantidades de tokens. Uma única tarefa pode envolver:
Cada etapa dispara novas chamadas ao modelo. Preços menores permitem executar mais ciclos de raciocínio e automação sem explodir o custo.
O Composer 2.5 foi construído sobre o checkpoint Kimi K2.5, da Moonshot AI, um modelo open‑weight que a Cursor usa como base antes de aplicar treinamento adicional especializado.
Relatos sobre o processo de treinamento indicam que a empresa investiu fortemente em dados sintéticos e reforço:
Essas tarefas simuladas permitem treinar o modelo repetidamente em cenários típicos de engenharia de software, como planejar mudanças, editar código, executar testes e corrigir erros.
O Composer 2.5 também revela uma mudança estratégica importante para a empresa.
Nas primeiras versões do Cursor, o IDE dependia principalmente de modelos externos, como os da OpenAI, Anthropic e Google, para alimentar seus recursos de programação assistida.
Ao desenvolver seus próprios modelos, a empresa ganha vantagens importantes:
Isso também ajuda a Cursor a competir com soluções integradas como Claude Code, da Anthropic, onde o mesmo fornecedor controla tanto o modelo quanto o agente de programação.
O Composer 2.5 ainda não domina todos os benchmarks — o GPT‑5.5 continua liderando alguns testes de agentes, e o Claude Opus 4.7 permanece altamente competitivo.
Mesmo assim, a combinação de desempenho próximo ao nível de modelos de ponta e custo muito menor pode ter impacto real no mercado. Se a Cursor continuar melhorando seus modelos internos mantendo essa vantagem de preço, o custo de executar agentes de programação dentro de IDEs pode cair drasticamente — algo que pode acelerar a adoção de IA em fluxos completos de desenvolvimento de software.
Comments
0 comments