RéponsesPubliéil y a 2 moisLast edited le mois dernier16 sources

Composer 2.5 de Cursor : un modèle de code puissant et bien moins cher

Cursor a lancé Composer 2.5 le 18 mai 2026, un modèle dédié au développement logiciel capable d’atteindre 79,8 % sur SWE‑Bench Multilingual et 69,3 % sur Terminal‑Bench 2.0. Son tarif — environ 0,50 $ par million de tokens en entrée et 2,50 $ en sortie — est nettement inférieur à celui de certains modèles concurrent...

Rechercher et vérifier les faits avec Studio Global AI Voir plus de pages tendance

Illustration representing Cursor Composer 2.5 competing with other frontier AI coding models — Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5Cursor’s Composer 2.5 aims to deliver frontier‑level coding performance while dramatically lowering the cost of running AI coding agents.
Prompt IA
Create a landscape editorial hero image for this Studio Global article: Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5. Article summary: Cursor’s Composer 2.5 is an in‑house coding model released May 18, 2026 that scores about 79.8% on SWE‑Bench Multilingual and 69.3% on Terminal‑Bench 2.0—roughly matching Claude Opus 4.7 on some benchmarks while costi.... Topic tags: cursor, ai coding, developer tools, ai models, benchmarks. Reference image context from search candidates: Reference image 1: visual subject "Composer 2.5 matches Opus 4.7 and GPT-5.5 on CursorBench 3.1 but costs less than a dollar per task - compared to up to eleven dollars for the competition. | Image: Cursor" source context "Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks ..." Reference image 2: visual subject "Composer 2.5 vs Opus | The Results Are Brutal Merv
openai.com

Le 18 mai 2026, la startup Anysphere — connue pour l’IDE assisté par IA Cursor — a lancé Composer 2.5, son modèle de génération de code le plus avancé à ce jour. Conçu pour fonctionner directement dans l’environnement de développement Cursor, il vise un objectif précis : automatiser des workflows complets d’ingénierie logicielle, et pas seulement générer quelques lignes de code.

Deux éléments expliquent l’attention autour de cette sortie :

des scores de benchmark proches des modèles de pointe comme Claude Opus 4.7 ou GPT‑5.5 ;
un coût par token nettement plus faible, potentiellement déterminant pour les agents de programmation qui tournent longtemps.

Un modèle conçu pour les agents de développement

Les modèles « Composer » sont optimisés pour ce qu’on appelle l’ingénierie logicielle agentique. L’idée est que l’IA ne se contente plus d’autocompléter du code : elle peut gérer des tâches longues impliquant plusieurs étapes.

Par exemple :

analyser un dépôt Git volumineux
planifier des modifications
éditer plusieurs fichiers
exécuter des commandes dans le terminal
compiler et corriger les erreurs
relancer les tests jusqu’à ce que tout fonctionne

Selon Cursor, Composer 2.5 améliore fortement la fiabilité sur les tâches longues, suit mieux les instructions complexes et collabore plus naturellement avec le développeur dans l’IDE.

Cela reflète une évolution plus large des outils de programmation basés sur l’IA : on passe d’outils de suggestion de code à de véritables agents capables de gérer des workflows complets.

Performances sur les benchmarks face à Opus 4.7 et GPT‑5.5

Cursor publie plusieurs résultats comparatifs pour situer son modèle face aux leaders du marché.

Principaux scores annoncés :

SWE‑Bench Multilingual : 79,8 % (Composer 2.5), 80,5 % (Claude Opus 4.7), 77,8 % (GPT‑5.5)
Terminal‑Bench 2.0 : 69,3 % (Composer 2.5), 69,4 % (Claude Opus 4.7), 82,7 % (GPT‑5.5)
CursorBench v3.1 : 63,2 % (Composer 2.5)

Ces résultats montrent une situation assez nuancée :

Sur SWE‑Bench Multilingual, qui mesure la capacité d’un modèle à corriger de vrais problèmes GitHub dans plusieurs langages, Composer 2.5 atteint pratiquement le niveau des modèles de pointe et dépasse légèrement GPT‑5.5 dans cette comparaison.
Sur Terminal‑Bench 2.0, un test axé sur les agents exécutant des commandes dans un terminal, il se situe quasiment au même niveau que Claude Opus 4.7, mais reste nettement derrière GPT‑5.5.
Par rapport à la génération précédente, les progrès sont importants : le score SWE‑Bench passe par exemple de 73,7 % à 79,8 %.

En résumé, Composer 2.5 est globalement compétitif sur certaines tâches d’ingénierie logicielle, sans pour autant dominer tous les benchmarks.

Une stratégie de prix très agressive

L’autre élément qui frappe est le tarif.

Cursor annonce environ :

0,50 $ par million de tokens d’entrée
2,50 $ par million de tokens de sortie

Une version plus rapide est proposée à :

3,00 $ par million de tokens d’entrée
15,00 $ par million de tokens de sortie.

À titre de comparaison, certaines estimations placent les modèles Claude Opus autour de 5 $ / million en entrée et 25 $ / million en sortie.

Pourquoi cela compte‑t‑il ?

Les agents de développement consomment énormément de tokens : exploration du code, planification, génération de correctifs, compilation, exécution de tests… chaque étape implique souvent un nouvel appel au modèle.

Un tarif plus bas permet donc à Cursor d’exécuter davantage d’étapes de raisonnement par tâche sans faire exploser les coûts.

Sur quelle base le modèle est construit

Composer 2.5 s’appuie sur le checkpoint open‑weight Kimi K2.5 développé par Moonshot AI, sur lequel l’équipe Cursor a réalisé un entraînement supplémentaire spécialisé dans le développement logiciel.

Selon les informations disponibles sur l’entraînement :

le modèle aurait utilisé environ 25 fois plus de tâches de codage synthétiques que la génération précédente ;
environ 85 % du budget de calcul aurait été consacré à l’entraînement supplémentaire et au reinforcement learning, plutôt qu’à la base initiale.

Ces tâches synthétiques servent à simuler des workflows complets : planifier des changements, modifier du code, exécuter des tests et itérer jusqu’à obtenir une solution correcte.

Une pièce clé dans la stratégie de Cursor

La sortie de Composer 2.5 s’inscrit aussi dans une stratégie plus large.

Historiquement, Cursor dépendait largement de modèles tiers — notamment ceux d’OpenAI, Anthropic ou Google — pour alimenter ses fonctionnalités de code assisté par IA.

Développer des modèles internes apporte plusieurs avantages :

réduire les coûts d’inférence pour les agents longue durée
diminuer la dépendance aux fournisseurs externes
contrôler plus finement le comportement du modèle dans l’IDE

Cet aspect est particulièrement important face à Claude Code, l’outil d’Anthropic qui bénéficie d’une intégration très étroite entre modèle et agent de développement.

Avec la famille Composer, Cursor tente donc de devenir non seulement un IDE intelligent, mais aussi un fournisseur de modèles spécialisés pour le développement.

À retenir

Composer 2.5 ne domine pas systématiquement les modèles de pointe : GPT‑5.5 reste en tête sur certains benchmarks, tandis que Claude Opus 4.7 reste très compétitif.

Mais l’association de performances proches du niveau frontier et d’un coût bien plus faible pourrait changer l’économie des agents de programmation — surtout pour les workflows longs exécutés directement dans l’IDE.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Rechercher et vérifier les faits avec Studio Global AI

Les gens demandent aussi

Câu trả lời ngắn gọn cho "Composer 2.5 de Cursor : un modèle de code puissant et bien moins cher" là gì?

Cursor a lancé Composer 2.5 le 18 mai 2026, un modèle dédié au développement logiciel capable d’atteindre 79,8 % sur SWE‑Bench Multilingual et 69,3 % sur Terminal‑Bench 2.0.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Basé sur le checkpoint open‑weight Kimi K2.5 et entraîné massivement sur des tâches synthétiques, il marque la volonté de Cursor de réduire sa dépendance à OpenAI, Anthropic et Google.

Sources

← Back to Trending