Diese Benchmarks messen unterschiedliche Aspekte der KI‑gestützten Entwicklung:
SWE‑Bench Multilingual prüft, ob ein Modell reale GitHub‑Issues in verschiedenen Programmiersprachen korrekt lösen kann.
Terminal‑Bench 2.0 bewertet dagegen, wie gut KI‑Agenten Aufgaben im Terminal ausführen – etwa Builds starten, Tests laufen lassen oder Skripte steuern.
Die Ergebnisse zeigen ein gemischtes Bild:
Gleichzeitig ist der Fortschritt gegenüber der vorherigen Generation groß: Der SWE‑Bench‑Score stieg beispielsweise von 73,7 % auf 79,8 %.
Der vielleicht auffälligste Punkt bei Composer 2.5 ist jedoch nicht nur die Leistung – sondern der Preis.
Die Standardversion kostet ungefähr:
Zusätzlich gibt es eine schnellere Variante mit:
Zum Vergleich: Berichte schätzen die Kosten von Claude Opus‑Modellen auf etwa 5 $/25 $ pro Million Tokens (Input/Output).
Der Unterschied wird besonders wichtig, wenn man betrachtet, wie viele Tokens Coding‑Agenten tatsächlich verbrauchen. Ein einzelner Entwicklungsauftrag kann mehrere Schritte umfassen:
Jeder dieser Schritte erzeugt zusätzliche Modellanfragen – und damit Kosten. Günstigere Tokenpreise erlauben deutlich längere und komplexere Agent‑Workflows, ohne dass die Infrastrukturkosten explodieren.
Composer 2.5 baut laut Cursor auf dem Kimi‑K2.5‑Checkpoint von Moonshot AI auf, einem offenen Modell, das anschließend stark weitertrainiert wurde.
Berichten zufolge umfasste das Training unter anderem:
Solche synthetischen Aufgaben simulieren reale Entwicklungsabläufe: Code analysieren, Änderungen planen, Dateien bearbeiten, Tests ausführen und anschließend iterativ verbessern. Durch viele Wiederholungen kann das Modell stabilere Entwicklungsstrategien lernen.
Die Veröffentlichung von Composer 2.5 hat auch eine klare strategische Dimension.
Frühere Versionen von Cursor nutzten stark externe KI‑Modelle von OpenAI, Anthropic oder Google. Das bedeutete, dass zentrale Funktionen der IDE auf fremde Infrastruktur angewiesen waren.
Mit eigenen Modellen verschiebt sich diese Dynamik:
Das ist besonders relevant, weil Konkurrenzprodukte wie Anthropics Claude Code Modell und Entwicklungsagent eng miteinander verzahnen. Wer Modell und Tool aus einer Hand liefert, kann die Erfahrung stärker optimieren.
Composer 2.5 schlägt die führenden Modelle nicht in jedem Benchmark. GPT‑5.5 bleibt bei einigen Agent‑Tests deutlich vorne, während Claude Opus 4.7 weiterhin sehr konkurrenzfähig ist.
Die eigentliche Besonderheit liegt in der Kombination aus nahezu Frontier‑Leistung und deutlich niedrigeren Kosten. Sollte Cursor seine Modelle weiter verbessern und diese Preisstruktur beibehalten, könnte sich die Wirtschaftlichkeit von KI‑gestützter Softwareentwicklung – besonders bei lang laufenden Coding‑Agenten – spürbar verändern.
Comments
0 comments