Wer GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4-Pro nebeneinanderlegt, sollte nicht vorschnell ein Siegertreppchen bauen. Die verfügbaren Benchmark-Zahlen stammen aus unterschiedlichen Quellen, teils aus Herstellerangaben, teils aus Modellkarten, teils aus sekundären Zusammenfassungen. Außerdem ändern Tool-Zugriff, Reasoning-Effort, Kontextlänge und Kostenprofil das Ergebnis erheblich.
Die bessere Frage lautet daher nicht: Welches Modell ist insgesamt das beste? Sondern: Welches Modell sollte für welchen Workflow zuerst getestet werden? Auf Basis der zitierbaren Angaben spricht derzeit viel für GPT-5.5 bei Terminal- und CLI-Workflows, für Claude Opus 4.7 bei SWE-Bench-nahen Coding-Aufgaben sowie Vision und Computer-Use, für DeepSeek V4-Pro bei Knowledge- und Math-Benchmarks mit offener Modellstrategie und für Kimi K2.6 bei agentischen multimodalen Workflows auf Cloudflare Workers AI.[27][
4][
1][
5][
64][
36]
Benchmark-Schnappschuss: Welche Zahlen sind wirklich vergleichbar?
Die folgende Tabelle sammelt nur Werte, die in den vorliegenden Quellen konkret genannt werden. Ein Gedankenstrich bedeutet nicht, dass ein Modell schwach ist, sondern nur: Für diese Spalte liegt hier kein belastbar zitierbarer Wert vor. Wichtig ist auch: Die Werte stammen nicht alle aus demselben offiziellen Test-Harness. Sie eignen sich für eine Shortlist, nicht für eine endgültige Weltrangliste.
| Test oder Aufgabe | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | Praktische Einordnung |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % [ | 69,4 % [ | 66,7 [ | 67,9 [ | In den zitierbaren Angaben sticht GPT-5.5 bei Command-Line-Workflows am deutlichsten hervor. |
| SWE-Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 [ | 55,4 [ | Claude liegt in den genannten Werten vorn, der Claude-Wert stammt aber aus einer sekundären Zusammenfassung mit Verweis auf AWS. |
| SWE-Bench Verified / Resolved | — | 87,6 % [ | 80,2 [ | 80,6 [ | Claude hat den höchsten genannten Wert; für GPT-5.5 fehlt hier ein gleichartiger Vergleichswert. |
| Graphwalks 256k: BFS / parents | 73,7 / 90,1 [ | 76,9 / 93,6 [ | — | — | In OpenAIs Long-Context-Tabelle liegt Claude Opus 4.7 bei diesen beiden 256k-Zeilen vor GPT-5.5. |
| Graphwalks 1M: BFS / parents | 45,4 / 58,5 [ | — | — | — | Die Tabelle belegt GPT-5.5-Werte bei 1M-Kontext; die 1M-Gegenwerte in derselben Tabelle sind als Opus 4.6 markiert und sollten nicht für Opus 4.7 verwendet werden.[ |
| Wissen und Mathematik | — | — | — | GPQA Diamond 90,1; GSM8K 92,6; MMLU-Pro 87,5; HLE 37,7 [ | DeepSeek V4-Pro hat hier die vollständigste öffentlich zitierbare Modellkarten-Zahlenbasis. |
| Vision, Screenshots, Computer-Use | — | Performance-Gewinne für vision-heavy Workloads; 1:1-Pixelkoordinaten; XBOW-Visual-Acuity 98,5 % [ | Cloudflare beschreibt Kimi K2.6 als native multimodal agentic model, nennt aber keinen gemeinsamen Vision-Benchmark-Wert.[ | — | Bei UI-, Screenshot- und Computer-Use-Aufgaben ist die Beleglage für Claude am stärksten. |
Warum eine Gesamtrangliste wacklig wäre
Erstens ist die Quellenlage uneinheitlich. Die Terminal-Bench-2.0- und SWE-Bench-Pro-Werte für GPT-5.5 stammen aus einem Medienbericht, der sich auf von OpenAI bereitgestellte Benchmark-Ergebnisse beruft.[27] Die Claude-Werte für SWE-Bench Pro, SWE-Bench Verified und Terminal-Bench 2.0 stammen aus einer sekundären Zusammenfassung, die AWS zitiert.[
4] Kimi K2.6 und DeepSeek V4-Pro wiederum haben Teile ihrer Werte in Hugging-Face-Modellkarten.[
84][
64]
Zweitens verändern Tools die Rangfolge. Ein Bericht zu HLE nennt ohne Tools 46,9 % für Claude Opus 4.7 und 42,7 % für GPT-5.4 Pro; mit Tools werden 58,7 % für GPT-5.4 Pro und 54,7 % für Claude Opus 4.7 genannt.[6] Das ist kein GPT-5.5-Wert, zeigt aber klar:
with toolswithout tools
Drittens zählen Varianten und Kosten. DeepSeek V4 wird als V4-Pro und V4-Flash angeboten; V4-Flash wird in einem Bericht als effizientere und wirtschaftlichere Version beschrieben, während die detaillierten Benchmark-Werte hier vor allem DeepSeek-V4-Pro betreffen.[57][
64] Artificial Analysis unterscheidet bei GPT-5.5 ebenfalls nach Effort-Varianten und schreibt, GPT-5.5 xhigh koste für den eigenen Index rund 20 % mehr als der Vorgänger, aber 30 % weniger als Claude Opus 4.7 max.[
24]
GPT-5.5: Starkes Signal für Terminal- und Langkontext-Workflows
Der klarste Wert für GPT-5.5 ist Terminal-Bench 2.0. Laut Yahoo Finance beziehungsweise Investing.com erreichte GPT-5.5 in von OpenAI bereitgestellten Benchmark-Ergebnissen 82,7 % auf Terminal-Bench 2.0, einem Test für Command-Line-Workflows; im selben Bericht wird GPT-5.5 mit 58,6 % auf SWE-Bench Pro genannt, das GitHub-Issue-Resolution bewertet.[27]
Auch bei Langkontext-Aufgaben gibt es konkrete OpenAI-Zahlen. In OpenAIs Tabelle erreicht GPT-5.5 bei Graphwalks BFS 73,7 bei 256k und 45,4 bei 1M; bei Graphwalks parents sind es 90,1 bei 256k und 58,5 bei 1M.[21] Dieselbe Tabelle zeigt GPT-5.4 bei Graphwalks BFS 1M mit 9,4, während GPT-5.5 dort 45,4 erreicht.[
21]
Eine zusätzliche Drittbewertung kommt von Artificial Analysis. Dort wird GPT-5.5 als neues führendes KI-Modell beschrieben; OpenAI führe in fünf Headline-Evaluations und liege in drei weiteren hinter Gemini 3.1 Pro Preview.[24] Artificial Analysis schreibt außerdem, GPT-5.5 xhigh nutze für den eigenen Index rund 40 % weniger Output-Tokens als der Vorgänger.[
24]
Wann GPT-5.5 zuerst testen? Bei CLI-Automatisierung, Terminal-Agents, Langkontext-Recherche und agentischen Coding-Workflows, bei denen Output-Token-Kosten relevant sind.[27][
21][
24]
Claude Opus 4.7: Coding-Werte plus die stärkste Vision- und Computer-Use-Beleglage
Claude Opus 4.7 ist vor allem dort gut belegt, wo Text allein nicht reicht. Die Anthropic-API-Dokumentation schreibt, die Änderung solle Performance-Gewinne bei vision-heavy Workloads ermöglichen und sei besonders wichtig für Computer-Use-, Screenshot-, Artifact- und Document-Understanding-Workflows.[1] Außerdem seien Koordinaten nun 1:1 auf tatsächliche Pixel abbildbar, sodass keine Skalierungsfaktor-Rechnung nötig sei.[
1]
Auf der Launch-Seite verweist Anthropic auf einen XBOW-Visual-Acuity-Benchmark, in dem Claude Opus 4.7 mit 98,5 % genannt wird, gegenüber 54,5 % für Opus 4.6.[5] Für Aufgaben wie Screenshot-Verständnis, Dokumentlayout, Desktop-UI-Steuerung und Computer-Use-Agents ist das unter den vier Modellen der direkteste offizielle Hinweis.
Bei Coding-Benchmarks nennt eine Zusammenfassung mit Verweis auf AWS 64,3 % für Claude Opus 4.7 auf SWE-Bench Pro, 87,6 % auf SWE-Bench Verified und 69,4 % auf Terminal-Bench 2.0.[4] Damit liegt Claude in den hier zitierbaren SWE-Bench-Pro- und Verified/Resolved-Vergleichen vorn. Für eine Produktionsentscheidung sollte dieser Vorsprung aber unbedingt mit eigenen Repositories und identischem Harness überprüft werden.
Ein praktischer Kostenhinweis: Anthropic weist darauf hin, dass hochauflösende Bilder mehr Tokens verbrauchen. Wenn die zusätzliche Bildschärfe nicht nötig ist, sollten Bilder vor dem Senden an Claude heruntergerechnet werden, um steigenden Token-Verbrauch zu vermeiden.[1]
Wann Claude Opus 4.7 zuerst testen? Bei GitHub-Issue-Reparaturen, Coding-Agents, Screenshot- und Dokumentverständnis, Computer-Use-Agents sowie UI-Aufgaben, bei denen Pixelkoordinaten präzise stimmen müssen.[1][
4][
5]
Kimi K2.6: Interessant für Workers-AI- und multimodale Agenten-Workflows
Cloudflare meldete, dass Moonshot AI Kimi K2.6 seit dem 20. April 2026 auf Workers AI verfügbar ist. Die Modell-ID lautet @cf/moonshotai/kimi-k2.6, und Cloudflare beschreibt dies als Day-0-Support in Zusammenarbeit mit Moonshot AI.[36]
Im selben Changelog wird Kimi K2.6 als native multimodal agentic model beschrieben. Als Schwerpunkte nennt Cloudflare long-horizon coding, coding-driven design, proactive autonomous execution und swarm-based task orchestration.[36] Laut Cloudflare basiert Kimi K2.6 auf einer Mixture-of-Experts-Architektur mit insgesamt 1T Parametern und 32B aktiven Parametern pro Token.[
36]
Die Hugging-Face-Modellkarte nennt für Kimi K2.6 66,7 auf Terminal-Bench 2.0, 58,6 auf SWE-Bench Pro und 76,7 auf SWE-Bench Multilingual.[84] MarkTechPost berichtet außerdem 80,2 auf SWE-Bench Verified.[
45]
Wann Kimi K2.6 zuerst testen? Wenn das Team bereits auf Cloudflare Workers AI setzt oder long-horizon coding, coding-driven design, multimodale Agenten-Workflows und Multi-Agent-Orchestrierung evaluieren will.[36][
84]
DeepSeek V4-Pro: Vollständige Wissens- und Mathewerte, klare offene Modellstrategie
DeepSeek V4 erscheint in den Quellen als V4-Pro und V4-Flash. Yahoo Finance berichtet, DeepSeek beschreibe V4-Pro als Modell, das in World-Knowledge-Benchmarks andere Open-Source-Modelle deutlich übertreffe und nur leicht hinter dem geschlossenen Topmodell Gemini-Pro-3.1 liege.[57] V4-Flash wird im selben Bericht als effizientere und wirtschaftlichere Wahl dargestellt.[
57]
Die Hugging-Face-Modellkarte von DeepSeek-V4-Pro liefert die vollständigste Zahlenreihe in diesem Vergleich: GPQA Diamond 90,1, GSM8K 92,6, HLE 37,7, MMLU-Pro 87,5, SWE-Bench Pro 55,4, SWE-Bench Verified/Resolved 80,6 und TerminalBench 2.0 67,9.[64]
CNBC berichtet zudem, DeepSeek habe V4 für Agent-Tools wie Claude Code und OpenClaw optimiert.[58] Wei Sun, Principal AI Analyst bei Counterpoint, wird dort mit der Einschätzung wiedergegeben, das Benchmark-Profil von V4 deute auf ausgezeichnete Agent-Fähigkeiten zu deutlich niedrigeren Kosten hin.[
58]
Wann DeepSeek V4-Pro zuerst testen? Wenn offene Modelle, Knowledge- und Math-Benchmarks, agentisches Tooling mit Kostendruck oder selbstverwaltete beziehungsweise lokale Evaluierungen im Vordergrund stehen.[58][
64]
Auswahl nach Aufgabe: die sinnvollste Shortlist
- Terminal-Automatisierung und Command-Line-Agents: GPT-5.5 zuerst testen. In den zitierbaren Angaben liegt GPT-5.5 auf Terminal-Bench 2.0 bei 82,7 %, vor Claude Opus 4.7 mit 69,4 %, DeepSeek V4-Pro mit 67,9 und Kimi K2.6 mit 66,7.[
27][
4][
64][
84]
- Software-Engineering-Reparaturen und SWE-Bench-Pro-ähnliche Aufgaben: Claude Opus 4.7 priorisieren, aber am eigenen Code messen. Der genannte Claude-Wert liegt bei 64,3 %, GPT-5.5 und Kimi K2.6 werden jeweils mit 58,6 genannt, DeepSeek V4-Pro mit 55,4; zugleich ist der Claude-Wert quellenmethodisch vorsichtiger zu behandeln.[
4][
27][
84][
64]
- Screenshots, Dokumentverständnis und Computer-Use: Claude Opus 4.7 hat die stärkste Evidenz. Anthropic nennt vision-heavy Workflows, Computer Use und 1:1-Pixelkoordinaten; die Launch-Seite verweist auf 98,5 % im XBOW-Visual-Acuity-Benchmark.[
1][
5]
- Wissen, Mathematik und offene Modellstrategie: DeepSeek V4-Pro gehört auf die Shortlist. Die Modellkarte führt GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench und TerminalBench 2.0 gemeinsam auf.[
64]
- Multimodale agentische Workflows auf Workers AI: Kimi K2.6 prüfen. Cloudflare bietet Kimi K2.6 mit Day-0-Support auf Workers AI an und positioniert es für long-horizon coding sowie swarm-based task orchestration.[
36]
Vor der Einführung: unter gleichen Bedingungen nachmessen
Wer eine intern belastbare Entscheidung braucht, sollte alle Kandidaten mit derselben Modellversion oder API-Modell-ID, derselben Kontextlänge, denselben Tool-Rechten, demselben Reasoning-Effort, derselben Temperatur, demselben Token-Budget und demselben Scoring-Harness testen. Tool-Zugriff darf nicht vermischt werden, weil HLE-Werte zeigen, dass with toolswithout tools6]
Kosten gehören in dieselbe Auswertung wie Qualität. Artificial Analysis schreibt, GPT-5.5 xhigh koste für den eigenen Index rund 20 % mehr als der Vorgänger, aber 30 % weniger als Claude Opus 4.7 max, und nutze rund 40 % weniger Output-Tokens als der Vorgänger.[24] Anthropic weist zugleich darauf hin, dass hochauflösende Bilder mehr Tokens verbrauchen.[
1] Für produktive Agenten zählen deshalb nicht nur Benchmark-Punkte, sondern auch Latenz, Tool-Call-Erfolgsrate, Token-Verbrauch, Fehlerkorrektur und Wiederholbarkeit.
Fazit
Der derzeit seriöseste Vergleich ist kein absoluter Gesamtsieg, sondern eine Aufgabenkarte. Für Terminal-Bench- und CLI-Workflows spricht die Datenlage am stärksten für GPT-5.5; bei SWE-Bench-nahen Coding-Aufgaben sowie Vision und Computer-Use für Claude Opus 4.7; bei Knowledge- und Math-Benchmarks sowie offener Modellstrategie für DeepSeek V4-Pro; und bei multimodalen agentischen Workflows auf Cloudflare Workers AI für Kimi K2.6.[27][
4][
1][
5][
64][
36]
Eine echte Gesamtrangliste wäre erst dann fair, wenn alle vier Modelle im selben Harness, mit derselben Tool-Konfiguration, derselben Version und vergleichbaren Kostenannahmen vollständig getestet wurden.




