Öffentliche Benchmarks sind nützlich, wenn man eine erste Shortlist für KI-Modelle erstellen will. Sie sind aber kein Taschenrechner für eine universelle Rangliste. Bei GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 stammen die derzeit zitierbaren Informationen aus unterschiedlichen Quellen: OpenAIs GPT-5.5-Veröffentlichung und System Card, Anthropics API-Dokumentation zu Claude Opus 4.7 sowie DeepSeeks V4-Pro-Modellkarte.[29][
27][
13][
6]
Das ist der entscheidende Punkt: Es handelt sich nicht um einen vollständigen Vierer-Vergleich unter identischen Bedingungen, durchgeführt von derselben unabhängigen Stelle.[29][
27][
13][
6]
Erst die Modellversionen festnageln
In diesem Artikel meint DeepSeek V4 konkret DS-V4-Pro Max aus der DeepSeek-Modellkarte. Kimi K2.6 meint hier K2.6 Thinking. Diese beiden Namen sind die direkt zitierbaren Spalten in DeepSeeks Tabelle.[6]
Das klingt nach Detailarbeit, ist aber wichtig. In der DeepSeek-Modellkarte stehen bei GPT und Claude nämlich GPT-5.4 xHigh und Opus-4.6 Max — nicht GPT-5.5 und nicht Claude Opus 4.7.[6] Deshalb lässt sich aus dieser DeepSeek-Tabelle kein vollständiges Urteil darüber ableiten, ob DS-V4-Pro Max gegenüber GPT-5.5 oder Claude Opus 4.7 insgesamt besser oder schlechter abschneidet.
Auch Anthropics öffentliche API-Dokumentation zu Claude Opus 4.7 ist für diesen Zweck nur begrenzt geeignet: Sie beschreibt vor allem Funktionen und Aufrufdetails, etwa die Beta-Funktion task budgets13]
Die stabilste gemeinsame Schnittmenge: Terminal-Bench 2.0
Der wichtigste gemeinsame öffentliche Bezugspunkt in den vorliegenden Quellen ist Terminal-Bench 2.0. Für alle vier hier betrachteten Modelle finden sich dazu Werte. Daraus ergibt sich folgende Reihenfolge:
| Modell | Terminal-Bench 2.0 | Quelle |
|---|---|---|
| GPT-5.5 | 82,7 % | OpenAI-Veröffentlichung und MLQ.ai-Zusammenfassung [ |
| Claude Opus 4.7 | 69,4 % | OpenAI-Veröffentlichung [ |
| DeepSeek V4-Pro Max | 67,9 % | DeepSeek V4-Pro-Modellkarte [ |
| Kimi K2.6 Thinking | 66,7 % | DeepSeek V4-Pro-Modellkarte [ |
Diese Tabelle trägt eine enge, aber brauchbare Aussage: In Terminal-Bench 2.0 liegt GPT-5.5 klar vorn; Claude Opus 4.7 folgt auf Platz zwei; DeepSeek V4-Pro Max und Kimi K2.6 Thinking liegen nahe beieinander.[29][
30][
6]
Mehr sollte man daraus nicht machen. Der Wert beweist nicht automatisch, dass GPT-5.5 in jedem Unternehmens-Workflow, jeder Coding-Aufgabe oder jedem Agenten-Setup überlegen ist. Dafür bräuchte man Tests mit gleichem Harness, gleichen Tool-Rechten, gleicher Kontextlänge und vergleichbarem Reasoning- beziehungsweise Token-Budget.
GPT-5.5 gegen Claude Opus 4.7: Was OpenAIs Tabelle sagt
OpenAIs Veröffentlichungsseite nennt mehrere Benchmarks, in denen GPT-5.5 und Claude Opus 4.7 direkt nebeneinander stehen. In allen dort aufgeführten Punkten liegt GPT-5.5 über Claude Opus 4.7.[29]
| Benchmark in OpenAIs Tabelle | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82,7 % | 69,4 % |
| GDPval wins or ties | 84,9 % | 80,3 % |
| BrowseComp | 84,4 % | 79,3 % |
| FrontierMath Tier 1–3 | 51,7 % | 43,8 % |
| FrontierMath Tier 4 | 35,4 % | 22,9 % |
| CyberGym | 81,8 % | 73,1 % |
Die faire Lesart lautet: Innerhalb der von OpenAI veröffentlichten Vergleichstabelle schneidet GPT-5.5 in den genannten Benchmarks besser ab als Claude Opus 4.7.[29]
OpenAIs System Card positioniert GPT-5.5 außerdem als Modell für komplexe reale Arbeit — darunter Programmieren, Online-Recherche, Informationsanalyse, Dokument- und Tabellenerstellung sowie Aufgaben, die mehrere Tools einbeziehen.[27]
Trotzdem bleibt es eine Tabelle aus einer Herstellerveröffentlichung. Sie ersetzt keinen unabhängigen Vierer-Test unter identischen Bedingungen.[29]
DeepSeek V4-Pro Max gegen Kimi K2.6 Thinking: Was DeepSeeks Tabelle sagt
DeepSeeks V4-Pro-Modellkarte enthält mehrere Vergleichswerte für DS-V4-Pro Max und K2.6 Thinking.[6] In dieser Tabelle liegt DeepSeek V4-Pro Max in den meisten gelisteten Punkten vorn, Kimi K2.6 Thinking hat aber eigene klare Spitzenwerte.[
6]
| Benchmark in der DeepSeek-Modellkarte | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | Tabellenführer |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek |
| GPQA Diamond | 90,1 | 90,5 | Kimi |
| HLE | 37,7 | 36,4 | DeepSeek |
| LiveCodeBench | 93,5 | 89,6 | DeepSeek |
| HMMT 2026 Feb | 95,2 | 92,7 | DeepSeek |
| IMOAnswerBench | 89,8 | 86,0 | DeepSeek |
| Apex Shortlist | 90,2 | 75,5 | DeepSeek |
| SWE Pro | 55,4 | 58,6 | Kimi |
| Terminal-Bench 2.0 | 67,9 | 66,7 | DeepSeek |
Die belastbare Schlussfolgerung ist entsprechend differenziert: DS-V4-Pro Max liegt in DeepSeeks Tabelle in den meisten aufgeführten Benchmarks vor K2.6 Thinking; Kimi K2.6 Thinking führt jedoch bei GPQA Diamond und SWE Pro.[6]
Gerade bei knappen Abständen, etwa MMLU-Pro oder Terminal-Bench 2.0, sollte man nicht nur auf die Richtung des Vorsprungs schauen. Für eine Produktentscheidung zählen Aufgabenart, Varianz, Fehlertypen und die Frage, ob die Benchmark-Aufgabe dem eigenen Einsatz überhaupt ähnelt.
Warum daraus kein absoluter Vierer-Gesamtsieger folgt
Der häufigste Fehler wäre, die OpenAI-Tabelle, die DeepSeek-Tabelle und Anthropics Funktionsdokumentation zusammenzuwerfen und daraus eine Art Gesamtmeisterschaft zu berechnen. Dafür reicht die öffentliche Evidenz derzeit nicht aus.
- Die Versionen passen nicht zusammen. OpenAIs Tabelle vergleicht GPT-5.5 mit Claude Opus 4.7. DeepSeeks Tabelle nennt dagegen GPT-5.4 xHigh und Opus-4.6 Max.[
29][
6]
- Die Quellen sind nicht einheitlich. Die Angaben stammen aus Herstellerveröffentlichungen, System Card, API-Dokumentation und Modellkarte — nicht aus einem vollständigen unabhängigen Vierer-Benchmark mit identischem Setup.[
29][
27][
13][
6]
- Die Metriken messen Unterschiedliches. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond und SWE Pro prüfen verschiedene Fähigkeiten. Ohne begründete Gewichtung würde ein addierter Gesamtscore die Unterschiede zwischen realen Aufgaben eher verdecken als erklären.[
29][
6]
Kurz gesagt: Öffentliche Benchmarks sind ein guter Startpunkt für die Vorauswahl. Sie sind aber kein Ersatz für eine eigene Evaluation im konkreten Einsatzkontext.
Wie man die Zahlen in der Praxis nutzen sollte
Für Teams, die ein Modell für ein Produkt, ein internes Tool oder einen Agenten-Workflow auswählen, ist eine dreistufige Lesart sinnvoll:
- Gemeinsame Benchmark-Ebene: Die derzeit klarste Vierer-Schnittmenge ist Terminal-Bench 2.0. Dort führt GPT-5.5.[
29][
30][
6]
- Vergleich innerhalb einer Herstellertabelle: OpenAIs Tabelle stützt die Aussage, dass GPT-5.5 in den gelisteten Punkten vor Claude Opus 4.7 liegt. DeepSeeks Modellkarte stützt die Aussage, dass DS-V4-Pro Max in den meisten aufgeführten Punkten vor K2.6 Thinking liegt.[
29][
6]
- Eigene Einsatztests: Reale Aufgaben sollten nach Coding, Agentenverhalten, Reasoning, Retrieval, Tool-Nutzung, Latenz, Kosten und Fehlererholung getrennt getestet werden — mit denselben Prompts, derselben Kontextlänge, denselben Berechtigungen und denselben Bewertungsregeln.
Wenn ein Produkt stark auf lange Agenten-Schleifen setzt, ist Claude Opus 4.7s task budgets13]
Wenn der Schwerpunkt eher auf komplexem Coding, Online-Recherche, Dokumenten, Tabellen oder toolübergreifender Arbeit liegt, passt OpenAIs Beschreibung von GPT-5.5 in der System Card besonders direkt zu diesen Szenarien.[27] Aber auch hier gilt: Ein guter öffentlicher Benchmark-Wert ersetzt keinen Test im eigenen Codebestand, mit der eigenen Toolchain, den eigenen Zugriffsrechten und den eigenen Regeln für Fehlerbehandlung.
Die seriöseste Ranglisten-Aussage
- Terminal-Bench 2.0 als Einzelbenchmark: GPT-5.5 auf Platz eins, Claude Opus 4.7 auf Platz zwei, DeepSeek V4-Pro Max auf Platz drei, Kimi K2.6 Thinking auf Platz vier.[
29][
30][
6]
- Innerhalb von OpenAIs Tabelle: GPT-5.5 liegt in den aufgeführten Benchmarks vor Claude Opus 4.7.[
29]
- Innerhalb von DeepSeeks Tabelle: DS-V4-Pro Max liegt in den meisten gelisteten Punkten vor Kimi K2.6 Thinking; Kimi führt bei GPQA Diamond und SWE Pro.[
6]
- Absolutes Vierer-Gesamtranking: Dafür ist die Beweislage zu dünn. Es fehlt ein vollständiger Vergleich derselben Modellversionen unter denselben Testbedingungen durch dieselbe unabhängige Benchmark-Methodik.[
29][
13][
6]




