Wer 2026 KI-Benchmarks liest, muss genau hinschauen: Vier Modellnamen in eine einzige Rangliste zu werfen, führt schnell zu Äpfel-mit-Birnen-Vergleichen. Der belastbarste direkte Vergleich in den vorliegenden Quellen ist Claude Opus 4.7 gegen GPT-5.5, weil beide Modelle in denselben Tabellen von OpenAI und Vellum auftauchen [5][
2]. Für DeepSeek V4 und Kimi K2.6 gibt es hier dagegen keine direkten Benchmarkzahlen; die nächstliegenden Daten betreffen DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking [
1][
13][
6].
Das Wichtigste in Kürze
- GPT-5.5 wirkt in den verfügbaren Daten besonders stark bei Terminal- und CLI-Aufgaben, Office- beziehungsweise Professional-Workflows, Browser-/Suchaufgaben und mehreren Mathematik-Evals [
5][
2].
- Claude Opus 4.7 liegt vorn bei SWE-Bench Pro Public, MCP Atlas für Tool-Orchestrierung und FinanceAgent v1.1 [
5][
2].
- DeepSeek V4 und Kimi K2.6 sollten auf Basis dieser Quellen nicht gegen Claude Opus 4.7 oder GPT-5.5 gerankt werden, weil die vorhandenen Zahlen andere Modellversionen betreffen [
1][
13][
6].
Direkt vergleichbare Benchmarks
Die folgende Tabelle beschränkt sich auf Benchmarks, in denen Claude Opus 4.7 und GPT-5.5 im selben Testumfeld ausgewiesen werden. GPT-5.5 Pro wird nur dort genannt, wo die Quelle diese Variante separat aufführt [2].
| Anwendungsfrage | Benchmark | Gemeldete Werte | Einordnung |
|---|---|---|---|
| Code-Reparatur in Repositories | SWE-Bench Pro Public | Claude Opus 4.7: 64,3 % vs. GPT-5.5: 58,6 % [ | Claude führt in diesem Coding-Benchmark. |
| Terminal- oder CLI-Agent | Terminal-Bench 2.0 | GPT-5.5: 82,7 % vs. Claude Opus 4.7: 69,4 % [ | Der deutlichste Vorsprung liegt hier bei GPT-5.5. |
| Professionelle Arbeitsaufgaben | GDPval; OfficeQA Pro | GPT-5.5: 84,9 % vs. Claude: 80,3 % in GDPval; GPT-5.5: 54,1 % vs. Claude: 43,6 % in OfficeQA Pro [ | GPT-5.5 ist in diesen beiden Office-/Professional-Metriken stärker. |
| Finanz-Agent | FinanceAgent v1.1 | Claude: 64,4 % vs. GPT-5.5: 60,0 % [ | Claude liegt in dieser Finance-Agent-Eval vorn. |
| Computer- und Browser-Aufgaben | OSWorld-Verified; BrowseComp | GPT-5.5: 78,7 % vs. Claude: 78,0 % in OSWorld; GPT-5.5: 84,4 % und GPT-5.5 Pro: 90,1 % vs. Claude: 79,3 % in BrowseComp [ | OSWorld ist nahezu ausgeglichen; bei BrowseComp führt GPT-5.5. |
| Tool-Orchestrierung | MCP Atlas | Claude: 79,1 % vs. GPT-5.5: 75,3 % [ | Claude wirkt stärker bei tool-lastigen MCP-Szenarien. |
| Wissenschaftliches und mathematisches Reasoning | GPQA Diamond; FrontierMath T1–3 | Claude: 94,2 % vs. GPT-5.5: 93,6 % in GPQA; GPT-5.5: 51,7 % und GPT-5.5 Pro: 52,4 % vs. Claude: 43,8 % in FrontierMath [ | GPQA ist extrem knapp; in FrontierMath liegt GPT-5.5 klarer vorn. |
Warum Leaderboards schnell in die Irre führen
1. SWE-Bench Pro ist nicht SWE-bench Verified
OpenAI nutzt in der Head-to-Head-Tabelle GPT-5.5 gegen Claude Opus 4.7 den Benchmark SWE-Bench Pro Public [5]. Das ist nicht dasselbe wie SWE-bench Verified. BenchLM beschreibt SWE-bench Verified als von Menschen geprüften Ausschnitt aus SWE-bench, der Modelle an realen GitHub-Issues aus populären Python-Repositories wie Django, Flask und scikit-learn testet [
21].
Daraus folgt: Die 64,3 % von Claude Opus 4.7 in SWE-Bench Pro Public dürfen nicht einfach mit Claude-Werten aus SWE-bench-Verified-Leaderboards vermischt werden [5][
21]. Entscheidend sind Benchmarkname, Evaluations-Harness, Testdatum, Modellkonfiguration und mögliche Retry- oder Reasoning-Einstellungen.
2. GPQA Diamond trennt Frontier-Modelle kaum noch
Vellum weist Claude Opus 4.7 mit 94,2 % und GPT-5.5 mit 93,6 % auf GPQA Diamond aus [2]. The Next Web berichtete ebenfalls von sehr engen Werten bei Frontier-Modellen: Claude Opus 4.7 mit 94,2 %, GPT-5.4 Pro mit 94,4 % und Gemini 3.1 Pro mit 94,3 %; die Unterschiede lägen dort im Rauschen [
17].
Für eine Produktionsentscheidung ist GPQA also ein nützliches Signal für allgemeines Reasoning, aber kein ausreichender alleiniger Entscheider. Bei sehr ähnlichen Werten zählen praxisnähere Aufgaben: Tool-Nutzung, Code-Änderungen, Browser-Aktionen, Kosten, Latenz und Zuverlässigkeit im eigenen Workflow.
3. Drittanbieter-Leaderboards können abweichen
Auch bei SWE-bench Verified sind die öffentlichen Werte für Claude Opus 4.7 nicht identisch. BenchLM nennt für Claude Opus 4.7 Adaptive am 24. April 2026 einen Wert von 87,6 % [21]. LLM Stats führt ebenfalls 87,6 % auf [
18]. LM Council zeigt dagegen für Claude Opus 4.7 max 83,5 % ± 1,7 [
10], während MindStudio 82,4 % nennt [
14].
Das heißt nicht automatisch, dass eine Quelle falsch liegt. Abweichungen können aus unterschiedlichen Harnesses, Stichtagen, Modellmodi, Sampling-Einstellungen, Wiederholungsversuchen oder Auswertungsregeln entstehen. Für Engineering-Teams sollten öffentliche Benchmarks deshalb eher die Shortlist bilden, nicht die eigene Evaluation ersetzen.
Claude Opus 4.7: stark bei Repo-Reparatur und Werkzeugketten
Die auffälligsten Signale für Claude Opus 4.7 liegen in Code-Reparatur und mehrstufiger Tool-Nutzung. In der OpenAI-Tabelle schlägt Claude GPT-5.5 auf SWE-Bench Pro Public mit 64,3 % zu 58,6 % und auf FinanceAgent v1.1 mit 64,4 % zu 60,0 % [5]. Vellum meldet außerdem einen Vorsprung bei MCP Atlas: 79,1 % für Claude gegenüber 75,3 % für GPT-5.5 [
2].
Anthropic verweist in den Launch Notes zu Claude Opus 4.7 auf Partner-Evaluationen für agentische Workflows. Hebbia habe zweistellige Verbesserungen bei Tool-Call-Genauigkeit und Planung in Orchestrator-Agents gesehen; Rakuten-SWE-Bench habe gemeldet, dass Opus 4.7 dreimal so viele Produktionsaufgaben löse wie Opus 4.6, mit zweistelligen Zuwächsen bei Code Quality und Test Quality [19]. Das ist ein relevantes Produktsignal, aber es ersetzt keine unabhängige Prüfung auf der eigenen Codebasis.
Praktisch heißt das: Wenn es vor allem um autonome Repository-Reparatur, lange Tool-Ketten oder MCP-lastige Workflows geht, gehört Claude Opus 4.7 weit oben auf die Testliste. Entscheidend bleibt aber, wie das Modell mit den eigenen Test-Suites, Berechtigungen, Tool-Schemata und Fehlerfällen umgeht.
GPT-5.5: besonders stark bei Terminal, Browser, Office und Mathematik
Der deutlichste Vorsprung von GPT-5.5 zeigt sich bei Terminal-Bench 2.0. OpenAI meldet 82,7 % für GPT-5.5, verglichen mit 69,4 % für Claude Opus 4.7 und 68,5 % für Gemini 3.1 Pro [5]. In derselben Tabelle liegt GPT-5.5 auch bei GDPval wins/ties vor Claude, 84,9 % zu 80,3 %, sowie bei OfficeQA Pro, 54,1 % zu 43,6 % [
5].
Vellum ergänzt den Blick auf Computer-Use, Suche und Mathematik. GPT-5.5 liegt bei OSWorld-Verified minimal vor Claude, 78,7 % zu 78,0 %; bei BrowseComp deutlicher, 84,4 % zu 79,3 %; und bei FrontierMath T1–3 ebenfalls deutlicher, 51,7 % zu 43,8 % [2]. Für BrowseComp meldet Vellum zusätzlich GPT-5.5 Pro mit 90,1 % [
2].
Beim Coding ist das Bild gemischt: GPT-5.5 ist sehr stark im Terminal-Benchmark, liegt aber in SWE-Bench Pro Public hinter Claude Opus 4.7 [5]. Die OpenAI System Card beschreibt zudem CoT-Control, eine Evaluationssuite mit mehr als 13.000 Aufgaben aus etablierten Benchmarks wie GPQA, MMLU-Pro, HLE, BFCL und SWE-Bench Verified [
26]. Diese Quelle liefert jedoch keinen direkten Vergleich mit DeepSeek V4 oder Kimi K2.6 [
26].
DeepSeek V4 und Kimi K2.6: keine direkte Benchmark-Basis
Für DeepSeek V4 enthalten die vorliegenden Quellen keine direkten Benchmarkzahlen. Der nächstliegende Eintrag ist DeepSeek V3.2: MangoMind führt DeepSeek V3.2 in den Coding-Empfehlungen für April 2026 mit 89,2 % SWE-bench, hinter Claude Opus 4.6 mit 93,2 % und GPT-5.4 Pro mit 91,1 % [1]. Daraus lässt sich aber keine Aussage über DeepSeek V4 ableiten.
Bei Kimi K2.6 ist die Lage ähnlich. Stanford HAI nennt KimiK2.5 als Teil einer Modellgruppe, die im Februar 2026 auf SWE-bench Verified zwischen 70 % und 76 % lag [13]. Siliconflow listet Kimi K2 Thinking mit GPQA 84,5 und SWE Bench 71,3 [
6]. Beides ist Kontext zum Kimi-Ökosystem, aber kein direkter Nachweis für Kimi K2.6.
Welche Modelle Teams zuerst testen sollten
| Wenn die Hauptanforderung lautet ... | Zuerst testen | Evidenz | Worauf achten |
|---|---|---|---|
| Terminal- oder CLI-Coding-Agent | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82,7 % vs. Claude 69,4 % [ | Shell-Umgebung, Berechtigungen, interne CI/CD und Sicherheitsgrenzen nachtesten. |
| Autonome Repo-Reparatur | Claude Opus 4.7, danach GPT-5.5 als Vergleich | SWE-Bench Pro Public: Claude 64,3 % vs. GPT-5.5 58,6 % [ | Nicht mit SWE-bench Verified vermischen, ohne den Harness abzugleichen [ |
| MCP oder komplexe Multi-Tool-Orchestrierung | Claude Opus 4.7 | MCP Atlas: Claude 79,1 % vs. GPT-5.5 75,3 % [ | Tool-Schemata, Retry-Logik, Rechtekonzept und Auditierbarkeit selbst prüfen. |
| Browser- oder Such-Agent | GPT-5.5 oder GPT-5.5 Pro | BrowseComp: GPT-5.5 84,4 %, GPT-5.5 Pro 90,1 %, Claude 79,3 % [ | BrowseComp ist nicht automatisch repräsentativ für jede interne Rechercheaufgabe. |
| Finanz- oder Professional-Workflow | Claude und GPT-5.5 gegeneinander testen | Claude führt in FinanceAgent v1.1, GPT-5.5 in GDPval und OfficeQA Pro [ | MindStudio betont, dass die Lücke zwischen Finance-Benchmark und produktivem Tool oft in der End-to-End-Infrastruktur liegt, nicht nur in der Modellintelligenz [ |
| Allgemeines wissenschaftliches Reasoning | Nicht allein nach GPQA entscheiden | GPQA Diamond liegt bei Claude und GPT-5.5 sehr eng beieinander [ | Besser domänenspezifische Tests nutzen, vor allem wenn die Aufgaben vom Benchmark abweichen. |
Fazit
Aus den verfügbaren Head-to-Head-Daten ergibt sich kein universeller Sieger. GPT-5.5 ist der stärkere Kandidat für Terminal-/CLI-Agenten, Browser- und Suchaufgaben, Office-Workflows und mehrere Mathematik-Benchmarks [5][
2]. Claude Opus 4.7 ist der stärkere Kandidat für SWE-Bench Pro Public, MCP- beziehungsweise Tool-Orchestrierung und FinanceAgent v1.1 [
5][
2].
DeepSeek V4 und Kimi K2.6 lassen sich auf dieser Quellenbasis nicht fair gegen beide einordnen. Die vorhandenen Daten betreffen DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking. Eine Behauptung, DeepSeek V4 oder Kimi K2.6 schlage Claude Opus 4.7 oder GPT-5.5, ist durch die hier vorliegenden direkten Benchmarkzahlen nicht belegt [1][
13][
6].




