Aus den vorliegenden Benchmark-Daten lässt sich kein seriöser Gesamtsieger ableiten. Die Tabellen decken nicht überall dieselben Modelle ab, und selbst bei derselben Modellfamilie tauchen unterschiedliche Modi auf: GPT-5.5 medium, GPT-5.5 xHigh/Codex, GPT-5.5 Pro, Claude Opus 4.7 non-reasoning high oder DeepSeek V4 Pro/Flash. Trotzdem ist das Bild für die Praxis brauchbar: GPT-5.5 punktet besonders bei ARC und Terminal-Aufgaben, Claude Opus 4.7 bei HLE und SWE-Bench Pro, Kimi K2.6 als Coding-/Agentic-Modell mit Open-Weight-Option, DeepSeek V4 eher über Preis-Leistung als über Spitzenwerte.[1][
2][
3][
4][
6][
8][
9][
13]
Kurzfazit: Wo welches Modell vorne liegt
- GPT-5.5 ist der naheliegende Startpunkt für ARC-Aufgaben und Terminal-/Shell-getriebene Agenten: DocsBot nennt 85 % auf ARC-AGI-2 gegenüber 75,8 % für Claude Opus 4.7; VentureBeat nennt 82,7 % auf Terminal-Bench 2.0 gegenüber 69,4 % bei Claude und 67,9 % bei DeepSeek.[
1][
3]
- Claude Opus 4.7 wirkt am stärksten, wenn schwieriges Reasoning und Code-Review-ähnliche Software-Engineering-Tests zählen: VentureBeat sieht Claude bei Humanity’s Last Exam ohne Tools und mit Tools vor dem Basiswert von GPT-5.5 und vor DeepSeek; DataCamp nennt 64,3 % auf SWE-Bench Pro gegenüber 58,6 % bei GPT-5.5 und 55,4 % bei DeepSeek V4 Pro.[
3][
9]
- Kimi K2.6 ist ein ernstzunehmender Coding-/Agentic-Kandidat, aber nicht in jeder Quelle direkt mit allen drei anderen Modellen vergleichbar: Im Artificial-Analysis-Ausschnitt erreicht Kimi 54, GPT-5.5 medium 57 und Claude Opus 4.7 non-reasoning high 52; im AkitaOnRails-Coding-Benchmark erreicht Kimi 87.[
13][
8]
- DeepSeek V4 ist in diesen Quellen weniger Benchmark-König als Kostenargument: Mashable nennt 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token, gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7.[
2]
Die wichtigsten Benchmark-Zeilen im Überblick
Ein Strich bedeutet: Im bereitgestellten Quellenausschnitt gibt es keinen direkt vergleichbaren Wert für dieses Modell.
| Benchmark / Quelle | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Lesart |
|---|---|---|---|---|---|
| ARC-AGI-2, DocsBot | 85 % | 75,8 % | — | — | GPT-5.5 liegt 9,2 Prozentpunkte vor Claude.[ |
| ARC-AGI-1, DocsBot | 95 % | 93,5 % | — | — | GPT-5.5 liegt leicht vor Claude.[ |
| Artificial Analysis Leaderboard | 57, GPT-5.5 medium | 52, Claude Opus 4.7 non-reasoning high | 54 | — | In diesem Ausschnitt liegt GPT-5.5 vor Kimi und dem genannten Claude-Modus; DeepSeek V4 ist dort nicht sichtbar.[ |
| Humanity’s Last Exam ohne Tools, VentureBeat | 41,4 % | 46,9 % | — | 37,7 % | Claude führt unter den gezeigten Basiswerten.[ |
| Humanity’s Last Exam mit Tools, VentureBeat | 52,2 %; GPT-5.5 Pro: 57,2 % | 54,7 % | — | 48,2 % | Claude liegt vor GPT-5.5, aber die separate GPT-5.5-Pro-Zeile liegt höher.[ |
| Terminal-Bench 2.0, VentureBeat | 82,7 % | 69,4 % | — | 67,9 % | Der deutlichste GPT-5.5-Vorsprung in dieser Auswahl.[ |
| SWE-Bench Pro, DataCamp | 58,6 % | 64,3 % | — | 55,4 %, DeepSeek V4 Pro | Claude liegt vor GPT-5.5 und DeepSeek V4 Pro.[ |
| SWE-Bench Verified, Verdent | — | 87,6 % | 80,2 % | — | Claude liegt in diesem Coding-Ausschnitt vor Kimi.[ |
| Coding-Benchmark, AkitaOnRails | 96, GPT-5.5 xHigh/Codex | 97 | 87 | 78, V4 Flash; 69, V4 Pro | Claude und GPT-5.5 liegen fast gleichauf; Kimi liegt vor beiden DeepSeek-V4-Zeilen.[ |
Warum daraus kein absoluter Champion folgt
Die größte Falle ist der scheinbar einfache Score-Vergleich. Tatsächlich messen die Quellen nicht immer dasselbe: Artificial Analysis listet GPT-5.5 medium, Kimi K2.6 und Claude Opus 4.7 non-reasoning high; AkitaOnRails nutzt GPT-5.5 xHigh/Codex sowie getrennte Zeilen für DeepSeek V4 Flash und DeepSeek V4 Pro; VentureBeat unterscheidet zusätzlich zwischen GPT-5.5 und GPT-5.5 Pro.[13][
8][
3]
Auch beim direkten Duell GPT-5.5 gegen Claude Opus 4.7 ist das Ergebnis nicht eindimensional. LLM Stats schreibt, dass auf zehn Benchmarks, die beide Anbieter melden, Claude Opus 4.7 in sechs vorne liegt und GPT-5.5 in vier; Claude-Vorteile häufen sich dort bei reasoning-lastigen und review-orientierten Tests, GPT-5.5-Vorteile bei lang laufendem Tool-Use und Shell-getriebenen Aufgaben.[4]
GPT-5.5: stark bei ARC und Terminal-Agenten
Die klarsten Signale zugunsten von GPT-5.5 kommen aus ARC und Terminal-Bench. Bei ARC-AGI-2 erreicht GPT-5.5 85 %, Claude Opus 4.7 75,8 %; bei ARC-AGI-1 sind es 95 % für GPT-5.5 und 93,5 % für Claude.[1] Auf Terminal-Bench 2.0 nennt VentureBeat 82,7 % für GPT-5.5, deutlich vor Claude Opus 4.7 mit 69,4 % und DeepSeek mit 67,9 %.[
3]
Auch Artificial Analysis setzt GPT-5.5 medium in dem verfügbaren Ausschnitt vor zwei Konkurrenten aus dieser Gruppe: 57 gegenüber 54 für Kimi K2.6 und 52 für Claude Opus 4.7 non-reasoning high.[13] Das ist aber kein universelles Urteil über alle Modi und Aufgaben. Gerade LLM Stats zeigt, dass Claude Opus 4.7 in mehreren Reasoning- und Software-Engineering-Tests vor GPT-5.5 liegt.[
4]
Claude Opus 4.7: stark bei schwerem Reasoning und Software Engineering
Claude Opus 4.7 sieht dort besonders gut aus, wo komplexes Schlussfolgern und die Prüfung anspruchsvoller Codeänderungen gefragt sind. Bei Humanity’s Last Exam ohne Tools nennt VentureBeat 46,9 % für Claude, 41,4 % für GPT-5.5 und 37,7 % für DeepSeek; mit Tools sind es 54,7 % für Claude, 52,2 % für GPT-5.5 und 48,2 % für DeepSeek.[3]
Bei SWE-Bench Pro führt DataCamp 64,3 % für Claude Opus 4.7, 58,6 % für GPT-5.5 und 55,4 % für DeepSeek V4 Pro auf.[9] Das passt zur Einordnung von LLM Stats: Dort liegt Claude gegenüber GPT-5.5 unter anderem bei GPQA, HLE ohne Tools, HLE mit Tools, SWE-Bench Pro, MCP Atlas und FinanceAgent v1.1 vorn.[
4]
Kimi K2.6: Coding-Kandidat mit Open-Weight-Route
Kimi K2.6 lässt sich schwer in ein vollständiges Vierer-Ranking pressen, weil es nicht überall in denselben Tabellen auftaucht. Im Artificial-Analysis-Ausschnitt erreicht Kimi K2.6 den Wert 54, liegt damit unter GPT-5.5 medium mit 57, aber über Claude Opus 4.7 non-reasoning high mit 52.[13]
Im Coding-Benchmark von AkitaOnRails erreicht Kimi K2.6 einen Score von 87. Das liegt unter Claude Opus 4.7 mit 97 und GPT-5.5 xHigh/Codex mit 96, aber über DeepSeek V4 Flash mit 78 und DeepSeek V4 Pro mit 69.[8] In einem separaten Verdent-Vergleich zu SWE-Bench Verified werden 80,2 % für Kimi K2.6 und 87,6 % für Claude Opus 4.7 genannt.[
6]
Der besondere Produktwinkel bei Kimi ist die Open-Weight-Option. Verdent schreibt, dass die K2.6-Weights auf Hugging Face verfügbar sind und über vLLM, SGLang oder KTransformers laufen; als minimal praktikable Hardware-Konfiguration nennt die Quelle 4× H100 für die INT4-Variante bei reduziertem Kontext.[6] Ein Hugging-Face-README nennt für Kimi K2.6 außerdem Agentic-Werte wie HLE-Full mit Tools 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 und MCPMark 55,9; diese Tabelle vergleicht Kimi jedoch vor allem mit GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro, nicht mit dem vollständigen Viererfeld dieses Artikels.[
25]
DeepSeek V4: nicht der höchste Score, aber der günstigere Hebel
In den vorliegenden Quellen erscheint DeepSeek V4 meist als Value-Modell, nicht als Spitzenreiter nach Rohscore. Bei VentureBeat liegt DeepSeek hinter GPT-5.5 und Claude Opus 4.7 auf HLE ohne Tools, HLE mit Tools und Terminal-Bench 2.0.[3] Bei DataCamp erreicht DeepSeek V4 Pro 55,4 % auf SWE-Bench Pro, gegenüber 58,6 % bei GPT-5.5 und 64,3 % bei Claude Opus 4.7.[
9] Bei AkitaOnRails liegen DeepSeek V4 Flash mit 78 und DeepSeek V4 Pro mit 69 unter Kimi K2.6, GPT-5.5 xHigh/Codex und Claude Opus 4.7 in derselben Tabelle.[
8]
Der Preis ändert aber die praktische Rechnung. Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token. Für GPT-5.5 werden 5 US-Dollar pro 1 Mio. Input-Token und 30 US-Dollar pro 1 Mio. Output-Token genannt, für Claude Opus 4.7 5 beziehungsweise 25 US-Dollar.[2] Das macht DeepSeek nicht automatisch zum Benchmark-Sieger, kann es aber für große Mengen an Entwürfen, interne Evals oder weniger riskante Automatisierungen attraktiv machen.
Welche Modellwahl sich für welche Aufgabe anbietet
- ARC, visuelles Reasoning und abstrakte Musteraufgaben: zuerst GPT-5.5 testen, weil es in der DocsBot-Gegenüberstellung bei ARC-AGI-2 und ARC-AGI-1 vor Claude Opus 4.7 liegt.[
1]
- Hard Reasoning und HLE-ähnliche Aufgaben: zuerst Claude Opus 4.7 prüfen, wenn es um die Basiswerte geht; die separate GPT-5.5-Pro-Zeile liegt bei HLE mit Tools allerdings über Claude.[
3]
- Terminal-Agenten, Shell-Workflows und Tool-Use: GPT-5.5 ist in diesen Quellen der stärkste erste Kandidat, vor allem wegen Terminal-Bench 2.0.[
3][
4]
- SWE-Bench Pro und review-lastiges Software Engineering: Claude Opus 4.7 zuerst evaluieren, weil DataCamp und LLM Stats beide einen Vorteil von Claude bei SWE-Bench Pro ausweisen.[
9][
4]
- Open-Weight- oder Self-Hosted-Szenarien: Kimi K2.6 testen, wenn der Weg über Hugging Face, vLLM, SGLang oder KTransformers wichtiger ist als ein reines API-Angebot.[
6]
- Preisgetriebene High-Volume-Experimente: DeepSeek V4 in Betracht ziehen, wenn die Kosten pro Versuch wichtiger sind als der höchste Benchmark-Score.[
2][
3][
9]
Fazit
Nach den verfügbaren Benchmark-Daten bilden GPT-5.5 und Claude Opus 4.7 die stärkste Spitzengruppe, aber mit unterschiedlichen Profilen: GPT-5.5 überzeugt besonders bei ARC und Terminal-Bench, Claude Opus 4.7 bei HLE und SWE-Bench Pro.[1][
3][
4][
9] Kimi K2.6 bleibt ein spannender Coding-/Agentic-Kandidat, vor allem wenn Open Weights und Self-Hosting eine Rolle spielen, hat aber weniger direkte Vierer-Vergleiche.[
6][
8][
13] DeepSeek V4 liegt in diesen Daten häufiger unter den höchsten Rohwerten, kann dafür über die API-Kosten eine sehr rationale Wahl für preisbewusste Pilotprojekte sein.[
2][
3][
9]




