Das klarste Aggregatsignal in den vorliegenden Quellen kommt von Artificial Analysis. Dort steht GPT-5.5 xhigh mit einem Intelligence Index von 60 auf Platz eins, GPT-5.5 high mit 59 auf Platz zwei; Claude Opus 4.7 Adaptive Reasoning Max Effort wird mit 57 geführt.
Kimi K2.6 liegt in den verfügbaren Composite-Ausschnitten unter dieser GPT-5.5/Claude-Spitze. OpenRouter nennt für Kimi K2.6 53,9 Intelligence, 47,1 Coding und 66,0 Agentic; LLMBase führt Kimi in einem Vergleich mit DeepSeek V4 Flash High ebenfalls mit 53,9 Intelligence und 47,1 Coding. Derselbe LLMBase-Vergleich nennt für DeepSeek V4 Flash High 44,9 Intelligence und 39,8 Coding — das ist allerdings die Flash-Variante, nicht DeepSeek V4 Pro oder Pro-Max.
Wichtig ist die Einschränkung: Die vorhandenen Aggregatdaten liefern ein klares Signal für GPT-5.5 gegenüber Claude Opus 4.7, aber keine vollständige Vierer-Rangliste, in der GPT-5.5, Claude Opus 4.7, DeepSeek V4 Pro-Max und Kimi K2.6 exakt in derselben Zeile verglichen werden.
Für einen direkteren Blick auf dieselben Testzeilen ist die VentureBeat-Tabelle am nützlichsten. Sie vergleicht DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro dort, wo diese Variante ausgewiesen ist, und Claude Opus 4.7.
| Benchmark | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro, falls ausgewiesen | Claude Opus 4.7 | Bester Wert in dieser Quelle |
|---|---|---|---|---|---|
| GPQA Diamond | 90,1 % | 93,6 % | — | 94,2 % | Claude Opus 4.7 |
| Humanity’s Last Exam, ohne Tools | 37,7 % | 41,4 % | 43,1 % | 46,9 % | Claude Opus 4.7 |
| Humanity’s Last Exam, mit Tools | 48,2 % | 52,2 % | 57,2 % | 54,7 % | GPT-5.5 Pro |
| Terminal-Bench 2.0 | 67,9 % | 82,7 % | — | 69,4 % | GPT-5.5 |
| SWE-Bench Pro / SWE Pro | 55,4 % | 58,6 % | — | 64,3 % | Claude Opus 4.7 |
| BrowseComp | 83,4 % | 84,4 % | 90,1 % | 79,3 % | GPT-5.5 Pro |
| MCP Atlas / MCPAtlas Public | 73,6 % | 75,3 % | — | 79,1 % | Claude Opus 4.7 |
Das ist ein Split Decision, kein Durchmarsch. Claude Opus 4.7 hat in dieser Tabelle den stärkeren Fall bei GPQA Diamond, HLE no-tools, SWE-Bench Pro und MCP Atlas. GPT-5.5 führt als Basismodell bei Terminal-Bench 2.0 und BrowseComp; GPT-5.5 Pro liegt dort vorn, wo VentureBeat diese Variante für HLE mit Tools und BrowseComp ausweist.
DeepSeek-V4-Pro-Max ist in mehreren Zeilen konkurrenzfähig, schlägt in dieser gemeinsamen Tabelle aber nicht den jeweils besten GPT-5.5- oder Claude-Opus-4.7-Wert. Am nächsten kommt es bei BrowseComp: 83,4 % gegenüber 84,4 % für GPT-5.5 und 79,3 % für Claude Opus 4.7.
Für repository-nahe Software-Engineering-Aufgaben hat Claude Opus 4.7 in der gemeinsamen VentureBeat-Tabelle den stärksten SWE-Bench-Pro-Wert: 64,3 %, gegenüber 58,6 % für GPT-5.5 und 55,4 % für DeepSeek-V4-Pro-Max.
DeepSeek V4 Pro hat dafür das breiteste offen ausgewiesene Coding-Profil in den verfügbaren Modell-Listings. Together AI nennt 93,5 % LiveCodeBench, Codeforces 3206, 80,6 % SWE-Bench Verified und 76,2 % SWE-Bench Multilingual. Auch NVIDIAs Model Card schlüsselt DeepSeek V4 Flash und V4 Pro über Benchmarks wie GPQA Diamond, HLE, LiveCodeBench und Codeforces auf; V4-Pro Max steht dort unter anderem bei 93,5 auf LiveCodeBench und 3206 auf Codeforces.
Kimi K2.6 hat ebenfalls relevante Coding-Signale, aber die stärksten Kimi-nahen Tabellen in den vorhandenen Quellen vergleichen es überwiegend mit älteren Gegenspielern. Lorka listet Kimi K2.6 mit 58,6 % auf SWE-Bench Pro, 54,0 % auf HLE-Full mit Tools, 90,5 % auf GPQA-Diamond und 79,4 % auf MMMU-Pro in einer Tabelle mit GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro. Verdent nennt für Kimi K2.6 80,2 % auf SWE-Bench Verified, 66,7 % auf Terminal-Bench 2.0, 54,0 % auf HLE mit Tools und 89,6 % auf LiveCodeBench v6; zugleich wird dort erwähnt, dass Opus 4.7 bei SWE-Bench Verified mit 87,6 % führt.
Das macht Kimi K2.6 prüfenswert für Coding- und Agenten-Workflows. Die vorliegenden Daten reichen aber nicht aus, um Kimi K2.6 insgesamt vor GPT-5.5 oder Claude Opus 4.7 zu setzen.
Wenn API-Kosten zentral sind, hat DeepSeek V4 das stärkste Preisargument. Mashable listet DeepSeek V4 mit 1,74 US-Dollar pro 1 Mio. Eingabe-Tokens und 3,48 US-Dollar pro 1 Mio. Ausgabe-Tokens. GPT-5.5 wird dort mit 5 US-Dollar Eingabe und 30 US-Dollar Ausgabe pro 1 Mio. Tokens geführt, Claude Opus 4.7 mit 5 US-Dollar Eingabe und 25 US-Dollar Ausgabe.
Gleichzeitig sollte man nicht jeden Endpoint gleichsetzen. Mashable nennt für DeepSeek V4, GPT-5.5 und Claude Opus 4.7 jeweils ein Kontextfenster von 1 Mio. Tokens; eine OpenRouter-Listung für DeepSeek V4 Pro zeigt dagegen 256K maximale Tokens und 66K maximale Ausgabe-Tokens. Für Produktivsysteme zählt daher der konkrete Anbieter, die Modellvariante und die gewählte Reasoning-Einstellung.
GPT-5.5 ist die naheliegendste Wahl, wenn die Entscheidung vor allem am verfügbaren Gesamtranking hängt. Artificial Analysis listet GPT-5.5 xhigh mit 60 und GPT-5.5 high mit 59 als die beiden höchsten Intelligence-Index-Positionen im vorliegenden Ausschnitt.
Auch in der gemeinsamen VentureBeat-Tabelle hat GPT-5.5 klare Stärken: 82,7 % auf Terminal-Bench 2.0 und 84,4 % auf BrowseComp für das Basismodell; GPT-5.5 Pro steht bei BrowseComp, wo diese Variante gezeigt wird, bei 90,1 %.
Claude Opus 4.7 liegt im Aggregatranking nahe an GPT-5.5: Artificial Analysis nennt 57 für Claude Opus 4.7 Adaptive Reasoning Max Effort. In der VentureBeat-Tabelle führt Claude gegenüber GPT-5.5 und DeepSeek-V4-Pro-Max bei GPQA Diamond, HLE no-tools, SWE-Bench Pro und MCP Atlas.
Anthropic berichtet in eigenem Launch-Material außerdem interne Research-Agent-Ergebnisse: Claude Opus 4.7 habe über sechs Module hinweg einen geteilten Spitzenwert von 0,715 erreicht und im Modul General Finance 0,813 erzielt, gegenüber 0,767 für Opus 4.6. Solche internen Angaben sind nützlich als Kontext, aber anders zu lesen als neutrale, anbieterübergreifende Leaderboards.
DeepSeek V4s offensichtlichster Vorteil ist der Preis. In Mashables Vergleich liegen die gelisteten Eingabe- und Ausgabepreise deutlich unter GPT-5.5 und Claude Opus 4.7: 1,74/3,48 US-Dollar pro 1 Mio. Tokens gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7.
Dazu kommen starke veröffentlichte Coding-Zahlen für DeepSeek V4 Pro, darunter 93,5 % LiveCodeBench, Codeforces 3206, 80,6 % SWE-Bench Verified und 76,2 % SWE-Bench Multilingual in der Together-AI-Listung. Der Haken: DeepSeek-V4-Pro-Max liegt in den gemeinsamen VentureBeat-Zeilen hinter dem jeweils besten GPT-5.5- oder Claude-Opus-4.7-Ergebnis, auch wenn es bei BrowseComp nahe herankommt.
Kimi K2.6 ist im direkten Vierervergleich schwerer einzuordnen, weil viele verfügbare Kimi-nahe Tabellen es eher mit GPT-5.4 und Claude Opus 4.6 vergleichen als mit GPT-5.5 und Claude Opus 4.7. Die Signale sind trotzdem nicht schwach: OpenRouter listet Kimi K2.6 mit 53,9 Intelligence, 47,1 Coding und 66,0 Agentic; Verdent nennt 80,2 % SWE-Bench Verified und 89,6 % LiveCodeBench v6.
Die praktische Schlussfolgerung lautet daher nicht, dass Kimi K2.6 chancenlos ist. Sie lautet: Die direkte Beweislage ist dünner. Wenn Preis, Integrationsweg oder Agentenverhalten zu Ihrem Stack passen, sollte Kimi K2.6 in eine eigene Evaluation. Als Gesamtsieger gegen GPT-5.5 oder Claude Opus 4.7 lässt es sich auf Basis dieser Quellen aber nicht ausrufen.
Wählen Sie GPT-5.5, wenn das verfügbare aggregierte Intelligenzranking Ihr wichtigstes Kriterium ist. Wählen Sie Claude Opus 4.7, wenn Ihre Aufgaben den gemeinsamen harten Reasoning- und Software-Engineering-Zeilen ähneln, in denen Claude führt — darunter GPQA Diamond, HLE no-tools, SWE-Bench Pro und MCP Atlas.
Wählen Sie DeepSeek V4, wenn Preis-Leistung entscheidend ist und Sie die passende V4-Variante sauber validieren können; die gelisteten API-Preise liegen deutlich unter GPT-5.5 und Claude Opus 4.7, und DeepSeek V4 Pro hat starke veröffentlichte Coding-Zahlen.
Behandeln Sie Kimi K2.6 als glaubwürdigen Kandidaten für Coding und Agenten-Workflows, aber nicht als belegten Gesamtsieger gegen GPT-5.5 oder Claude Opus 4.7.
Comments
0 comments