Wer diese vier Modelle nach einem einzigen Score sortiert, tappt schnell in die Äpfel-mit-Birnen-Falle. Die belastbarere Lesart der vorliegenden Daten lautet: GPT-5.5 liefert das stärkste Aggregatsignal, Claude Opus 4.7 gewinnt mehrere schwierige Reasoning- und Software-Engineering-Zeilen, DeepSeek V4 hat den klarsten Preisvorteil im API-Betrieb, und Kimi K2.6 ist für Coding und Agenten-Workflows ernst zu nehmen, aber im direkten Vergleich mit GPT-5.5 und Claude Opus 4.7 dünner belegt.[2][
16][
15][
18][
19]
Kurzfazit: kein Gesamtsieg ohne Fußnote
| Wenn Ihnen vor allem wichtig ist … | Am besten belegte Wahl | Warum |
|---|---|---|
| Höchstes aggregiertes Intelligenzsignal | GPT-5.5 | Artificial Analysis listet GPT-5.5 xhigh mit 60 und GPT-5.5 high mit 59; Claude Opus 4.7 Adaptive Reasoning Max Effort steht bei 57.[ |
| Harte Reasoning- und Software-Engineering-Aufgaben | Claude Opus 4.7, mit GPT-5.5 dicht dahinter | In der gemeinsamen VentureBeat-Tabelle führt Claude bei GPQA Diamond, HLE no-tools, SWE-Bench Pro und MCP Atlas; GPT-5.5 beziehungsweise GPT-5.5 Pro liegt bei Terminal-Bench 2.0, BrowseComp und HLE mit Tools vorn.[ |
| Niedrigste gelistete Flaggschiff-API-Kosten | DeepSeek V4 | Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Eingabe-Tokens und 3,48 US-Dollar pro 1 Mio. Ausgabe-Tokens; GPT-5.5 liegt bei 5/30 US-Dollar, Claude Opus 4.7 bei 5/25 US-Dollar.[ |
| Offen gelegte Coding- und Competitive-Programming-Zahlen | DeepSeek V4 Pro | Together AI listet DeepSeek V4 Pro mit 93,5 % LiveCodeBench, Codeforces 3206, 80,6 % SWE-Bench Verified und 76,2 % SWE-Bench Multilingual.[ |
| Bewertung von Kimi K2.6 | Vielversprechend, aber nicht entschieden | Kimi K2.6 hat verwertbare Coding- und Agenten-Zahlen, doch viele Kimi-nahe Vergleiche stellen es GPT-5.4 und Claude Opus 4.6 gegenüber, nicht GPT-5.5 und Claude Opus 4.7.[ |
Das Gesamtranking spricht zuerst für GPT-5.5
Das klarste Aggregatsignal in den vorliegenden Quellen kommt von Artificial Analysis. Dort steht GPT-5.5 xhigh mit einem Intelligence Index von 60 auf Platz eins, GPT-5.5 high mit 59 auf Platz zwei; Claude Opus 4.7 Adaptive Reasoning Max Effort wird mit 57 geführt.[2]
Kimi K2.6 liegt in den verfügbaren Composite-Ausschnitten unter dieser GPT-5.5/Claude-Spitze. OpenRouter nennt für Kimi K2.6 53,9 Intelligence, 47,1 Coding und 66,0 Agentic; LLMBase führt Kimi in einem Vergleich mit DeepSeek V4 Flash High ebenfalls mit 53,9 Intelligence und 47,1 Coding.[3][
1] Derselbe LLMBase-Vergleich nennt für DeepSeek V4 Flash High 44,9 Intelligence und 39,8 Coding — das ist allerdings die Flash-Variante, nicht DeepSeek V4 Pro oder Pro-Max.[
1]
Wichtig ist die Einschränkung: Die vorhandenen Aggregatdaten liefern ein klares Signal für GPT-5.5 gegenüber Claude Opus 4.7, aber keine vollständige Vierer-Rangliste, in der GPT-5.5, Claude Opus 4.7, DeepSeek V4 Pro-Max und Kimi K2.6 exakt in derselben Zeile verglichen werden.[2]
Gemeinsame Benchmarks: Claude und GPT-5.5 teilen sich die Siege
Für einen direkteren Blick auf dieselben Testzeilen ist die VentureBeat-Tabelle am nützlichsten. Sie vergleicht DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro dort, wo diese Variante ausgewiesen ist, und Claude Opus 4.7.[16]
| Benchmark | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro, falls ausgewiesen | Claude Opus 4.7 | Bester Wert in dieser Quelle |
|---|---|---|---|---|---|
| GPQA Diamond | 90,1 % | 93,6 % | — | 94,2 % | Claude Opus 4.7 |
| Humanity’s Last Exam, ohne Tools | 37,7 % | 41,4 % | 43,1 % | 46,9 % | Claude Opus 4.7 |
| Humanity’s Last Exam, mit Tools | 48,2 % | 52,2 % | 57,2 % | 54,7 % | GPT-5.5 Pro |
| Terminal-Bench 2.0 | 67,9 % | 82,7 % | — | 69,4 % | GPT-5.5 |
| SWE-Bench Pro / SWE Pro | 55,4 % | 58,6 % | — | 64,3 % | Claude Opus 4.7 |
| BrowseComp | 83,4 % | 84,4 % | 90,1 % | 79,3 % | GPT-5.5 Pro |
| MCP Atlas / MCPAtlas Public | 73,6 % | 75,3 % | — | 79,1 % | Claude Opus 4.7 |
Das ist ein Split Decision, kein Durchmarsch. Claude Opus 4.7 hat in dieser Tabelle den stärkeren Fall bei GPQA Diamond, HLE no-tools, SWE-Bench Pro und MCP Atlas.[16] GPT-5.5 führt als Basismodell bei Terminal-Bench 2.0 und BrowseComp; GPT-5.5 Pro liegt dort vorn, wo VentureBeat diese Variante für HLE mit Tools und BrowseComp ausweist.[
16]
DeepSeek-V4-Pro-Max ist in mehreren Zeilen konkurrenzfähig, schlägt in dieser gemeinsamen Tabelle aber nicht den jeweils besten GPT-5.5- oder Claude-Opus-4.7-Wert. Am nächsten kommt es bei BrowseComp: 83,4 % gegenüber 84,4 % für GPT-5.5 und 79,3 % für Claude Opus 4.7.[16]
Coding: erst den Job definieren, dann das Modell wählen
Für repository-nahe Software-Engineering-Aufgaben hat Claude Opus 4.7 in der gemeinsamen VentureBeat-Tabelle den stärksten SWE-Bench-Pro-Wert: 64,3 %, gegenüber 58,6 % für GPT-5.5 und 55,4 % für DeepSeek-V4-Pro-Max.[16]
DeepSeek V4 Pro hat dafür das breiteste offen ausgewiesene Coding-Profil in den verfügbaren Modell-Listings. Together AI nennt 93,5 % LiveCodeBench, Codeforces 3206, 80,6 % SWE-Bench Verified und 76,2 % SWE-Bench Multilingual.[25] Auch NVIDIAs Model Card schlüsselt DeepSeek V4 Flash und V4 Pro über Benchmarks wie GPQA Diamond, HLE, LiveCodeBench und Codeforces auf; V4-Pro Max steht dort unter anderem bei 93,5 auf LiveCodeBench und 3206 auf Codeforces.[
31]
Kimi K2.6 hat ebenfalls relevante Coding-Signale, aber die stärksten Kimi-nahen Tabellen in den vorhandenen Quellen vergleichen es überwiegend mit älteren Gegenspielern. Lorka listet Kimi K2.6 mit 58,6 % auf SWE-Bench Pro, 54,0 % auf HLE-Full mit Tools, 90,5 % auf GPQA-Diamond und 79,4 % auf MMMU-Pro in einer Tabelle mit GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro.[18] Verdent nennt für Kimi K2.6 80,2 % auf SWE-Bench Verified, 66,7 % auf Terminal-Bench 2.0, 54,0 % auf HLE mit Tools und 89,6 % auf LiveCodeBench v6; zugleich wird dort erwähnt, dass Opus 4.7 bei SWE-Bench Verified mit 87,6 % führt.[
19]
Das macht Kimi K2.6 prüfenswert für Coding- und Agenten-Workflows. Die vorliegenden Daten reichen aber nicht aus, um Kimi K2.6 insgesamt vor GPT-5.5 oder Claude Opus 4.7 zu setzen.[18][
19]
Preise: DeepSeek V4 setzt den Maßstab beim API-Budget
Wenn API-Kosten zentral sind, hat DeepSeek V4 das stärkste Preisargument. Mashable listet DeepSeek V4 mit 1,74 US-Dollar pro 1 Mio. Eingabe-Tokens und 3,48 US-Dollar pro 1 Mio. Ausgabe-Tokens. GPT-5.5 wird dort mit 5 US-Dollar Eingabe und 30 US-Dollar Ausgabe pro 1 Mio. Tokens geführt, Claude Opus 4.7 mit 5 US-Dollar Eingabe und 25 US-Dollar Ausgabe.[15]
| Modell oder Variante | Gelisteter Eingabepreis | Gelisteter Ausgabepreis | Hinweis |
|---|---|---|---|
| GPT-5.5 | 5 US-Dollar pro 1 Mio. Tokens | 30 US-Dollar pro 1 Mio. Tokens | Mashable nennt in diesem Vergleich ein 1-Mio.-Kontextfenster.[ |
| Claude Opus 4.7 | 5 US-Dollar pro 1 Mio. Tokens | 25 US-Dollar pro 1 Mio. Tokens | Mashable nennt in diesem Vergleich ein 1-Mio.-Kontextfenster.[ |
| DeepSeek V4 | 1,74 US-Dollar pro 1 Mio. Tokens | 3,48 US-Dollar pro 1 Mio. Tokens | Mashable nennt in diesem Vergleich ein 1-Mio.-Kontextfenster.[ |
| DeepSeek V4 Flash | 0,14 US-Dollar pro 1 Mio. Tokens | 0,28 US-Dollar pro 1 Mio. Tokens | LLMBase nennt im Vergleich mit Kimi K2.6 einen blended Preis von 0,18 US-Dollar.[ |
| Kimi K2.6 | 0,95 US-Dollar pro 1 Mio. Tokens | 4,00 US-Dollar pro 1 Mio. Tokens | LLMBase nennt im selben Vergleich einen blended Preis von 1,71 US-Dollar.[ |
Gleichzeitig sollte man nicht jeden Endpoint gleichsetzen. Mashable nennt für DeepSeek V4, GPT-5.5 und Claude Opus 4.7 jeweils ein Kontextfenster von 1 Mio. Tokens; eine OpenRouter-Listung für DeepSeek V4 Pro zeigt dagegen 256K maximale Tokens und 66K maximale Ausgabe-Tokens.[15][
3] Für Produktivsysteme zählt daher der konkrete Anbieter, die Modellvariante und die gewählte Reasoning-Einstellung.
Stärken im Alltag
GPT-5.5: der beste Default, wenn das Aggregatranking zählt
GPT-5.5 ist die naheliegendste Wahl, wenn die Entscheidung vor allem am verfügbaren Gesamtranking hängt. Artificial Analysis listet GPT-5.5 xhigh mit 60 und GPT-5.5 high mit 59 als die beiden höchsten Intelligence-Index-Positionen im vorliegenden Ausschnitt.[2]
Auch in der gemeinsamen VentureBeat-Tabelle hat GPT-5.5 klare Stärken: 82,7 % auf Terminal-Bench 2.0 und 84,4 % auf BrowseComp für das Basismodell; GPT-5.5 Pro steht bei BrowseComp, wo diese Variante gezeigt wird, bei 90,1 %.[16]
Claude Opus 4.7: stark bei schwerem Reasoning und SWE
Claude Opus 4.7 liegt im Aggregatranking nahe an GPT-5.5: Artificial Analysis nennt 57 für Claude Opus 4.7 Adaptive Reasoning Max Effort.[2] In der VentureBeat-Tabelle führt Claude gegenüber GPT-5.5 und DeepSeek-V4-Pro-Max bei GPQA Diamond, HLE no-tools, SWE-Bench Pro und MCP Atlas.[
16]
Anthropic berichtet in eigenem Launch-Material außerdem interne Research-Agent-Ergebnisse: Claude Opus 4.7 habe über sechs Module hinweg einen geteilten Spitzenwert von 0,715 erreicht und im Modul General Finance 0,813 erzielt, gegenüber 0,767 für Opus 4.6.[17] Solche internen Angaben sind nützlich als Kontext, aber anders zu lesen als neutrale, anbieterübergreifende Leaderboards.[
17]
DeepSeek V4: der Value-Case, wenn die Variante passt
DeepSeek V4s offensichtlichster Vorteil ist der Preis. In Mashables Vergleich liegen die gelisteten Eingabe- und Ausgabepreise deutlich unter GPT-5.5 und Claude Opus 4.7: 1,74/3,48 US-Dollar pro 1 Mio. Tokens gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7.[15]
Dazu kommen starke veröffentlichte Coding-Zahlen für DeepSeek V4 Pro, darunter 93,5 % LiveCodeBench, Codeforces 3206, 80,6 % SWE-Bench Verified und 76,2 % SWE-Bench Multilingual in der Together-AI-Listung.[25] Der Haken: DeepSeek-V4-Pro-Max liegt in den gemeinsamen VentureBeat-Zeilen hinter dem jeweils besten GPT-5.5- oder Claude-Opus-4.7-Ergebnis, auch wenn es bei BrowseComp nahe herankommt.[
16]
Kimi K2.6: glaubwürdig für Coding und Agenten, aber weniger direkt belegt
Kimi K2.6 ist im direkten Vierervergleich schwerer einzuordnen, weil viele verfügbare Kimi-nahe Tabellen es eher mit GPT-5.4 und Claude Opus 4.6 vergleichen als mit GPT-5.5 und Claude Opus 4.7.[18][
19] Die Signale sind trotzdem nicht schwach: OpenRouter listet Kimi K2.6 mit 53,9 Intelligence, 47,1 Coding und 66,0 Agentic; Verdent nennt 80,2 % SWE-Bench Verified und 89,6 % LiveCodeBench v6.[
3][
19]
Die praktische Schlussfolgerung lautet daher nicht, dass Kimi K2.6 chancenlos ist. Sie lautet: Die direkte Beweislage ist dünner. Wenn Preis, Integrationsweg oder Agentenverhalten zu Ihrem Stack passen, sollte Kimi K2.6 in eine eigene Evaluation. Als Gesamtsieger gegen GPT-5.5 oder Claude Opus 4.7 lässt es sich auf Basis dieser Quellen aber nicht ausrufen.[18][
19]
Prüfpunkte vor der Entscheidung
- Variantenbezeichnungen sind entscheidend. DeepSeek V4 taucht in den Quellen als V4, V4 Flash, V4 Pro und DeepSeek-V4-Pro-Max auf; Preise, Limits, Benchmarkwerte und Reasoning-Modi unterscheiden sich je nach Variante.[
1][
15][
25][
31]
- Kimi-Vergleiche sind weniger direkt. Die stärksten Kimi-K2.6-Tabellen in den verfügbaren Quellen vergleichen häufig gegen GPT-5.4 und Claude Opus 4.6, nicht gegen GPT-5.5 und Claude Opus 4.7.[
18][
19]
- Humanity’s Last Exam ohne Tools ist in den Ausschnitten uneinheitlich. LLM Stats und VentureBeat nennen für GPT-5.5 41,4 % und für Claude Opus 4.7 46,9 %, während ein Mashable-Ausschnitt für GPT-5.5 40,6 % und für Opus 4.7 31,2 % berichtet.[
7][
16][
9]
- Interne Benchmarks sind keine unabhängigen Leaderboards. Anthropic meldet für Opus 4.7 interne Research-Agent-Gewinne; diese Werte sollten anders gewichtet werden als öffentliche Cross-Provider-Vergleiche.[
17]
- Preise und Kontextlimits sind provider-spezifisch. Dieselbe Modellfamilie kann je nach Endpoint mit anderen Kontextfenstern, Token-Limits und Ausgabegrenzen erscheinen.[
3][
15]
Unterm Strich
Wählen Sie GPT-5.5, wenn das verfügbare aggregierte Intelligenzranking Ihr wichtigstes Kriterium ist.[2] Wählen Sie Claude Opus 4.7, wenn Ihre Aufgaben den gemeinsamen harten Reasoning- und Software-Engineering-Zeilen ähneln, in denen Claude führt — darunter GPQA Diamond, HLE no-tools, SWE-Bench Pro und MCP Atlas.[
16] Wählen Sie DeepSeek V4, wenn Preis-Leistung entscheidend ist und Sie die passende V4-Variante sauber validieren können; die gelisteten API-Preise liegen deutlich unter GPT-5.5 und Claude Opus 4.7, und DeepSeek V4 Pro hat starke veröffentlichte Coding-Zahlen.[
15][
25] Behandeln Sie Kimi K2.6 als glaubwürdigen Kandidaten für Coding und Agenten-Workflows, aber nicht als belegten Gesamtsieger gegen GPT-5.5 oder Claude Opus 4.7.[
18][
19]




