Vier aktuelle Spitzenmodelle in eine einzige Rangliste zu pressen, klingt verlockend. Für die Praxis ist das aber die falsche Frage. Die belastbarere Lesart der verfügbaren Daten lautet: Nicht das eine beste Modell suchen, sondern das passende Modell pro Aufgabe testen.
Der vollständigste direkte Vergleich deckt DeepSeek V4-Pro-Max, GPT-5.5 bzw. GPT-5.5 Pro und Claude Opus 4.7 ab. Kimi K2.6 ist dagegen nur über verstreute Datenpunkte zu Kontextfenster, BrowseComp, SWE-Bench Pro, Hugging-Face-Model-Card und einen einzelnen Coding-Praxistest vergleichbar. Deshalb sollte Kimi K2.6 in die Shortlist, aber nicht unbesehen in dieselbe Gesamttabelle gezwängt werden.[4][
6][
10][
16][
22][
24]
Schnellentscheidung: Welches Modell zuerst testen?
| Einsatzszenario | Zuerst testen | Warum |
|---|---|---|
| Schwieriges Reasoning, akademische Fragen, Antworten ohne Tools | Claude Opus 4.7 | In der gemeinsamen Tabelle liegt Claude Opus 4.7 bei GPQA Diamond mit 94,2 % und bei Humanity’s Last Exam ohne Tools mit 46,9 % vorn.[ |
| Terminal-, Browser- und Tool-Use-Agenten | GPT-5.5 / GPT-5.5 Pro | GPT-5.5 erreicht bei Terminal-Bench 2.0 82,7 %; GPT-5.5 Pro liegt bei BrowseComp mit 90,1 % vorn.[ |
| Software Engineering | Claude Opus 4.7 zuerst; GPT-5.5 und Kimi K2.6 danach im eigenen Repo testen | Claude Opus 4.7 erreicht in der gemeinsamen Tabelle 64,3 % bei SWE-Bench Pro / SWE Pro; LLM Stats nennt für Claude 0,64 gegenüber 0,59 für GPT-5.5 und Kimi K2.6.[ |
| Viele API-Aufrufe, starkes Kostenargument | DeepSeek V4 | DeepSeek V4-Pro-Max führt in der gemeinsamen Benchmark-Tabelle zwar keinen Test an, wird aber als etwa ein Sechstel so teuer wie aktuelle US-Modelle beschrieben.[ |
| Kimi-Ökosystem, alternative Coding-Agent-Route | Kimi K2.6 | Kimi K2.6 kommt bei DocsBot auf 83,2 % in BrowseComp und bei LLM Stats auf 0,59 in SWE-Bench Pro; es fehlt aber eine vollständige gemeinsame Vier-Modell-Tabelle.[ |
| Sehr lange Kontext-Workflows | Claude Opus 4.7 / GPT-5.5 eher im Vorteil | Yahoo/Tech nennt für GPT-5.5 und Claude Opus 4.7 jeweils ein Kontextfenster von 1 Mio. Tokens; Artificial Analysis listet Kimi K2.6 mit 256k Tokens und Claude Opus 4.7 mit 1000k Tokens.[ |
Der wichtigste direkte Benchmark-Vergleich: Claude, GPT-5.5 und DeepSeek
Die folgende Tabelle stammt aus einer gemeinsamen Vergleichsbasis und eignet sich deshalb am besten, um DeepSeek V4-Pro-Max, GPT-5.5 bzw. GPT-5.5 Pro und Claude Opus 4.7 gegeneinander zu lesen. GPT-5.5 Pro ist nur in einigen Zeilen ausgewiesen.[4]
| Benchmark | DeepSeek V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Höchster Wert |
|---|---|---|---|---|---|
| GPQA Diamond | 90,1 % | 93,6 % | — | 94,2 % | Claude Opus 4.7 [ |
| Humanity’s Last Exam, ohne Tools | 37,7 % | 41,4 % | 43,1 % | 46,9 % | Claude Opus 4.7 [ |
| Humanity’s Last Exam, mit Tools | 48,2 % | 52,2 % | 57,2 % | 54,7 % | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 67,9 % | 82,7 % | — | 69,4 % | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 55,4 % | 58,6 % | — | 64,3 % | Claude Opus 4.7 [ |
| BrowseComp | 83,4 % | 84,4 % | 90,1 % | 79,3 % | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 73,6 % | 75,3 % | — | 79,1 % | Claude Opus 4.7 [ |
Die praktische Lesart ist klar: Claude Opus 4.7 liegt in dieser Tabelle bei schwierigem Reasoning, No-Tools-Aufgaben, Software Engineering und MCP Atlas vorn. GPT-5.5 bzw. GPT-5.5 Pro stechen dagegen bei Terminal-, Browser- und Tool-Use-Aufgaben heraus.[4]
DeepSeek V4-Pro-Max gewinnt in dieser gemeinsamen Tabelle keinen Einzelbenchmark. Trotzdem ist der Abstand nicht überall groß: Bei BrowseComp erreicht DeepSeek 83,4 %, knapp hinter GPT-5.5 mit 84,4 % und vor Claude Opus 4.7 mit 79,3 %.[4]
Kimi K2.6: Stark genug für die Shortlist, aber nicht sauber in dieselbe Rangliste einzuordnen
Bei Kimi K2.6 ist nicht das Problem, dass es gar keine Daten gäbe. Das Problem ist, dass Quellen, Modi und Vergleichsgruppen nicht deckungsgleich sind. Die folgenden Werte helfen bei der Einordnung, sollten aber nicht als direkte Vier-Modell-Gesamtrangliste gelesen werden.[6][
10][
16][
22][
24]
| Kennzahl | Sichtbare Daten zu Kimi K2.6 | Vergleichsdaten | Sinnvolle Interpretation |
|---|---|---|---|
| Kontextfenster | 256k Tokens | Claude Opus 4.7 wird in derselben Vergleichsseite mit 1000k Tokens geführt | Claude bietet in dieser Quelle deutlich mehr nutzbaren Kontext.[ |
| BrowseComp | 83,2 % im Thinking Mode | DeepSeek-V4 Pro: 83,4 % Pass@1 / Think Max | Kimi und DeepSeek liegen in dieser Quelle sehr nah beieinander; GPT-5.5 und Claude Opus 4.7 sind dort aber nicht gleichzeitig in derselben Gegenüberstellung enthalten.[ |
| AIME 2026 / APEX Agents | AIME 2026: 96,4 %; APEX Agents: 27,9 % | Für DeepSeek-V4 Pro auf derselben Seite nicht verfügbar | Zeigt relevante Mathematik- und Agenten-Signale, aber keinen vollständigen Vier-Modell-Vergleich.[ |
| SWE-Bench Pro | 0,59 | Claude Opus 4.7: 0,64; GPT-5.5: 0,59; DeepSeek V4-Pro-Max: 0,55 | Auf LLM Stats liegt Kimi gleichauf mit GPT-5.5, unter Claude und über DeepSeek.[ |
| MMLU-Pro / SimpleQA-Verified | MMLU-Pro: 87,1; SimpleQA-Verified: 36,9 | DS-V4-Pro Max: 87,5 bzw. 57,9 | Hilft beim Vergleich mit DeepSeek; die ebenfalls aufgeführten Opus- und GPT-Modelle sind dort jedoch Opus-4.6 Max und GPT-5.4 xHigh, nicht die hier betrachteten Versionen.[ |
| Einzelner Coding-Praxistest | 87 Punkte | Claude Opus 4.7: 97; GPT-5.5 xHigh: 96; DeepSeek V4 Flash: 78; DeepSeek V4 Pro: 69 | Nützlich als Praxissignal, aber kein Ersatz für standardisierte Benchmarks oder eigene Repo-Evals.[ |
Damit ist Kimi K2.6 am besten als vielversprechender Kandidat einzuordnen: interessant für Teams, die Kimi-spezifische Workflows, alternative Coding-Agenten oder Kostenvarianten testen möchten. Die vorliegenden Daten reichen aber nicht aus, um Kimi K2.6 belastbar zum Gesamtsieger der vier Modelle zu erklären.[10][
16][
24]
Kosten, Kontextfenster und Betriebsaufwand
Benchmarks beantworten nur die Fähigkeitsfrage. Für den produktiven Einsatz zählen zusätzlich API-Preise, Output-Kosten, Kontextlänge, Latenz, Datenanforderungen und — falls Selbstbetrieb geplant ist — Modellgröße und Infrastruktur.
| Modell | Verifizierbare Angaben | Bedeutung für die Auswahl |
|---|---|---|
| GPT-5.5 | 5 US-Dollar pro 1 Mio. Input-Tokens; 30 US-Dollar pro 1 Mio. Output-Tokens; 1 Mio. Kontextfenster | Gleicher Input-Preis wie Claude Opus 4.7 im genannten Bericht, aber höherer Output-Preis.[ |
| Claude Opus 4.7 | 5 US-Dollar pro 1 Mio. Input-Tokens; 25 US-Dollar pro 1 Mio. Output-Tokens; 1 Mio. Kontextfenster | Im selben Bericht günstiger beim Output als GPT-5.5; Artificial Analysis listet Claude außerdem mit 1000k Kontext.[ |
| Kimi K2.6 | 256k Kontextfenster | Deutlich kürzeres Kontextfenster als Claude Opus 4.7 in der Artificial-Analysis-Gegenüberstellung; in den hier vorliegenden Quellen fehlt ein ausreichend vollständiger, verifizierbarer Token-Preis.[ |
| DeepSeek V4 | Laut Bericht etwa ein Sechstel der Kosten aktueller US-Modelle; DataCamp listet DeepSeek V4 Pro als MoE-Modell mit 1,6 Billionen Gesamtparametern, 49 Milliarden aktiven Parametern und 865 GB Download, die Flash-Variante mit 284 Milliarden Gesamtparametern, 13 Milliarden aktiven Parametern und 160 GB Download | Bei API-Nutzung ist das Kostenargument zentral; bei Selbstbetrieb oder privater Bereitstellung müssen Modellgröße, Hardware, Download, Inferenzkosten und Betriebskompetenz mitgerechnet werden.[ |
Der wichtigste Kostensatz aus den vorliegenden Quellen: GPT-5.5 und Claude Opus 4.7 werden beide mit 5 US-Dollar pro 1 Mio. Input-Tokens genannt. Beim Output liegt GPT-5.5 bei 30 US-Dollar pro 1 Mio. Tokens, Claude Opus 4.7 bei 25 US-Dollar. DeepSeek positioniert sich dagegen über das deutlich niedrigere Kostenniveau von etwa einem Sechstel aktueller US-Modelle.[20]
Auswahl nach Aufgabe
1. Schwieriges Reasoning: Claude Opus 4.7 zuerst testen
Wenn es um anspruchsvolle Analyse, wissenschaftsnahe Fragen, No-Tools-Problemlösung oder hohe Antwortzuverlässigkeit geht, ist Claude Opus 4.7 in den gemeinsamen Daten die stärkste erste Wahl. Bei GPQA Diamond erreicht Claude 94,2 %, gegenüber 93,6 % für GPT-5.5 und 90,1 % für DeepSeek V4-Pro-Max. Bei Humanity’s Last Exam ohne Tools liegt Claude mit 46,9 % ebenfalls vorn.[4]
2. Terminal, Browser, Tool-Use: GPT-5.5 bzw. GPT-5.5 Pro zuerst testen
Für Workflows mit Terminal-Kommandos, Browser-Aktionen, Tool-Orchestrierung oder Agentensteuerung sprechen die Daten eher für GPT-5.5. In Terminal-Bench 2.0 kommt GPT-5.5 auf 82,7 %, während Claude Opus 4.7 bei 69,4 % und DeepSeek V4-Pro-Max bei 67,9 % liegen. Bei BrowseComp erreicht GPT-5.5 Pro 90,1 % und damit den höchsten Wert in der Tabelle.[4]
3. Software Engineering: Claude liegt vorn, aber eigene Repo-Tests bleiben Pflicht
In der gemeinsamen Tabelle führt Claude Opus 4.7 bei SWE-Bench Pro / SWE Pro mit 64,3 %. GPT-5.5 erreicht 58,6 %, DeepSeek V4-Pro-Max 55,4 %.[4] LLM Stats zeigt eine ähnliche Richtung: Claude Opus 4.7 liegt bei 0,64, GPT-5.5 und Kimi K2.6 jeweils bei 0,59, DeepSeek V4-Pro-Max bei 0,55.[
24]
Gerade Coding-Benchmarks reagieren aber empfindlich auf Repository, Programmiersprache, Testframework, Agenten-Setup und Prompting. Ein einzelner Coding-Praxistest nennt Claude Opus 4.7 mit 97 Punkten, GPT-5.5 xHigh mit 96, Kimi K2.6 mit 87, DeepSeek V4 Flash mit 78 und DeepSeek V4 Pro mit 69. Das ist ein nützliches Signal, sollte aber keine produktive Modellentscheidung allein tragen.[16]
4. Kostenkritische Massenaufrufe: DeepSeek V4 ernsthaft prüfen
Wenn die zentrale Grenze nicht die letzte Benchmark-Prozentzahl, sondern der Tokenpreis ist, gehört DeepSeek V4 weit nach oben auf die Testliste. In der gemeinsamen Tabelle liegt DeepSeek V4-Pro-Max zwar nicht auf Platz eins, bleibt aber bei mehreren Aufgaben in Schlagdistanz; gleichzeitig wird DeepSeek als etwa ein Sechstel so teuer wie aktuelle US-Modelle beschrieben.[4][
20]
Bei privater Bereitstellung wird die Rechnung allerdings komplexer. DataCamp nennt für DeepSeek V4 Pro 1,6 Billionen Gesamtparameter, 49 Milliarden aktive Parameter und 865 GB Download.[13] Wer nicht nur eine API nutzt, sondern Deployment, Datenschutz oder On-Premises-Optionen prüft, muss Hardware, Inferenzkosten und Betriebsteam realistisch einpreisen.
5. Kimi K2.6: In die Shortlist aufnehmen, aber selbst nachmessen
Kimi K2.6 liefert mehrere starke Hinweise: DocsBot nennt 83,2 % bei BrowseComp, fast gleichauf mit DeepSeek-V4 Pro bei 83,4 %. LLM Stats führt Kimi K2.6 bei SWE-Bench Pro mit 0,59 und damit gleichauf mit GPT-5.5. Der einzelne Coding-Praxistest nennt 87 Punkte.[10][
16][
24]
Trotzdem fehlt derzeit eine vollständige, gleich konfigurierte und gleich quellenbasierte Benchmark-Tabelle mit Claude Opus 4.7, GPT-5.5, DeepSeek V4-Pro-Max und Kimi K2.6. Deshalb ist Kimi K2.6 ein Kandidat mit Potenzial — nicht aber ein sauber belegter Gesamtsieger.[10][
24]
Warum man die Ranglisten nicht überdehnen sollte
- Kimi K2.6 fehlt in der wichtigsten gemeinsamen Tabelle. Die vollständigste gemeinsame Datenbasis umfasst DeepSeek V4-Pro-Max, GPT-5.5 bzw. GPT-5.5 Pro und Claude Opus 4.7, aber nicht Kimi K2.6. Für Kimi müssen zusätzliche Quellen wie DocsBot, Artificial Analysis, LLM Stats, Hugging Face und ein einzelner Coding-Test herangezogen werden.[
4][
6][
10][
16][
22][
24]
- Versions- und Modusnamen sind nicht einheitlich. In den Quellen tauchen unter anderem GPT-5.5 Pro, GPT-5.5 xHigh, DeepSeek-V4 Pro, DeepSeek V4-Pro-Max, Kimi Thinking sowie Claude Opus 4.7 Adaptive Reasoning / Max Effort auf. Diese Bezeichnungen sollten nicht automatisch als identische Testeinstellungen gelesen werden.[
4][
6][
10][
16][
22]
- Bewertungsformate unterscheiden sich. In einer Quelle steht SWE-Bench Pro / SWE Pro als Prozentwert, bei LLM Stats als 0.xx-Score. Sinnvoll ist daher: erst innerhalb derselben Quelle vergleichen, dann eigene Evals mit identischen Aufgaben durchführen.[
4][
24]
- Preisdaten sind ungleich vollständig. Für GPT-5.5 und Claude Opus 4.7 liegen klare Input- und Output-Tokenpreise vor; bei DeepSeek steht vor allem das Kostennarrativ von etwa einem Sechstel im Raum; für Kimi K2.6 fehlt in den hier verwendeten Quellen eine ausreichend vollständige, verifizierbare Tokenpreis-Tabelle.[
6][
20]
Fazit
Wenn man es auf einen Satz verkürzt: Claude Opus 4.7 liegt in den vorliegenden Daten bei schwierigem Reasoning und Software-Engineering-Benchmarks vorn; GPT-5.5 / GPT-5.5 Pro ist besonders stark bei Tool-Use, Terminal- und Browser-Aufgaben; DeepSeek V4-Pro-Max ist der Kosten-Leistungs-Kandidat; Kimi K2.6 hat klare Potenziale, braucht aber mehr vollständige direkte Vergleichsdaten.[4][
10][
20][
24]
Für echte Produktentscheidungen reicht kein Leaderboard. Nehmen Sie dieselben Repositories, Bug-Tickets, Research-Workflows, Tool-Rechte, Kontextlängen, Latenzanforderungen, Fehlertoleranzen und Tokenbudgets — und lassen Sie alle Kandidaten gegen dieselbe interne Eval-Suite laufen. Erst dann wird aus Benchmark-Marketing eine belastbare Modellwahl.




