Eine einzige Rangliste wäre bequem: Platz 1, Platz 2, Platz 3, fertig. Bei GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 wäre genau das aber die falsche Abkürzung. Die verfügbaren öffentlichen Zahlen stammen aus unterschiedlichen Quellen, Modellmodi, Reasoning-Stufen und Test-Harnesses. LLM Stats weist für GPT-5.5 und Claude Opus 4.7 ausdrücklich darauf hin, dass mehrere Werte von den Anbietern in hohen Reasoning-Tiers gemeldet wurden und daher eher in der Form vergleichbar sind als in der Methodik.[3]
Die bessere Frage lautet also nicht: Welches Modell ist absolut das beste? Sondern: Welches Modell sollte für welche Aufgabe zuerst in den Testlauf?
Kurzentscheidung: welches Modell zuerst testen?
| Einsatzfall | Zuerst testen | Warum |
|---|---|---|
| Web-Recherche-Agenten, Terminal-Automatisierung, Workflows über mehrere Tools | GPT-5.5 | GPT-5.5 erreicht 84,4 % in BrowseComp und 82,7 % in Terminal-Bench 2.0; beide Werte liegen in der VentureBeat-Übersicht über den entsprechenden Werten für Claude Opus 4.7 und DeepSeek-V4-Pro-Max.[ |
| Anspruchsvolles Reasoning, Review, Entscheidungen mit geringer Fehlertoleranz | Claude Opus 4.7 | Claude Opus 4.7 erreicht 94,2 % in GPQA Diamond und 46,9 % in Humanity’s Last Exam no-tools, jeweils vor GPT-5.5 und DeepSeek-V4-Pro-Max in derselben Übersicht.[ |
| Hohe API-Last und strenger Kostendruck | DeepSeek V4 | DeepSeek V4 wird öffentlich mit 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token angegeben und liegt damit unter den gleichartig genannten Preisen für GPT-5.5 und Claude Opus 4.7.[ |
| Open-Source-Coding-Agenten und lange Coding-Experimente | Kimi K2.6 | DocsBot beschreibt Kimi K2.6 als Open-Source-Modell mit nativer Multimodalität, Agentenfokus und 256K-Kontext; zugleich fehlt ein vollständiger öffentlicher Benchmark-Vergleich mit allen drei anderen Modellen.[ |
Die wichtigsten Benchmark- und Preisdaten
Bei DeepSeek sind die Bezeichnungen in den Quellen nicht vollständig deckungsgleich: Preisübersichten sprechen von DeepSeek V4 oder DeepSeek V4 Pro, einige Benchmark-Tabellen von DeepSeek-V4-Pro-Max.[1][
7][
17] Die folgende Tabelle übernimmt deshalb die Modellnamen aus den jeweiligen Quellen, statt verschiedene Konfigurationen stillschweigend gleichzusetzen.
| Kennzahl | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4-Pro-Max | Kimi K2.6 |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xhigh 60; high 59.[ | Adaptive Reasoning, Max Effort 57.[ | Im sichtbaren Auszug kein gleicher Wert genannt.[ | Im sichtbaren Auszug kein gleicher Wert genannt.[ |
| BrowseComp | 84,4 %.[ | 79,3 %.[ | DeepSeek-V4-Pro-Max 83,4 %.[ | Kein öffentlicher Vierer-Vergleich belegt. |
| Terminal-Bench 2.0 | 82,7 %.[ | 69,4 %.[ | 67,9 %.[ | 66,70 %, aber aus einem anderen Vergleich mit Kimi K2.6, Claude Opus 4.6 und GPT-5.4.[ |
| SWE-Bench Pro | 58,6 %.[ | 64,3 %.[ | DeepSeek V4 Pro 55,4 %.[ | 58,60 %, aber laut Verdent mit Moonshot-internem Harness und nicht als vollständiger Vierer-Vergleich.[ |
| GPQA Diamond | 93,6 %.[ | 94,2 %.[ | DeepSeek-V4-Pro-Max 90,1 %.[ | Kein öffentlicher Vierer-Vergleich belegt. |
| Humanity’s Last Exam, no tools | 41,4 %; GPT-5.5 Pro 43,1 %.[ | 46,9 %.[ | 37,7 %.[ | Kein öffentlicher Vierer-Vergleich belegt. |
| API-Preis Eingabe / Ausgabe pro 1 Mio. Token | 5 / 30 US-Dollar; 1 Mio. Token Kontextfenster.[ | 5 / 25 US-Dollar; 1 Mio. Token Kontextfenster.[ | 1,74 / 3,48 US-Dollar; 1 Mio. Token Kontextfenster.[ | Kein gleichartiger Preis in den bereitgestellten Quellen; DocsBot nennt 256K Kontext.[ |
1. Gesamtindex: GPT-5.5 vorn, aber nicht automatisch Gesamtsieger
Artificial Analysis listet in der sichtbaren Zusammenfassung die führenden Modelle nach Intelligence Index so: GPT-5.5 xhigh mit 60, GPT-5.5 high mit 59 und Claude Opus 4.7 Adaptive Reasoning, Max Effort mit 57; ebenfalls mit 57 erscheinen Gemini 3.1 Pro Preview und GPT-5.4 xhigh.[2]
Das stützt eine begrenzte Aussage: In diesem sichtbaren Intelligence-Index-Ausschnitt liegt GPT-5.5 vor Claude Opus 4.7.[2] Es stützt aber keine vollständige Rangliste aller vier Modelle, weil für DeepSeek V4 und Kimi K2.6 im selben sichtbaren Ausschnitt keine gleichartigen Werte genannt werden.[
2]
2. Agenten, Browser und Terminal: GPT-5.5 ist stark, DeepSeek beim Browsing sehr nah
BrowseComp zielt auf Web-Browsing-Fähigkeiten von KI-Agenten, insbesondere auf stark strukturierte Informationssuche. In der VentureBeat-Zusammenfassung steht GPT-5.5 bei 84,4 %, DeepSeek-V4-Pro-Max bei 83,4 % und Claude Opus 4.7 bei 79,3 %.[7] Für solche Browser-Agenten liegt DeepSeek-V4-Pro-Max damit nur knapp hinter GPT-5.5, während Claude Opus 4.7 in dieser Tabelle spürbar zurückliegt.[
7]
Bei Terminal-Bench 2.0 ist der Abstand größer. VentureBeat nennt 82,7 % für GPT-5.5, 69,4 % für Claude Opus 4.7 und 67,9 % für DeepSeek; Yahoo / Investing.com beschreibt Terminal-Bench 2.0 als Test für Command-Line-Workflows und nennt ebenfalls 82,7 % für GPT-5.5.[7][
31]
Kimi K2.6 hat zwar einen sichtbaren Terminal-Bench-2.0-Wert von 66,70 %, doch dieser stammt aus einer anderen Gegenüberstellung mit Kimi K2.6, Claude Opus 4.6 und GPT-5.4, nicht aus einem Vierer-Vergleich mit GPT-5.5, Claude Opus 4.7 und DeepSeek V4.[4]
3. Coding und Software-Engineering: Claude führt bei SWE-Bench Pro, Tool-Ketten sind ein anderes Bild
DataCamp führt für SWE-Bench Pro 55,4 % für DeepSeek V4 Pro, 58,6 % für GPT-5.5 und 64,3 % für Claude Opus 4.7 auf.[17] Yahoo / Investing.com nennt ebenfalls 58,6 % für GPT-5.5 und beschreibt SWE-Bench Pro als Benchmark für die Lösung von GitHub-Issues.[
31]
Für Kimi K2.6 sind die Coding-Zahlen interessant, aber vorsichtig zu lesen. Verdent nennt 58,60 % in SWE-Bench Pro, 80,20 % in SWE-Bench Verified und 89,60 % in LiveCodeBench v6; zugleich steht dort, dass die Kimi-K2.6-Zahlen aus der offiziellen Moonshot-Model-Card stammen und SWE-Bench Pro mit einem Moonshot-internen Harness gemessen wurde.[4] Damit gehört Kimi K2.6 in die engere Auswahl für Coding-Agent-Experimente, aber diese Zahlen sollten nicht hart in dieselbe Rangliste mit GPT-5.5, Claude Opus 4.7 und DeepSeek V4 einsortiert werden.[
4]
Praktisch heißt das: Wer große Repositories reparieren, Pull Requests prüfen oder lange Coding-Agenten laufen lassen will, sollte mehr als einen SWE-Wert betrachten. Claude Opus 4.7 hat in der sichtbaren SWE-Bench-Pro-Gegenüberstellung den höchsten Wert; GPT-5.5 liegt bei langen Tool- und Terminal-Workflows vorn; Kimi K2.6 braucht Tests auf den eigenen Repositories und der eigenen Toolchain.[17][
7][
4]
4. Reasoning und Review: Claude Opus 4.7 hat den klareren sichtbaren Vorteil
Für schwierige Wissens- und Reasoning-Tests sieht Claude Opus 4.7 in den sichtbaren Zahlen besonders stark aus. VentureBeat nennt für GPQA Diamond 94,2 % bei Claude Opus 4.7, 93,6 % bei GPT-5.5 und 90,1 % bei DeepSeek-V4-Pro-Max. Bei Humanity’s Last Exam no-tools stehen 46,9 % für Claude Opus 4.7, 41,4 % für GPT-5.5, 43,1 % für GPT-5.5 Pro und 37,7 % für DeepSeek-V4-Pro-Max.[7]
Auch LLM Stats kommt in der Einordnung von GPT-5.5 und Claude Opus 4.7 zu einem ähnlichen Muster: In den zehn Benchmarks, die beide Anbieter berichten, führt Opus 4.7 in sechs und GPT-5.5 in vier; die Claude-Vorteile liegen vor allem bei reasoning-heavy und review-grade Tests, während GPT-5.5 bei long-running tool-use Tests stärker ist.[3]
5. Preis und Kontextfenster: DeepSeek V4 ist der Kostenhebel
Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token, jeweils mit 1 Mio. Token Kontextfenster. In derselben Preisübersicht stehen GPT-5.5 bei 5 US-Dollar pro 1 Mio. Input-Token und 30 US-Dollar pro 1 Mio. Output-Token sowie Claude Opus 4.7 bei 5 US-Dollar pro 1 Mio. Input-Token und 25 US-Dollar pro 1 Mio. Output-Token, beide ebenfalls mit 1 Mio. Token Kontextfenster.[1]
DataCamp verwendet denselben Preisrahmen für DeepSeek V4 Pro, GPT-5.5 und Claude Opus 4.7 und nennt für alle drei ein Kontextfenster von rund 1 Mio. Token.[17] In den verfügbaren Preisangaben ist DeepSeek V4 damit deutlich günstiger als GPT-5.5 und Claude Opus 4.7; zusammen mit 83,4 % für DeepSeek-V4-Pro-Max in BrowseComp gegenüber 84,4 % für GPT-5.5 macht das DeepSeek zu einem naheliegenden Kandidaten für kostenkritische API-Routen.[
1][
7][
17]
Für Kimi K2.6 enthalten die bereitgestellten Quellen keinen gleichartigen API-Preis. DocsBot beschreibt Kimi K2.6 jedoch als Open-Source-Agentenmodell für long-horizon coding, coding-driven design, autonome Ausführung und swarm-based orchestration und nennt 256K Kontext.[5]
Praktischer Aufbau: nicht ein Modell wählen, sondern routen
Für viele Produktteams ist die beste Antwort nicht, ein einziges Modell dauerhaft zum Standard zu erklären. Sinnvoller ist eine kleine Routing-Architektur mit eigenen Regressionstests.
- GPT-5.5 als Premium-Baseline für Agenten-Workflows testen. Es führt in BrowseComp und Terminal-Bench 2.0 und hat zusätzlich starke von OpenAI genannte Werte für werkzeugnahe Wissensarbeit, darunter 84,9 % auf GDPval, 78,7 % auf OSWorld-Verified und 98,0 % auf Tau2-bench Telecom.[
7][
23]
- Claude Opus 4.7 für Reasoning, Review und niedrige Fehlertoleranz prüfen. Die sichtbaren Vorteile liegen bei GPQA Diamond, Humanity’s Last Exam no-tools sowie in den von LLM Stats gruppierten reasoning-heavy und review-grade Tests.[
7][
3]
- DeepSeek V4 für hohe API-Volumina und Kostensenkung in die Route aufnehmen. Die genannten Tokenpreise liegen deutlich unter GPT-5.5 und Claude Opus 4.7, während DeepSeek-V4-Pro-Max in BrowseComp nahe an GPT-5.5 liegt.[
1][
7]
- Kimi K2.6 als Open-Source-Coding-Agent im eigenen Stack testen. Die verfügbaren Coding- und Agentenwerte sind interessant, aber es fehlt ein sauberer öffentlicher Vierer-Vergleich; eigene Repositories, eigene Tools und eigene Erfolgskriterien sind daher entscheidend.[
4][
5]
Der Test sollte streng gleich aufgebaut sein: identische Prompts, gleiche Tool-Rechte, vergleichbare Kontextlängen, einheitliche Erfolgskriterien und eine klare Kostenerfassung. Öffentliche Benchmarks helfen bei der Priorisierung; sie ersetzen aber nicht die Prüfung auf realen Aufgaben, weil BrowseComp, Terminal-Bench 2.0 und SWE-Bench Pro jeweils unterschiedliche Arbeitsarten abbilden.[3][
7][
31]
Wichtige Einschränkungen
- Nicht alle Modelle wurden im selben Setup verglichen. Für GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max gibt es in der VentureBeat-Übersicht mehrere gemeinsame Zahlen; Kimi K2.6 stammt vor allem aus einem anderen Vergleich mit Claude Opus 4.6 und GPT-5.4.[
7][
4]
- Die Modellkonfigurationen unterscheiden sich. Artificial Analysis nennt GPT-5.5 als xhigh und high, Claude Opus 4.7 als Adaptive Reasoning, Max Effort; VentureBeat verwendet DeepSeek-V4-Pro-Max. Das muss nicht dem jeweiligen Standard-API-Modus entsprechen.[
2][
7]
- Anbieterangaben und Drittvergleiche sind nicht dasselbe. LLM Stats warnt, dass mehrere GPT-5.5- und Claude-Opus-4.7-Werte in hohen Reasoning-Tiers selbst berichtet wurden und methodisch nicht vollständig gleichzusetzen sind.[
3]
- Benchmarks sind aufgabenbezogen. BrowseComp misst Web-Browsing-Agenten, Terminal-Bench 2.0 Command-Line-Workflows und SWE-Bench Pro GitHub-Issue-Resolution; keiner dieser Tests sagt allein, welches Modell in Ihrem Produkt zuverlässig gewinnt.[
7][
31]
Fazit
Wenn nur die sichtbaren öffentlichen Daten zählen, ist GPT-5.5 der stärkste Kandidat für Agenten-Workflows, Tool-Nutzung und die sichtbare Gesamtindex-Spitze. Claude Opus 4.7 ist besonders überzeugend bei Reasoning und Review-Aufgaben. DeepSeek V4 ist die attraktivste Preisoption für hohe API-Volumina. Kimi K2.6 gehört in den Open-Source- und Coding-Agent-Testpool, sollte aber mangels vollständiger Vierer-Benchmarks nicht unfair in eine harte Gesamtrangliste gedrückt werden.[2][
3][
1][
4][
5]
Die nüchterne Auswahl lautet daher: erst nach Aufgabe routen, dann mit eigenen Daten messen. Benchmarks entscheiden, wen man zuerst testet; die endgültige Modellwahl hängt von Fehlerrisiko, Durchsatz, Tokenkosten und dem realen Workflow ab.[3][
7][
31]




