Die wichtigste Frage lautet nicht: „Welches Modell ist das stärkste?“ Sondern: „Welches Modell ist für meinen konkreten Workflow stark genug — und zu welchem Preis?“ Nach den öffentlich verfügbaren Daten wirkt GPT-5.5 wie der leistungsstarke Standardkandidat, Claude Opus 4.7 wie die bessere Wahl für lange, mehrstufige und dokumentenlastige Aufgaben, DeepSeek V4 wie der Kostenhebel und Kimi K2.6 wie ein besonders interessanter Kandidat für Open-Weights-, Langkontext- und multimodale Szenarien.[4][
6][
7][
9]
Kurzentscheidung: welches Modell zuerst testen?
| Priorität | Zuerst prüfen | Warum |
|---|---|---|
| Breite Spitzenleistung, komplexe Agent-Workflows, Terminal- und Coding-Aufgaben | GPT-5.5 | Artificial Analysis führt GPT-5.5 xHigh mit 60 und GPT-5.5 High mit 59 im Intelligence Index; Claude Opus 4.7 liegt dort bei 57. In der von VentureBeat zusammengefassten Terminal-Bench 2.0 erreicht GPT-5.5 82,7 %.[ |
| Lange Dokumente, mehrstufige Recherche, Finanz- und Compliance-nahe Analyse | Claude Opus 4.7 | Anthropic nennt für Opus 4.7 in einem internen Research-Agent-Benchmark einen Gesamtscore von 0,715 und im Modul General Finance 0,813, gegenüber 0,767 bei Opus 4.6.[ |
| Hoher Durchsatz, starkes Kostenbewusstsein, möglichst viel Leistung pro Dollar | DeepSeek V4 | Mashable nennt für DeepSeek V4 API-Preise von 1,74 US-Dollar pro 1 Mio. Eingabe-Token und 3,48 US-Dollar pro 1 Mio. Ausgabe-Token — deutlich unter den dort aufgeführten Preisen für GPT-5.5 und Claude Opus 4.7.[ |
| Offene Gewichte, Bild- oder Videoeingaben, 256K-Kontext | Kimi K2.6 | Artificial Analysis bezeichnet Kimi K2.6 als neues führendes Open-Weights-Modell und nennt native Bild- und Videoeingaben sowie ein maximales Kontextfenster von 256K.[ |
Warum ein einziges Ranking nicht reicht
Die öffentlich verfügbaren Daten ergeben kein sauberes „Finale“ unter identischen Bedingungen. Es gibt keine vollständige, einheitliche Vergleichsmessung, die alle vier Modelle zur gleichen Zeit, mit demselben Evaluator, demselben Reasoning-Aufwand, denselben Tools und derselben Modellkonfiguration abdeckt. Die Daten stammen aus Herstellerseiten, API-Dokumentation, Drittanbieter-Benchmarks, Medienzusammenfassungen, Router-Seiten und Einzeltests — und diese Quellen messen nicht immer exakt dasselbe.[4][
5][
6][
7][
8][
9][
16][
34][
35]
Das ist mehr als ein methodisches Detail. Artificial Analysis unterscheidet etwa GPT-5.5 xHigh, GPT-5.5 High und Claude Opus 4.7 mit „Adaptive Reasoning, Max Effort“; die OpenAI-Dokumentation listet für GPT-5.5 ebenfalls Reasoning-Stufen von none bis xhigh.[4][
35] Ein Modell kann also in einem Ranking vorn liegen und in Ihrem Prompt, Ihrer Tool-Kette oder Ihrem Latenzbudget trotzdem nicht die beste Wahl sein.
Die wichtigsten öffentlichen Vergleichszahlen
| Benchmark oder Kennzahl | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4 Pro | Kimi K2.6 | Einordnung |
|---|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xHigh 60; High 59 [ | 57 [ | In den vorliegenden Daten kein exakt vergleichbarer Wert | OpenRouter führt AA Intelligence mit 53,9 [ | GPT-5.5 liegt im Gesamtindex vorn; Kimi K2.6 ist ein starker Open-Weights-Kandidat. |
| Terminal-Bench 2.0 | 82,7 % [ | 69,4 % [ | 67,9 % [ | Kein gleichquelliger Wert ersichtlich | Bei agentischen Terminal-Aufgaben ist der Vorsprung von GPT-5.5 am deutlichsten. |
| SWE-Bench Pro | 58,6 % [ | Kein prüfbarer gleichquelliger Wert in den vorliegenden Daten | 55,4 % [ | Einige Kimi-Daten vergleichen vor allem mit GPT-5.4 oder Opus 4.6, nicht direkt mit allen vier Modellen [ | GPT-5.5 und DeepSeek V4 sind hier in derselben Medienzusammenfassung vergleichbar; Kimi erfordert Vorsicht bei Quervergleichen. |
| Humanity’s Last Exam, ohne Tools | 41,4 %; GPT-5.5 Pro 43,1 % [ | 46,9 % [ | 37,7 % [ | Kein gleichquelliger Wert ersichtlich | Claude Opus 4.7 führt in dieser Einstellung. |
| Humanity’s Last Exam, mit Tools | 52,2 %; GPT-5.5 Pro 57,2 % [ | 54,7 % [ | 48,2 % [ | Kein gleichquelliger Wert ersichtlich | Claude liegt über GPT-5.5 base, aber unter GPT-5.5 Pro. |
| BrowseComp | 84,4 % [ | Kein gleichquelliger Wert ersichtlich | V4 Pro-Max 83,4 % [ | 83,2 % [ | Beim Web- und Browsing-Verständnis liegen GPT-5.5, DeepSeek V4 Pro-Max und Kimi K2.6 in den öffentlichen Zusammenfassungen nah beieinander. |
| Kimi-K2.6-Unterwerte bei Artificial Analysis | — | — | — | Intelligence 53,9; Coding 47,1; Agentic 66,0 [ | Die Agenten-Fähigkeiten von Kimi sind interessant, sollten aber im eigenen Tool-Setup nachgetestet werden. |
GPT-5.5: der naheliegende Hochleistungsstandard
OpenAI führt GPT-5.5 als Modell für Coding und professionelle Arbeit. Die API-Dokumentation nennt ein Kontextfenster von 1 Mio. Token, bis zu 128K Ausgabe-Token sowie Tools wie Function Calling, Web Search, File Search und Computer Use.[35] Laut OpenAI wurden GPT-5.5 und GPT-5.5 Pro am 24. April 2026 als verfügbar aktualisiert.[
25][
35]
Die öffentlich sichtbaren Benchmarks sprechen dafür, GPT-5.5 als leistungsstarke Baseline zu behandeln. Artificial Analysis bewertet GPT-5.5 xHigh mit 60 und GPT-5.5 High mit 59; in der von VentureBeat zusammengefassten Terminal-Bench 2.0 kommt GPT-5.5 auf 82,7 %, gegenüber 69,4 % für Claude Opus 4.7 und 67,9 % für DeepSeek V4.[4][
6]
Der Haken ist der Preis. OpenAI nennt für GPT-5.5 5 US-Dollar pro 1 Mio. Eingabe-Token und 30 US-Dollar pro 1 Mio. Ausgabe-Token.[35] Bei langen Berichten, vielen Agenten-Schleifen oder sehr ausgabestarken Anwendungen kann gerade der Output-Preis schnell zum entscheidenden Faktor werden.
Am besten zuerst testen für: komplexe Coding-Agenten, Terminal-Automatisierung, Workflows mit mehreren Tools, Recherche mit Web- und Dateisuche sowie Aufgaben, bei denen die höhere Erfolgsquote wichtiger ist als der niedrigste Einzelpreis.[35]
Claude Opus 4.7: stark bei langen, disziplinierten Analyseketten
Claude Opus 4.7 ist besonders interessant, wenn die Aufgabe nicht nur „eine Antwort“ verlangt, sondern einen langen Arbeitsbogen: Dokumente lesen, Zwischenergebnisse sauber halten, Annahmen offenlegen, Daten diszipliniert verarbeiten. Anthropic gibt für Opus 4.7 in einem internen Research-Agent-Benchmark einen Gesamtscore von 0,715 an und beschreibt die Long-Context-Leistung als besonders konsistent; im Modul General Finance steigt der Wert auf 0,813, verglichen mit 0,767 bei Opus 4.6.[7]
Auch bei Humanity’s Last Exam zeigt Claude Opus 4.7 Stärke. In der VentureBeat-Zusammenfassung liegt Opus 4.7 ohne Tools bei 46,9 %, vor GPT-5.5 mit 41,4 % und DeepSeek V4 mit 37,7 %. Mit Tools erreicht Claude 54,7 % und liegt damit über GPT-5.5 base mit 52,2 %, aber unter GPT-5.5 Pro mit 57,2 %.[6]
Claude gewinnt jedoch nicht automatisch jede harte Messgröße. In Terminal-Bench 2.0 liegt GPT-5.5 mit 82,7 % klar vor Claude Opus 4.7 mit 69,4 %.[6] Es gibt außerdem Drittquellen, die Opus 4.7 etwa bei SWE-bench Verified stark sehen; solche Werte sollten aber nicht unbesehen mit SWE-Bench Pro oder anderen Benchmarks zu einem Gesamturteil vermischt werden.[
1][
6]
Am besten zuerst testen für: lange Dokumentenrecherche, Finanzunterlagen, mehrstufige Analyse, Aufgaben mit hohem Anspruch an Quellen- und Datendisziplin sowie Workflows, bei denen eine saubere Begründung wichtiger ist als maximale Terminal-Aktionsstärke.[7]
DeepSeek V4: der Preisbrecher — aber nicht der pauschale Sieger
DeepSeek V4 fällt vor allem durch die Kosten auf. Mashable nennt API-Preise von 1,74 US-Dollar pro 1 Mio. Eingabe-Token und 3,48 US-Dollar pro 1 Mio. Ausgabe-Token. In derselben Zusammenfassung stehen GPT-5.5 bei 5/30 US-Dollar und Claude Opus 4.7 bei 5/25 US-Dollar.[3]
Bei der Leistung rückt DeepSeek V4 nahe an die Spitzengruppe heran, führt in den genannten öffentlichen Zusammenfassungen aber nicht durchgehend. VentureBeat nennt für DeepSeek V4 bei Humanity’s Last Exam 37,7 % ohne Tools und 48,2 % mit Tools — jeweils unter GPT-5.5, GPT-5.5 Pro und Claude Opus 4.7. In Terminal-Bench 2.0 liegt DeepSeek mit 67,9 % nahe bei Claude Opus 4.7 mit 69,4 %, aber deutlich hinter GPT-5.5 mit 82,7 %.[6]
Damit ist DeepSeek V4 vor allem ein Kandidat für die Kosten-Qualitäts-Kurve: Reicht die Qualität in Ihrem Einsatzfall aus, und spart der niedrigere Token-Preis genug, um mögliche Wiederholungen, manuelle Prüfung oder höhere Fehlerraten zu kompensieren?[3][
6]
Am besten zuerst testen für: Batch-Verarbeitung, hohe Anfragevolumina, Anwendungen mit knapper Marge, interne Automatisierung und Systeme, bei denen eine moderate Nachprüfung akzeptabel ist, aber die Token-Kosten stark zählen.[3]
Kimi K2.6: Open-Weights, 256K-Kontext und Multimodalität
Kimi K2.6 ist weniger der direkte „GPT-5.5-Killer“ als ein Modell mit einem anderen Profil. Artificial Analysis bezeichnet es als neues führendes Open-Weights-Modell und nennt native Unterstützung für Bild- und Videoeingaben, Textausgabe und ein maximales Kontextfenster von 256K.[9] OpenRouter führt für Kimi K2.6 außerdem AA-Werte von 53,9 für Intelligence, 47,1 für Coding und 66,0 für Agentic sowie 256K maximale Token und 66K maximale Ausgabe-Token auf.[
5]
Bei BrowseComp liegt Kimi K2.6 in der DocsBot-Zusammenfassung mit 83,2 % nahe an GPT-5.5 mit 84,4 %.[8] Das ist ein gutes Signal für Web- und Browsing-Verständnis, aber noch kein vollständiger Vierer-Vergleich. Einige Kimi-K2.6-Materialien vergleichen vor allem mit GPT-5.4 oder Claude Opus 4.6, nicht direkt mit GPT-5.5, Claude Opus 4.7 und DeepSeek V4 unter identischen Bedingungen.[
14][
15]
Am besten zuerst testen für: Teams, die offene Gewichte und mehr Deployment-Kontrolle brauchen, lange Kontexte verarbeiten, Bild- oder Videoeingaben nutzen oder einen Kompromiss aus Kosten, Kontrolle und starker Agentenleistung suchen.[5][
9]
Kosten und Kapazitäten: die Tabelle für die Budgetrunde
| Modell | Öffentlich genannte Preis- und Kapazitätsdaten | Bedeutung für die Auswahl |
|---|---|---|
| GPT-5.5 | 5 US-Dollar pro 1 Mio. Eingabe-Token, 30 US-Dollar pro 1 Mio. Ausgabe-Token; 1 Mio. Kontext; 128K maximale Ausgabe; Function Calling, Web Search, File Search und Computer Use [ | Sehr stark für hochwertige komplexe Aufgaben, aber teuer bei langen Ausgaben und vielen Agenten-Schleifen. |
| Claude Opus 4.7 | Mashable nennt 5 US-Dollar pro 1 Mio. Eingabe-Token, 25 US-Dollar pro 1 Mio. Ausgabe-Token und 1 Mio. Kontext [ | Output günstiger als GPT-5.5; besonders relevant für lange Analysen und dokumentenorientierte Workflows.[ |
| DeepSeek V4 | Mashable nennt 1,74 US-Dollar pro 1 Mio. Eingabe-Token, 3,48 US-Dollar pro 1 Mio. Ausgabe-Token und 1 Mio. Kontext [ | Für Durchsatz, Batch-Jobs und budgetkritische Anwendungen besonders attraktiv. |
| Kimi K2.6 | OpenRouter führt für eine Route 0,7448 US-Dollar pro 1 Mio. Eingabe-Token und 4,655 US-Dollar pro 1 Mio. Ausgabe-Token auf; maximale Token 256K, maximale Ausgabe 66K [ | Interessant für Open-Weights-, Langkontext- und multimodale Tests; Router-Preise sind aber nicht automatisch ein allgemeiner Herstellerpreis.[ |
Wichtig: API-Preise sind nicht die Gesamtkosten. Ein günstigeres Modell kann teurer werden, wenn es mehr Wiederholungen, mehr menschliche Kontrolle oder längere Prompts braucht. Umgekehrt kann ein teureres Modell wirtschaftlicher sein, wenn es im ersten Durchlauf häufiger richtig liegt. OpenAI empfiehlt für toolintensive oder lang laufende Workflows ausdrücklich Vergleiche nach Genauigkeit, Token-Verbrauch und End-to-End-Latenz; die Dokumentation zeigt außerdem, dass GPT-5.5 mit unterschiedlichen Reasoning-Stufen betrieben werden kann.[34][
35]
So sollte ein echter Modellauswahl-Test aussehen
Öffentliche Benchmarks helfen, die Kandidatenliste zu verkürzen. Sie ersetzen aber keinen Test mit den eigenen Aufgaben. Ein brauchbarer interner Vergleich sollte mindestens vier Messwerte erfassen: Erfolgsquote, Fehlertypen, End-to-End-Latenz und Gesamtkosten inklusive Token, Wiederholungen und manueller Prüfung. Gerade bei Agenten-Workflows sollte zusätzlich protokolliert werden, welche Tools aufgerufen wurden und wo Abbrüche entstehen.[34]
Einzeltests können Hinweise liefern, sollten aber nicht als allgemeingültige Rangliste gelesen werden. In einem Coding-Test von AkitaOnRails aus April 2026 erreichte Claude Opus 4.7 einen Score von 97, GPT-5.5 xHigh Codex 96, Kimi K2.6 87 und DeepSeek V4 Pro 69; derselbe Test nannte geschätzte Kosten von etwa 1,10 US-Dollar für Claude Opus 4.7, etwa 10 US-Dollar für GPT-5.5 xHigh Codex, etwa 0,30 US-Dollar für Kimi K2.6 und etwa 0,50 US-Dollar für DeepSeek V4 Pro.[16]
Der Wert solcher Tests liegt weniger in der exakten Rangfolge als in der Erinnerung an die Praxis: Modellqualität hängt von Codebasis, Tool-Rechten, Prompt-Design, Abbruchlogik, Prüfkriterien und Fehlerkosten ab.[16][
34]
Fazit: eine pragmatische Reihenfolge
Wenn nur ein Modell zuerst in die technische Evaluierung darf, ist GPT-5.5 der naheliegende Startpunkt. Es führt in den hier betrachteten öffentlichen Daten im Artificial-Analysis-Gesamtindex und zeigt in Terminal-Bench 2.0 den klarsten Vorsprung.[4][
6]
Wenn der Workflow lange Dokumente, Finanzmaterial, mehrstufige Recherche oder besonders saubere Datenführung verlangt, gehört Claude Opus 4.7 in die erste Testgruppe. Anthropic stützt diese Position mit eigenen Research-Agent-Daten, und die HLE-Zahlen aus der VentureBeat-Zusammenfassung zeigen ebenfalls starke Werte.[6][
7]
Wenn Budget und Volumen die harte Grenze setzen, sollte DeepSeek V4 sehr früh getestet werden. Die öffentlich zusammengefassten Preise liegen deutlich unter GPT-5.5 und Claude Opus 4.7.[3]
Wenn offene Gewichte, multimodale Eingaben oder 256K-Kontext wichtig sind, ist Kimi K2.6 einer der spannendsten Kandidaten. Gleichzeitig bleibt die Datenlage für einen vollständig gleichquelligen Vergleich mit GPT-5.5, Claude Opus 4.7 und DeepSeek V4 noch lückenhaft.[5][
8][
9]
Die belastbarste Entscheidung entsteht daher in zwei Schritten: öffentliche Benchmarks nutzen, um die Shortlist zu bauen — und dann mit realen Aufgaben messen, welches Modell im eigenen System die beste Mischung aus Qualität, Kosten und Latenz liefert.[34]




