Öffentliche Benchmarks sprechen hier keine einfache Sprache. GPT-5.5 und Claude Opus 4.7 lassen sich in mehreren Tabellen relativ direkt gegenüberstellen. Bei Kimi K2.6 stammen einige Werte aus Modellkarten oder separaten Test-Harnesses; bei DeepSeek V4 fehlen für wichtige Coding-Benchmarks ausreichend gemeinsame Zahlen in den vorliegenden Quellen [1][
2][
5][
6].
Für die praktische Auswahl ist deshalb nicht die Frage entscheidend, welches Modell abstrakt das beste ist. Wichtiger ist: Welches Modell sollte für eine konkrete Aufgabe zuerst in den eigenen Testlauf?
Die schnelle Einordnung
- Terminal- und Kommandozeilen-Agenten: GPT-5.5 ist der naheliegende erste Kandidat. OpenAI nennt 82,7 % im Terminal-Bench 2.0; öffentliche Vergleichstabellen führen Claude Opus 4.7 mit 69,4 % und Kimi K2.6 mit 66,7 % [
19][
8][
13][
6].
- GitHub-Issues, Code-Reparatur und Review-nahe Aufgaben: Claude Opus 4.7 ist der stärkste erste Kandidat. Öffentlich berichtet werden 64,3 % im SWE-Bench Pro und 87,6 % im SWE-Bench Verified; GPT-5.5 liegt im SWE-Bench Pro bei 58,6 % [
27][
19].
- Lange multimodale Kontexte: Kimi K2.6 gehört auf die Shortlist, wenn lange Eingaben mit Text, Bildern oder Video wichtig sind. Das Modell wird mit Text-, Bild- und Videoeingaben sowie einer 256k-Kontext-Route beschrieben [
7].
- Kostenkritische Massenaufrufe: DeepSeek V4 fällt preislich auf. Mashable nennt pro 1 Million Token 1,74 US-Dollar für Eingaben und 3,48 US-Dollar für Ausgaben; bei GPT-5.5 sind es 5 bzw. 30 US-Dollar, bei Claude Opus 4.7 5 bzw. 25 US-Dollar [
3].
Zentrale Benchmarks im Überblick
Das — in der Tabelle bedeutet: In den bereitgestellten öffentlichen Quellen lässt sich für dieses Modell kein direkt passender Wert für denselben Benchmark sicher zuordnen. Es heißt nicht, dass das Modell die Aufgabe grundsätzlich nicht bewältigen kann.
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Einordnung |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % [ | 69,4 % [ | 66,7 % [ | — | Für Terminal- und Kommandozeilen-Workflows ist GPT-5.5 der klarste öffentliche Spitzenwert. |
| SWE-Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 % [ | — | Bei realitätsnaher Code-Reparatur und GitHub-Issue-Lösung führt Claude Opus 4.7. |
| SWE-Bench Verified | — | 87,6 % [ | 80,2 % [ | — | In den vorliegenden Quellen sind hier vor allem Claude Opus 4.7 und Kimi K2.6 vergleichbar belegt. |
| GPQA Diamond | 93,6 % [ | 94,2 % [ | — | — | GPT-5.5 und Claude Opus 4.7 liegen sehr nah beieinander; der öffentliche Wert für Claude ist leicht höher. |
| Humanity’s Last Exam mit Tools | 52,2 % [ | 54,7 % [ | 54,0 % [ | — | Claude und Kimi liegen hier knapp vor GPT-5.5; bei Kimi können die Vergleichsbedingungen abweichen [ |
| BrowseComp | 84,4 % [ | 79,3 % [ | — | — | Bei Websuche- und Browsing-orientierten Bewertungen liegt GPT-5.5 vorn. |
| OSWorld-Verified | 78,7 % [ | 78,0 % [ | — | — | Der Abstand ist gering. |
| MCP Atlas | 75,3 % [ | 79,1 % [ | — | — | Bei MCP- und Tool-Anbindung hat Claude Opus 4.7 den höheren öffentlichen Wert. |
Was die einzelnen Modelle nahelegen
GPT-5.5: stark bei langen Terminal-Abläufen
OpenAI bezeichnet GPT-5.5 als bisher stärkstes agentisches Coding-Modell des Unternehmens und nennt 82,7 % im Terminal-Bench 2.0 sowie 58,6 % im SWE-Bench Pro [19]. Terminal-Bench 2.0 prüft laut OpenAI komplexe Kommandozeilen-Workflows mit Planung, Iteration und Tool-Koordination; SWE-Bench Pro misst die Lösung realer GitHub-Issues [
19].
Das spricht dafür, GPT-5.5 zuerst zu testen, wenn ein Agent längere Shell-Sitzungen, Sandbox-Ausführungen, CI-Reproduktionen oder Dateiänderungen Schritt für Schritt erledigen soll. Der Vorsprung gilt aber nicht für jede Coding-Aufgabe: Im SWE-Bench Pro liegt Claude Opus 4.7 mit 64,3 % über den 58,6 % von GPT-5.5 [27][
19].
Claude Opus 4.7: besonders interessant für Code-Reparatur und Review-Workflows
Claude Opus 4.7 wird mit 64,3 % im SWE-Bench Pro und 87,6 % im SWE-Bench Verified ausgewiesen [27]. DataCamp beschreibt außerdem, dass Opus 4.7 über 14 Benchmarks hinweg bewertet wurde, darunter Coding, Reasoning, Tool-Nutzung, Computer Use und visuelles Schließen [
27].
Im direkten öffentlichen Vergleich mit GPT-5.5 liegt Claude Opus 4.7 unter anderem bei GPQA Diamond mit 94,2 % zu 93,6 % und bei MCP Atlas mit 79,1 % zu 75,3 % vorne [8][
13]. Umgekehrt hat GPT-5.5 bei Terminal-Bench 2.0 und BrowseComp die höheren Werte [
8][
13][
19]. Claude Opus 4.7 wirkt daher weniger wie der pauschale Terminal-Automat, sondern eher wie ein sehr starker Kandidat für echte Issue-Behebung, Code-Review und strukturierte Reparaturarbeit.
Kimi K2.6: attraktiv für lange multimodale Eingaben, aber die Benchmarks brauchen Kontext
Kimi K2.6 wird mit 58,6 % im SWE-Bench Pro und 80,2 % im SWE-Bench Verified geführt; eine weitere Übersicht nennt außerdem 66,7 % im Terminal-Bench 2.0 und 54,0 % bei HLE mit Tools [1][
6]. Dieselbe Übersicht verweist jedoch darauf, dass die K2.6-Werte aus der offiziellen Moonshot-AI-Modellkarte stammen und der SWE-Bench-Pro-Wert über einen Moonshot-in-house-Harness läuft [
6].
Die identische Zahl von 58,6 % im SWE-Bench Pro bei Kimi K2.6 und GPT-5.5 sollte deshalb nicht automatisch als perfektes Unentschieden unter gleichen Bedingungen gelesen werden [1][
6][
19]. Der stärkere Produktgrund für Kimi K2.6 liegt an anderer Stelle: Das Modell wird mit Text-, Bild- und Videoeingaben sowie einer 256k-Kontext-Route beschrieben [
7]. Wer sehr lange multimodale Eingaben auswerten will, sollte es gesondert prüfen.
DeepSeek V4: preislich auffällig, aber Genauigkeit muss separat geprüft werden
DeepSeek V4 passt in diese Gegenüberstellung nicht so sauber in die Benchmark-Tabelle. Für Terminal-Bench 2.0, SWE-Bench Pro, SWE-Bench Verified oder GPQA Diamond liefern die vorliegenden Quellen nicht genügend direkt vergleichbare Werte. Artificial Analysis berichtet stattdessen, dass DeepSeek V4 Pro Max bei AA-Omniscience -10 erreicht und damit um 11 Punkte besser als V3.2 abschneidet; V4 Flash Max liegt bei -23 [2]. Dieselbe Quelle meldet für V4 Pro und V4 Flash sehr hohe Halluzinationsraten von 94 % bzw. 96 % und interpretiert das so, dass die Modelle nahezu immer antworten, auch wenn sie etwas nicht wissen [
2].
Technisch und wirtschaftlich gibt es dennoch Gründe, DeepSeek V4 anzuschauen. DataCamp beschreibt DeepSeek V4 als Mixture-of-Experts-Modell: Die Pro-Variante habe 1,6 Billionen Gesamtparameter, davon 49 Milliarden aktiv; die Flash-Variante 284 Milliarden Gesamtparameter, davon 13 Milliarden aktiv [4]. Die von Mashable zusammengefassten API-Preise liegen zudem deutlich unter GPT-5.5 und Claude Opus 4.7 [
3].
Damit ist DeepSeek V4 vor allem ein Kandidat für kostenkritische Stapelverarbeitung, intern überprüfbare Workflows oder Open-Weights-nahe Evaluierungen. Bei Produkten, in denen falsche Antworten teuer werden, sind jedoch eigene Tests, Nachprüfung, Fehlererkennung und gegebenenfalls Post-Processing Pflicht [2][
3][
4].
Welche Aufgabe passt zu welchem ersten Test?
| Einsatzfall | Zuerst testen | Begründung |
|---|---|---|
| Lange Terminal-Automatisierung, Shell-Agenten, CI-Reproduktion | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82,7 %, Claude Opus 4.7 69,4 %, Kimi K2.6 66,7 % [ |
| Reale GitHub-Issues, Code-Reparatur, SWE-Bench-nahe Workflows | Claude Opus 4.7 | Claude Opus 4.7 wird mit 64,3 % im SWE-Bench Pro und 87,6 % im SWE-Bench Verified berichtet [ |
| Browsing und Web-Recherche | GPT-5.5 | BrowseComp: GPT-5.5 84,4 %, Claude Opus 4.7 79,3 % [ |
| MCP- und Tool-Integration | Claude Opus 4.7 | MCP Atlas: Claude Opus 4.7 79,1 %, GPT-5.5 75,3 % [ |
| Lange multimodale Kontexte | Kimi K2.6 | Kimi K2.6 wird mit Text-, Bild- und Videoeingaben sowie einer 256k-Kontext-Route beschrieben [ |
| Kostenkritische API-Massenaufrufe | DeepSeek V4 | DeepSeek V4 hat laut Mashable niedrigere Tokenpreise als GPT-5.5 und Claude Opus 4.7; die von Artificial Analysis gemeldeten Halluzinationsraten müssen aber mitbewertet werden [ |
Warum es keinen sauberen Gesamtgewinner gibt
Erstens fehlt in den bereitgestellten Quellen ein durchgängiger unabhängiger Vierer-Vergleich mit denselben Prompts, denselben Tools, demselben Reasoning-Budget und demselben Scorer. GPT-5.5 und Claude Opus 4.7 haben relativ viele gemeinsame öffentliche Werte. Bei Kimi K2.6 kommen Modellkarten- und in-house-Harness-Werte hinzu; bei DeepSeek V4 bleiben mehrere gemeinsame Benchmark-Zeilen leer [1][
2][
5][
6].
Zweitens kann derselbe Benchmarkname unterschiedliche Testbedingungen verbergen. Eine Auswertung zu GPT-5.5 und Claude Opus 4.7 kommt zwar auf gemeinsame Benchmarks, betont aber, dass die Werte eher in der Form vergleichbar sind, nicht zwingend in der Methodik [5]. Anthropic nennt für Terminal-Bench 2.0 etwa den Terminus-2-Harness, deaktiviertes Thinking und eine bestimmte 1× garantierte bzw. 3× maximale Ressourcenzuteilung [
31].
Drittens ist ein Benchmarkwert nur ein Ausschnitt der Produktqualität. In der Praxis zählen auch Fehlermuster, Halluzinationsrate, Latenz, Kosten, Stabilität von Tool-Aufrufen, Sicherheitsregeln und Reproduzierbarkeit der Logs. ExplainX weist ebenfalls darauf hin, dass Benchmarkdefinitionen, Prompts und Tool-Policies die Werte verschieben können und eigene Evaluierungs-Harnesses nicht ersetzen [28].
Fazit
Nach den derzeit öffentlich belegten Zahlen ist die sinnvollste Startstrategie: GPT-5.5 für Terminal- und Agenten-Coding, Claude Opus 4.7 für SWE-Bench-nahe Code-Reparatur, Kimi K2.6 für lange multimodale Kontexte und DeepSeek V4 für kostenkritische Massenaufrufe mit strenger Nachprüfung [19][
27][
7][
3]. Einen endgültigen Gesamtsieger auszurufen, wäre dagegen zu grob. Dafür unterscheiden sich Prompts, Tool-Zugriff, Reasoning-Einstellungen und Test-Harnesses zu stark [
5][
28][
31].




