k. A. bedeutet hier: Der Wert wurde in der jeweiligen Quelle nicht angegeben. Es bedeutet nicht, dass das Modell null Punkte erzielt hätte.
Bei den klassischen Reasoning-Zeilen liegt Claude Opus 4.7 vorn. In GPQA Diamond beträgt der Abstand zu GPT-5.5 allerdings nur 0,6 Prozentpunkte: 94,2 % gegenüber 93,6 %. DeepSeek-V4-Pro-Max kommt in derselben Zeile auf 90,1 % .
Deutlicher ist der Vorsprung bei Humanity’s Last Exam ohne Tools: Claude Opus 4.7 erreicht 46,9 %, GPT-5.5 41,4 %, GPT-5.5 Pro 43,1 % und DeepSeek-V4-Pro-Max 37,7 % .
Sobald Tools erlaubt sind, kippt die Reihenfolge. Bei HLE mit Tools erzielt GPT-5.5 Pro 57,2 %, Claude Opus 4.7 54,7 %, GPT-5.5 52,2 % und DeepSeek-V4-Pro-Max 48,2 % . Die präzise Schlussfolgerung lautet also: Claude wirkt in den verfügbaren Daten stärker beim reinen Reasoning ohne Hilfsmittel; GPT-5.5 Pro führt beim Tool-gestützten HLE-Vergleich
.
Der größte Vorsprung von GPT-5.5 in dieser Auswahl liegt bei Terminal-Bench 2.0: 82,7 % gegenüber 69,4 % bei Claude Opus 4.7 und 67,9 % bei DeepSeek-V4-Pro-Max . Für Kimi K2.6 nennt die Modellkarte 66,7 bei Terminal-Bench 2.0; ein separates LLM-Stats-Leaderboard führt ebenfalls 0,667 für Kimi K2.6 und 0,694 für Claude Opus 4.7 auf
.
Damit liegt Kimi in dieser speziellen Skala in der Nähe von Claude und DeepSeek, aber deutlich hinter GPT-5.5 in der gemeinsamen Vergleichstabelle .
Bei SWE-Bench Pro / SWE Pro sieht es anders aus: Claude Opus 4.7 führt mit 64,3 %, GPT-5.5 erreicht 58,6 % und DeepSeek-V4-Pro-Max 55,4 % . Kimi K2.6 wird auf der Hugging-Face-Modellkarte ebenfalls mit 58,6 bei SWE-Bench Pro angegeben, aber dieser Wert stammt nicht aus demselben gemeinsamen Lauf wie die Zahlen zu GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max
.
SWE-Bench Verified sollte man nicht als Gesamtwertung aller vier Modelle lesen. Für Kimi K2.6 liegen 80,2 aus der Modellkarte und der Eval-Datei vor . Ein separater DeepSeek-V4-Überblick nennt 87,6 % für Claude Opus 4.7 und 80,6 % für DeepSeek V4-Pro, liefert aber keine vollständige gemeinsame Zeile für GPT-5.5 und bezieht sich nicht auf DeepSeek-V4-Pro-Max
.
GPT-5.5 fällt vor allem bei Terminal-Bench 2.0 auf: 82,7 % sind der beste Wert in dieser Zeile der gemeinsamen Tabelle . GPT-5.5 Pro ist nicht in allen Benchmarks ausgewiesen, liegt aber dort vorn, wo Werte vorliegen: 57,2 % bei HLE mit Tools und 90,1 % bei BrowseComp
.
Praktisch heißt das: GPT-5.5 sollte man zuerst bei terminalnahen agentischen Workflows prüfen. GPT-5.5 Pro ist besonders interessant, wenn Tools, Browsing oder externes Handeln zum Aufgabendesign gehören .
Claude Opus 4.7 führt in mehreren Zeilen der gemeinsamen Tabelle: 94,2 % bei GPQA Diamond, 46,9 % bei HLE ohne Tools, 64,3 % bei SWE-Bench Pro / SWE Pro und 79,1 % bei MCP Atlas / MCPAtlas Public . Gleichzeitig liegt Claude hinter GPT-5.5 bei Terminal-Bench 2.0 und hinter GPT-5.5 Pro bei HLE mit Tools sowie BrowseComp
.
Wenn die Aufgabe vor allem schwieriges Reasoning ohne externe Werkzeuge verlangt oder eher in Richtung SWE-Bench-Pro-Coding geht, ist Claude Opus 4.7 nach diesen Daten der naheliegende erste Testkandidat .
Kimi K2.6 lässt sich nicht streng gegen alle anderen Modelle in derselben Tabelle ranken, weil die hier genutzten Werte aus der Hugging-Face-Modellkarte und einer Eval-Datei stammen . Als Coding-Kandidat ist Kimi aber auffällig: Die Modellkarte nennt 80,2 bei SWE-Bench Verified, 58,6 bei SWE-Bench Pro, 76,7 bei SWE-Bench Multilingual, 66,7 bei Terminal-Bench 2.0 und 73,1 bei OSWorld-Verified
.
Operativ ist Kimi interessant, weil die Quelle verfügbare Gewichte auf Hugging Face und Laufzeitoptionen über vLLM, SGLang oder KTransformers nennt . Das macht Kimi nicht automatisch zum Sieger der Gesamt-Benchmark-Tabelle, aber zu einem separaten Kandidaten für Teams, die eigene Deployment- oder Self-Hosting-Tests durchführen möchten
.
In der gemeinsamen Benchmark-Tabelle ist DeepSeek als DeepSeek-V4-Pro-Max vertreten . In den genannten Zeilen landet diese Variante nicht auf Platz eins: 90,1 % bei GPQA Diamond, 37,7 % bei HLE ohne Tools, 48,2 % bei HLE mit Tools, 67,9 % bei Terminal-Bench 2.0, 55,4 % bei SWE-Bench Pro / SWE Pro, 83,4 % bei BrowseComp und 73,6 % bei MCP Atlas / MCPAtlas Public
.
Die Stärke von DeepSeek V4 in dieser Auswahl ist weniger das Benchmark-Spitzenfeld als der Preis. Mashable und DataCamp nennen API-Preise von 1,74 US-Dollar je 1 Mio. Input-Token und 3,48 US-Dollar je 1 Mio. Output-Token. Zum Vergleich: Für GPT-5.5 werden 5/30 US-Dollar und für Claude Opus 4.7 5/25 US-Dollar angegeben . Wenn Budget der harte Engpass ist, gehört DeepSeek V4 in einen eigenen Eval — aber nicht als Benchmark-Sieger dieser Tabelle
.
Auf den direkt vergleichbaren Zeilen führt Claude Opus 4.7 bei GPQA Diamond, Humanity’s Last Exam ohne Tools, SWE-Bench Pro und MCP Atlas. GPT-5.5 gewinnt Terminal-Bench 2.0, während GPT-5.5 Pro bei HLE mit Tools und BrowseComp vorn liegt . Kimi K2.6 wirkt nach den Hugging-Face-Daten wie ein starker Coding-Kandidat mit verfügbaren Gewichten, lässt sich aber ohne gemeinsamen Lauf nicht sauber gegen alle anderen ranken
. DeepSeek V4 ist in diesen Benchmark-Zeilen nicht der Spitzenreiter, bleibt durch die niedrigeren veröffentlichten API-Preise aber eine sinnvolle Option für kostenkritische Szenarien
.
Comments
0 comments