| Toolgestütztes Prüfungs-Reasoning | GPT-5.5 Pro | 57,2 % auf Humanity’s Last Exam mit Tools, vor Claude Opus 4.7 mit 54,7 % |
| Terminal- und agentische Computeraufgaben | GPT-5.5 | 82,7 % auf Terminal-Bench 2.0, vor Claude Opus 4.7 mit 69,4 % und DeepSeek-V4-Pro-Max mit 67,9 % |
| Bedienung von Betriebssystem-Umgebungen | GPT-5.5 | 78,7 % auf OSWorld-Verified gegenüber 78,0 % für Claude Opus 4.7 |
| Frontier-Mathematik | GPT-5.5 | 51,7 % auf FrontierMath Tiers 1–3 gegenüber 43,8 % für Claude Opus 4.7 |
| Software Engineering in der gemeinsamen Tabelle | Claude Opus 4.7 | 64,3 % auf SWE-Bench Pro / SWE Pro, vor GPT-5.5 mit 58,6 % und DeepSeek-V4-Pro-Max mit 55,4 % |
| Browsing | GPT-5.5 Pro | 90,1 % auf BrowseComp, vor GPT-5.5 mit 84,4 %, DeepSeek-V4-Pro-Max mit 83,4 % und Claude Opus 4.7 mit 79,3 % |
| MCP-artige öffentliche Tool-Workflows | Claude Opus 4.7 | 79,1 % auf MCP Atlas / MCPAtlas Public, vor GPT-5.5 mit 75,3 % und DeepSeek-V4-Pro-Max mit 73,6 % |
| Vision und Dokumentanalyse | Claude Opus 4.7 | Als Nummer 1 in der Vision & Document Arena berichtet, mit Siegen in den Unterkategorien Diagramme, Hausaufgaben und OCR |
Wichtig: Zeilen, die mehrere Quellen mischen, sollten vorsichtig gelesen werden. Ein Kimi-Wert aus einem Kimi-fokussierten Vergleich ist informativ, aber weniger belastbar als ein Resultat aus derselben Tabelle und demselben Testaufbau wie GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max .
Der klarste Sieg von GPT-5.5 liegt bei Terminal-Bench 2.0: 82,7 % gegenüber 69,4 % für Claude Opus 4.7 und 67,9 % für DeepSeek-V4-Pro-Max in der gemeinsamen Tabelle . Das ist einer der größten Abstände im zitierten Benchmark-Set.
Auch bei OSWorld-Verified liegt GPT-5.5 vor Claude Opus 4.7, allerdings nur knapp mit 78,7 % zu 78,0 % . Auf FrontierMath Tiers 1–3 ist der Vorsprung deutlicher: 51,7 % für GPT-5.5 gegenüber 43,8 % für Claude
.
GPT-5.5 Pro verändert das Bild, sobald Tools oder Browsing zentral sind. Auf Humanity’s Last Exam mit Tools erreicht GPT-5.5 Pro 57,2 % und liegt damit vor Claude Opus 4.7 mit 54,7 %, GPT-5.5 mit 52,2 % und DeepSeek-V4-Pro-Max mit 48,2 % . Bei BrowseComp führt GPT-5.5 Pro mit 90,1 %, vor GPT-5.5 mit 84,4 %, DeepSeek-V4-Pro-Max mit 83,4 % und Claude Opus 4.7 mit 79,3 %
.
GPT-5.5 gewinnt aber nicht jedes Reasoning-Szenario. Claude Opus 4.7 liegt auf GPQA Diamond in der gemeinsamen Tabelle knapp vorn, mit 94,2 % gegenüber 93,6 % für GPT-5.5 . Ein separater GPT-5.5-Leitfaden nennt außerdem GPT-5.5-only-Werte wie 91,7 % auf Harvey BigLaw Bench, 88,5 % auf einem internen Investment-Banking-Benchmark und 80,5 % auf BixBench. Diese Werte sollten aber nicht als Vierer-Siege gelesen werden, weil der zitierte Ausschnitt keine entsprechenden Ergebnisse für Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 berichtet
.
Claude Opus 4.7 hat in der wichtigsten gemeinsamen Tabelle das beste Profil für Reasoning ohne externe Werkzeuge. Das Modell führt GPQA Diamond mit 94,2 % und Humanity’s Last Exam ohne Tools mit 46,9 % an . Auch auf SWE-Bench Pro / SWE Pro liegt Claude mit 64,3 % vorn, ebenso auf MCP Atlas / MCPAtlas Public mit 79,1 %
.
Schwächer wirkt Claude in den zitierten Daten bei terminalartigen Aufgaben. GPT-5.5 liegt auf Terminal-Bench 2.0 mehr als 13 Punkte vor Claude, 82,7 % zu 69,4 %, und führt auch bei OSWorld-Verified sowie FrontierMath Tiers 1–3 .
Das stärkste belegte multimodale Signal kommt dagegen von Claude. Eine Quelle berichtet, dass Claude Opus 4.7 in der Vision & Document Arena Platz 1 erreicht, sich in der Document Arena um 4 Punkte gegenüber Opus 4.6 verbessert und in den Unterkategorien Diagramme, Hausaufgaben und OCR gewinnt . Dieselbe Quelle liefert jedoch keine vergleichbaren numerischen Vision-&-Document-Arena-Werte für GPT-5.5, DeepSeek V4 oder Kimi K2.6. Das stützt also Claudes Dokumentstärke, aber kein vollständiges multimodales Vierer-Ranking
.
Bei DeepSeek ist die Modellbezeichnung wichtig. Die gemeinsame Benchmark-Tabelle berichtet DeepSeek-V4-Pro-Max, während der Artificial-Analysis-Vergleich DeepSeek V4 Pro mit einem Kontextfenster von 1.000k Tokens aufführt . Diese Labels sollten nicht automatisch gleichgesetzt werden.
In der gemeinsamen Tabelle ist DeepSeek-V4-Pro-Max konkurrenzfähig, führt aber keine Zeile an. Genannt werden 90,1 % auf GPQA Diamond, 37,7 % auf Humanity’s Last Exam ohne Tools, 48,2 % auf Humanity’s Last Exam mit Tools, 67,9 % auf Terminal-Bench 2.0, 55,4 % auf SWE-Bench Pro / SWE Pro, 83,4 % auf BrowseComp und 73,6 % auf MCP Atlas / MCPAtlas Public .
Der wichtigste belegte Produktvorteil ist nicht ein einzelner Kategoriesieg, sondern Kosten-Leistung. VentureBeat beschreibt DeepSeek V4 als nahezu State-of-the-Art bei etwa einem Sechstel der Kosten von Opus 4.7 und GPT-5.5 . Das ist ein guter Grund, DeepSeek bei kostenkritischen Workloads zu testen, aber kein Ersatz für eine eigene Qualitätsmessung.
Für Long-Context-Screenings listet ein Artificial-Analysis-Vergleich sowohl DeepSeek V4 Pro als auch Claude Opus 4.7 mit 1.000k-Token-Kontextfenstern . Das spricht für Gleichstand in genau diesen aufgeführten Konfigurationen, nicht automatisch für jede DeepSeek- oder Claude-Variante
.
Kimi K2.6 ist in diesem Set am schwierigsten sauber einzuordnen, weil es nicht in der zentralen gemeinsamen Tabelle mit GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max auftaucht . Ein Kimi-fokussierter Vergleich nennt für K2.6 58,6 % auf SWE-Bench Pro, 80,2 % auf SWE-Bench Verified, 66,7 % auf Terminal-Bench 2.0, 54,0 % auf Humanity’s Last Exam mit Tools und 89,6 % auf LiveCodeBench v6
. Die Quelle schreibt, dass die K2.6-Werte aus einer offiziellen Moonshot-AI-Model-Card stammen, vergleicht aber hauptsächlich mit Claude Opus 4.6 und GPT-5.4 statt mit exakt der Vierergruppe dieses Artikels
.
Ein separater Kimi-vs.-DeepSeek-Vergleich meldet für Kimi K2.6 96,4 % auf AIME 2026 im Thinking Mode, 27,9 % auf APEX Agents im Thinking Mode und 83,2 % auf BrowseComp mit Thinking Mode und Kontextmanagement . In derselben Quelle steht DeepSeek-V4 Pro bei 83,4 % auf BrowseComp; für AIME 2026 und APEX Agents sind dort keine DeepSeek-Werte verfügbar
.
Damit bleibt Kimi K2.6 ein Modell, das man besonders für Coding-, Agenten-, Mathematik- und Browsing-Aufgaben testen kann. Die vorliegenden Belege reichen aber nicht für ein sauberes Gesamturteil gegen GPT-5.5 und Claude Opus 4.7 über dieselbe Benchmark-Suite hinweg .
Diese Zahlen sind keine universelle Rangliste. Die Quellen mischen Basis- und Pro-Varianten, darunter GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 und Kimi K2.6 . Einige Resultate sind außerdem anbieterberichtet; OpenAI weist für seine GPT-Evaluierungen zu ARC-AGI darauf hin, dass sie mit Reasoning Effort xhigh in einer Forschungsumgebung liefen, die in Einzelfällen von der Produktionsversion von ChatGPT abweichen kann
.
Knappere Abstände sollte man eher als Richtungssignal lesen. Claudes Vorsprung gegenüber GPT-5.5 auf GPQA Diamond beträgt 0,6 Punkte, und GPT-5.5 liegt auf OSWorld-Verified nur 0,7 Punkte vor Claude . Größere Lücken sind handlungsrelevanter: GPT-5.5 liegt auf Terminal-Bench 2.0 mehr als 13 Punkte vor Claude, und auf FrontierMath beträgt der Vorsprung gegenüber Claude 7,9 Punkte
.
Die praktische Schlussfolgerung: Unter GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 gibt es keinen einzelnen Sieger für alles. Wählen Sie zuerst die Benchmark-Kategorie, die Ihrem echten Workload am nächsten kommt, und testen Sie danach die infrage kommenden Modelle mit Ihren eigenen Aufgaben erneut.
Comments
0 comments