Benchmark-Tabellen sehen oft eindeutiger aus, als sie sind. Für Teams, die ein Modell auswählen wollen, ist deshalb nicht die Frage entscheidend, wer die Rangliste insgesamt gewinnt. Wichtiger ist: Welcher Benchmark ähnelt Ihrer tatsächlichen Aufgabe?
Die belastbarste gemeinsame Tabelle vergleicht GPT-5.5, GPT-5.5 Pro, soweit ausgewiesen, Claude Opus 4.7 und DeepSeek-V4-Pro-Max. Kimi K2.6 taucht dagegen vor allem in separaten Vergleichen auf. Dadurch ist Kimi für einzelne Signale interessant, aber nicht in jeder Kategorie sauber mit den anderen drei Modellen vergleichbar [4][
11][
13].
Die Gewinner nach Einsatzgebiet
| Einsatzgebiet | Am besten belegte Wahl | Warum |
|---|---|---|
| Wissenschaftliches Reasoning | Claude Opus 4.7 | 94,2 % auf GPQA Diamond, vor GPT-5.5 mit 93,6 % und DeepSeek-V4-Pro-Max mit 90,1 % [ |
| Experten-Reasoning ohne Tools | Claude Opus 4.7 | 46,9 % auf Humanity’s Last Exam ohne Tools, vor GPT-5.5 Pro mit 43,1 %, GPT-5.5 mit 41,4 % und DeepSeek-V4-Pro-Max mit 37,7 % [ |
| Toolgestütztes Prüfungs-Reasoning | GPT-5.5 Pro | 57,2 % auf Humanity’s Last Exam mit Tools, vor Claude Opus 4.7 mit 54,7 % [ |
| Terminal- und agentische Computeraufgaben | GPT-5.5 | 82,7 % auf Terminal-Bench 2.0, vor Claude Opus 4.7 mit 69,4 % und DeepSeek-V4-Pro-Max mit 67,9 % [ |
| Bedienung von Betriebssystem-Umgebungen | GPT-5.5 | 78,7 % auf OSWorld-Verified gegenüber 78,0 % für Claude Opus 4.7 [ |
| Frontier-Mathematik | GPT-5.5 | 51,7 % auf FrontierMath Tiers 1–3 gegenüber 43,8 % für Claude Opus 4.7 [ |
| Software Engineering in der gemeinsamen Tabelle | Claude Opus 4.7 | 64,3 % auf SWE-Bench Pro / SWE Pro, vor GPT-5.5 mit 58,6 % und DeepSeek-V4-Pro-Max mit 55,4 % [ |
| Browsing | GPT-5.5 Pro | 90,1 % auf BrowseComp, vor GPT-5.5 mit 84,4 %, DeepSeek-V4-Pro-Max mit 83,4 % und Claude Opus 4.7 mit 79,3 % [ |
| MCP-artige öffentliche Tool-Workflows | Claude Opus 4.7 | 79,1 % auf MCP Atlas / MCPAtlas Public, vor GPT-5.5 mit 75,3 % und DeepSeek-V4-Pro-Max mit 73,6 % [ |
| Vision und Dokumentanalyse | Claude Opus 4.7 | Als Nummer 1 in der Vision & Document Arena berichtet, mit Siegen in den Unterkategorien Diagramme, Hausaufgaben und OCR [ |
| Preisbewusste Auswahl | DeepSeek V4 | VentureBeat beschreibt DeepSeek V4 als nahezu State-of-the-Art bei etwa einem Sechstel der Kosten von Opus 4.7 und GPT-5.5; das sollte aber am eigenen Workload geprüft werden [ |
| Am wenigsten sauberer Vierer-Vergleich | Kimi K2.6 | Kimi hat brauchbare gemeldete Werte, die zitierten Belege stammen aber überwiegend aus separaten Vergleichen statt aus derselben GPT-5.5-, Claude- und DeepSeek-Tabelle [ |
Benchmark-Tabelle im Detail
| Benchmark / Fähigkeit | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 / V4 Pro Max | Kimi K2.6 | Am besten belegte Lesart |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6 % [ | nicht berichtet | 94,2 % [ | 90,1 % für DeepSeek-V4-Pro-Max [ | nicht berichtet | Claude führt die gemeinsame Tabelle an [ |
| Humanity’s Last Exam, ohne Tools | 41,4 % [ | 43,1 % [ | 46,9 % [ | 37,7 % für DeepSeek-V4-Pro-Max [ | nicht berichtet | Claude führt die gemeinsame Tabelle an [ |
| Humanity’s Last Exam, mit Tools | 52,2 % [ | 57,2 % [ | 54,7 % [ | 48,2 % für DeepSeek-V4-Pro-Max [ | 54,0 % in einem separaten Kimi-Vergleich [ | GPT-5.5 Pro führt die gemeinsame Tabelle an [ |
| Terminal-Bench 2.0 | 82,7 % [ | nicht berichtet | 69,4 % [ | 67,9 % für DeepSeek-V4-Pro-Max [ | 66,7 % in einem separaten Kimi-Vergleich [ | GPT-5.5 führt [ |
| SWE-Bench Pro / SWE Pro | 58,6 % [ | nicht berichtet | 64,3 % [ | 55,4 % für DeepSeek-V4-Pro-Max [ | 58,6 % in einem separaten Kimi-Vergleich [ | Claude führt die gemeinsame Tabelle an [ |
| BrowseComp | 84,4 % [ | 90,1 % [ | 79,3 % [ | 83,4 % für DeepSeek-V4-Pro-Max [ | 83,2 % in einem Kimi-vs.-DeepSeek-Vergleich [ | GPT-5.5 Pro führt die gemeinsame Tabelle an [ |
| MCP Atlas / MCPAtlas Public | 75,3 % [ | nicht berichtet | 79,1 % [ | 73,6 % für DeepSeek-V4-Pro-Max [ | nicht berichtet | Claude führt [ |
| OSWorld-Verified | 78,7 % [ | nicht berichtet | 78,0 % [ | nicht berichtet | nicht berichtet | GPT-5.5 liegt knapp vor Claude [ |
| FrontierMath Tiers 1–3 | 51,7 % [ | nicht berichtet | 43,8 % [ | nicht berichtet | nicht berichtet | GPT-5.5 führt vor Claude [ |
| Vision & Document Arena | nicht berichtet | nicht berichtet | Als Nummer 1 insgesamt berichtet [ | nicht berichtet | nicht berichtet | Claude hat hier das einzige zitierte Ergebnis [ |
| AIME 2026 | nicht berichtet | nicht berichtet | nicht berichtet | in der zitierten Kimi-vs.-DeepSeek-Tabelle nicht verfügbar [ | 96,4 % im Thinking Mode [ | Nützliches Kimi-Signal, kein Vierer-Ranking [ |
| APEX Agents | nicht berichtet | nicht berichtet | nicht berichtet | in der zitierten Kimi-vs.-DeepSeek-Tabelle nicht verfügbar [ | 27,9 % im Thinking Mode [ | Nützliches Kimi-Signal, kein Vierer-Ranking [ |
| Kontextfenster | nicht berichtet | nicht berichtet | 1.000k Tokens in einem Artificial-Analysis-Vergleich [ | 1.000k Tokens für DeepSeek V4 Pro im selben Vergleich [ | nicht berichtet | Claude und DeepSeek V4 Pro liegen in dieser Konfiguration gleichauf [ |
Wichtig: Zeilen, die mehrere Quellen mischen, sollten vorsichtig gelesen werden. Ein Kimi-Wert aus einem Kimi-fokussierten Vergleich ist informativ, aber weniger belastbar als ein Resultat aus derselben Tabelle und demselben Testaufbau wie GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max [4][
11][
13].
GPT-5.5: stark bei Terminal, Betriebssystem, Mathematik und Tool-Nutzung
Der klarste Sieg von GPT-5.5 liegt bei Terminal-Bench 2.0: 82,7 % gegenüber 69,4 % für Claude Opus 4.7 und 67,9 % für DeepSeek-V4-Pro-Max in der gemeinsamen Tabelle [4][
5]. Das ist einer der größten Abstände im zitierten Benchmark-Set.
Auch bei OSWorld-Verified liegt GPT-5.5 vor Claude Opus 4.7, allerdings nur knapp mit 78,7 % zu 78,0 % [5]. Auf FrontierMath Tiers 1–3 ist der Vorsprung deutlicher: 51,7 % für GPT-5.5 gegenüber 43,8 % für Claude [
5].
GPT-5.5 Pro verändert das Bild, sobald Tools oder Browsing zentral sind. Auf Humanity’s Last Exam mit Tools erreicht GPT-5.5 Pro 57,2 % und liegt damit vor Claude Opus 4.7 mit 54,7 %, GPT-5.5 mit 52,2 % und DeepSeek-V4-Pro-Max mit 48,2 % [4]. Bei BrowseComp führt GPT-5.5 Pro mit 90,1 %, vor GPT-5.5 mit 84,4 %, DeepSeek-V4-Pro-Max mit 83,4 % und Claude Opus 4.7 mit 79,3 % [
4].
GPT-5.5 gewinnt aber nicht jedes Reasoning-Szenario. Claude Opus 4.7 liegt auf GPQA Diamond in der gemeinsamen Tabelle knapp vorn, mit 94,2 % gegenüber 93,6 % für GPT-5.5 [4]. Ein separater GPT-5.5-Leitfaden nennt außerdem GPT-5.5-only-Werte wie 91,7 % auf Harvey BigLaw Bench, 88,5 % auf einem internen Investment-Banking-Benchmark und 80,5 % auf BixBench. Diese Werte sollten aber nicht als Vierer-Siege gelesen werden, weil der zitierte Ausschnitt keine entsprechenden Ergebnisse für Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 berichtet [
7].
Claude Opus 4.7: stark bei Reasoning ohne Werkzeuge und bei Dokumenten
Claude Opus 4.7 hat in der wichtigsten gemeinsamen Tabelle das beste Profil für Reasoning ohne externe Werkzeuge. Das Modell führt GPQA Diamond mit 94,2 % und Humanity’s Last Exam ohne Tools mit 46,9 % an [4]. Auch auf SWE-Bench Pro / SWE Pro liegt Claude mit 64,3 % vorn, ebenso auf MCP Atlas / MCPAtlas Public mit 79,1 % [
4].
Schwächer wirkt Claude in den zitierten Daten bei terminalartigen Aufgaben. GPT-5.5 liegt auf Terminal-Bench 2.0 mehr als 13 Punkte vor Claude, 82,7 % zu 69,4 %, und führt auch bei OSWorld-Verified sowie FrontierMath Tiers 1–3 [4][
5].
Das stärkste belegte multimodale Signal kommt dagegen von Claude. Eine Quelle berichtet, dass Claude Opus 4.7 in der Vision & Document Arena Platz 1 erreicht, sich in der Document Arena um 4 Punkte gegenüber Opus 4.6 verbessert und in den Unterkategorien Diagramme, Hausaufgaben und OCR gewinnt [1]. Dieselbe Quelle liefert jedoch keine vergleichbaren numerischen Vision-&-Document-Arena-Werte für GPT-5.5, DeepSeek V4 oder Kimi K2.6. Das stützt also Claudes Dokumentstärke, aber kein vollständiges multimodales Vierer-Ranking [
1].
DeepSeek V4: konkurrenzfähig, aber der belegte Trumpf ist Preis-Leistung
Bei DeepSeek ist die Modellbezeichnung wichtig. Die gemeinsame Benchmark-Tabelle berichtet DeepSeek-V4-Pro-Max, während der Artificial-Analysis-Vergleich DeepSeek V4 Pro mit einem Kontextfenster von 1.000k Tokens aufführt [4][
3]. Diese Labels sollten nicht automatisch gleichgesetzt werden.
In der gemeinsamen Tabelle ist DeepSeek-V4-Pro-Max konkurrenzfähig, führt aber keine Zeile an. Genannt werden 90,1 % auf GPQA Diamond, 37,7 % auf Humanity’s Last Exam ohne Tools, 48,2 % auf Humanity’s Last Exam mit Tools, 67,9 % auf Terminal-Bench 2.0, 55,4 % auf SWE-Bench Pro / SWE Pro, 83,4 % auf BrowseComp und 73,6 % auf MCP Atlas / MCPAtlas Public [4].
Der wichtigste belegte Produktvorteil ist nicht ein einzelner Kategoriesieg, sondern Kosten-Leistung. VentureBeat beschreibt DeepSeek V4 als nahezu State-of-the-Art bei etwa einem Sechstel der Kosten von Opus 4.7 und GPT-5.5 [4]. Das ist ein guter Grund, DeepSeek bei kostenkritischen Workloads zu testen, aber kein Ersatz für eine eigene Qualitätsmessung.
Für Long-Context-Screenings listet ein Artificial-Analysis-Vergleich sowohl DeepSeek V4 Pro als auch Claude Opus 4.7 mit 1.000k-Token-Kontextfenstern [3]. Das spricht für Gleichstand in genau diesen aufgeführten Konfigurationen, nicht automatisch für jede DeepSeek- oder Claude-Variante [
3].
Kimi K2.6: interessante Werte, aber schwächere direkte Vergleichbarkeit
Kimi K2.6 ist in diesem Set am schwierigsten sauber einzuordnen, weil es nicht in der zentralen gemeinsamen Tabelle mit GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max auftaucht [4]. Ein Kimi-fokussierter Vergleich nennt für K2.6 58,6 % auf SWE-Bench Pro, 80,2 % auf SWE-Bench Verified, 66,7 % auf Terminal-Bench 2.0, 54,0 % auf Humanity’s Last Exam mit Tools und 89,6 % auf LiveCodeBench v6 [
13]. Die Quelle schreibt, dass die K2.6-Werte aus einer offiziellen Moonshot-AI-Model-Card stammen, vergleicht aber hauptsächlich mit Claude Opus 4.6 und GPT-5.4 statt mit exakt der Vierergruppe dieses Artikels [
13].
Ein separater Kimi-vs.-DeepSeek-Vergleich meldet für Kimi K2.6 96,4 % auf AIME 2026 im Thinking Mode, 27,9 % auf APEX Agents im Thinking Mode und 83,2 % auf BrowseComp mit Thinking Mode und Kontextmanagement [11]. In derselben Quelle steht DeepSeek-V4 Pro bei 83,4 % auf BrowseComp; für AIME 2026 und APEX Agents sind dort keine DeepSeek-Werte verfügbar [
11].
Damit bleibt Kimi K2.6 ein Modell, das man besonders für Coding-, Agenten-, Mathematik- und Browsing-Aufgaben testen kann. Die vorliegenden Belege reichen aber nicht für ein sauberes Gesamturteil gegen GPT-5.5 und Claude Opus 4.7 über dieselbe Benchmark-Suite hinweg [11][
13].
Welche Modelle sollten Sie zuerst testen?
- Testen Sie GPT-5.5 zuerst für terminal-lastige Agenten, Betriebssystem-Aufgaben und FrontierMath-ähnliche Arbeit; es führt in den zitierten Terminal-Bench-2.0-, OSWorld-Verified- und FrontierMath-Ergebnissen [
4][
5].
- Testen Sie GPT-5.5 Pro zuerst, wenn toolgestütztes Reasoning oder Browsing im Mittelpunkt steht; es führt bei Humanity’s Last Exam mit Tools und BrowseComp in der gemeinsamen Tabelle [
4].
- Testen Sie Claude Opus 4.7 zuerst für GPQA-artiges Wissenschafts-Reasoning, Expertenfragen ohne Tools, SWE-Bench-Pro-ähnliches Software Engineering, MCP-artige Workflows und dokumentlastige multimodale Aufgaben [
4][
1].
- Testen Sie DeepSeek V4 zuerst, wenn Kosten-Leistung die wichtigste Grenze ist und Sie eigene Qualitätsprüfungen durchführen können; der belegte Vorteil ist die berichtete Near-Frontier-Leistung bei etwa einem Sechstel der Kosten von Opus 4.7 und GPT-5.5 [
4].
- Testen Sie Kimi K2.6 zuerst, wenn Sie gezielt die gemeldeten Coding-, Agenten-, Mathematik- und Browsing-Signale prüfen wollen. Vergleichen Sie es dann mit denselben Prompts, Tools, Kontextgrenzen, Latenzzielen und Bewertungsregeln wie die anderen Modelle [
11][
13].
Benchmark-Fallstricke, die wirklich zählen
Diese Zahlen sind keine universelle Rangliste. Die Quellen mischen Basis- und Pro-Varianten, darunter GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 und Kimi K2.6 [3][
4][
11][
13]. Einige Resultate sind außerdem anbieterberichtet; OpenAI weist für seine GPT-Evaluierungen zu ARC-AGI darauf hin, dass sie mit Reasoning Effort xhigh in einer Forschungsumgebung liefen, die in Einzelfällen von der Produktionsversion von ChatGPT abweichen kann [
5][
8].
Knappere Abstände sollte man eher als Richtungssignal lesen. Claudes Vorsprung gegenüber GPT-5.5 auf GPQA Diamond beträgt 0,6 Punkte, und GPT-5.5 liegt auf OSWorld-Verified nur 0,7 Punkte vor Claude [4][
5]. Größere Lücken sind handlungsrelevanter: GPT-5.5 liegt auf Terminal-Bench 2.0 mehr als 13 Punkte vor Claude, und auf FrontierMath beträgt der Vorsprung gegenüber Claude 7,9 Punkte [
5].
Die praktische Schlussfolgerung: Unter GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 gibt es keinen einzelnen Sieger für alles. Wählen Sie zuerst die Benchmark-Kategorie, die Ihrem echten Workload am nächsten kommt, und testen Sie danach die infrage kommenden Modelle mit Ihren eigenen Aufgaben erneut.




