Stand Ende April 2026 ist die sinnvollste Frage nicht: Welches Modell gewinnt? Sondern: Für welchen Job soll es gewinnen? Bei GPT‑5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 ergibt sich aus den verfügbaren öffentlichen Angaben eher eine Workload-Karte als eine klassische Bestenliste.
Der wichtigste Vorbehalt: Die Zahlen stammen aus unterschiedlichen Labs, Tool-Setups, Effort-Modi und Evaluations-Harnesses. LM Council weist ausdrücklich darauf hin, dass unabhängig durchgeführte Benchmarks von Herstellerangaben abweichen können. [12]
Kurzfazit
- Agenten, die Terminal, Browser und Tools bedienen: GPT‑5.5 liefert in diesem Quellenstand das stärkste öffentliche Signal. OpenAI nennt unter anderem 82,7 % auf Terminal‑Bench 2.0, 78,7 % auf OSWorld‑Verified, 84,4 % auf BrowseComp und 55,6 % auf Toolathlon. [
5]
- Produktive Codebase-Reparatur und SWE-Bench-artiges Coding: Claude Opus 4.7 ist der stärkste Kandidat für die Shortlist. Gemeldet werden 87,6 % auf SWE‑Bench Verified und 64,3 % auf SWE‑Bench Pro. [
17]
- Open-Weights-Coding-Stack: Kimi K2.6 ist sehr konkurrenzfähig. Die offiziellen Kimi-Angaben nennen 66,7 % auf Terminal‑Bench 2.0, 58,6 % auf SWE‑Bench Pro, 80,2 % auf SWE‑Bench Verified und 89,6 auf LiveCodeBench v6. [
29]
- Long-Context- und Open-Source/Open-Weights-Experimente: DeepSeek V4 sollte evaluiert werden, aber immer mit Blick auf die genaue Variante. DeepSeek bezeichnete V4 Preview am 24. April 2026 als live und open-sourced. [
42]
- Science Reasoning: Claude Opus 4.7 kommt bei GPQA Diamond auf gemeldete 94,2 %. Kimi K2.6 liegt bei GPQA-Diamond bei 90,5 % und bei AIME 2026 bei 96,4 %; DeepSeek V4-Pro/Pro-Max meldet 90,1 bei GPQA Diamond. [
19][
27][
29][
37]
Drei Regeln, bevor man die Tabelle liest
- Benchmark-Familien messen unterschiedliche Fähigkeiten. Terminal‑Bench testet andere Dinge als SWE‑Bench, BrowseComp, OSWorld, GPQA oder HLE. Ein starkes Coding-Modell ist nicht automatisch das beste Web-Recherche-, Long-Context- oder Computer-Use-Modell. [
5][
17][
29]
- Tools und Inferenzaufwand verändern Ergebnisse. Die OpenAI-Systemkarte beschreibt GPT‑5.5 Pro als dieselbe zugrunde liegende Modellbasis mit einer Einstellung, die parallelen Test-Time-Compute nutzt. GPT‑5.5 und GPT‑5.5 Pro sollten daher nicht als Ergebnisse mit identischem Rechenbudget gelesen werden. [
3]
- Öffentliche Benchmarks sind Shortlist-Hilfen, keine Beschaffungsentscheidung. Weil unabhängige Runs von Herstellerangaben abweichen können, braucht jede ernsthafte Produktentscheidung interne Tests mit den eigenen Aufgaben, Tools, Timeouts und Kostenlimits. [
12]
Die Modelle auf einen Blick
| Modell | Öffentliche Positionierung | Stärkstes Signal | Wichtigster Vorbehalt |
|---|---|---|---|
| GPT‑5.5 | OpenAI betont Computer-Use, Tool-Use und agentische Workflows. [ | Terminal‑Bench 2.0: 82,7 %, OSWorld‑Verified: 78,7 %, BrowseComp: 84,4 %; GPT‑5.5 Pro BrowseComp: 90,1 %. [ | Pro-Werte nicht direkt mit regulärem GPT‑5.5 gleichsetzen, weil GPT‑5.5 Pro parallelen Test-Time-Compute nutzt. [ |
| Claude Opus 4.7 | Anthropic beschreibt es als Hybrid-Reasoning-Modell für Coding und KI-Agenten mit 1-Million-Token-Kontextfenster. [ | SWE‑Bench Verified: 87,6 %, SWE‑Bench Pro: 64,3 %. [ | Ein großes Kontextfenster garantiert nicht automatisch perfekte Long-Context-Retrieval-Qualität; StationX weist auf einen Caveat beim extremen 1-Million-Token-Recall hin. [ |
| Kimi K2.6 | Moonshot/Kimi positioniert K2.6 als Open-Source/Open-Weights-orientiertes Coding-Modell. [ | Terminal‑Bench 2.0: 66,7 %, SWE‑Bench Pro: 58,6 %, SWE‑Bench Verified: 80,2 %, LiveCodeBench v6: 89,6. [ | Artificial Analysis nennt native Bild-/Videoeingabe und 256k maximale Kontextlänge; reale Performance hängt dennoch vom Deployment-Setup ab. [ |
| DeepSeek V4-Pro / Pro-Max | DeepSeek V4 Preview wurde von DeepSeek als live und open-sourced bezeichnet; die Hugging-Face-Karte stellt die V4-Serie als Mixture-of-Experts-Sprachmodelle dar. [ | Terminal Bench 2.0: 67,9, SWE Verified: 80,6, SWE Pro: 55,4, GPQA Diamond: 90,1. [ | DeepSeek-V4-Werte sind variantenspezifisch. Flash, Pro und Pro-Max sollten nicht zu einem einzigen DeepSeek-V4-Score vermischt werden. [ |
Head-to-Head: die wichtigsten Benchmarks
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | Einordnung |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82,7 % [ | 69,4 % gemeldet [ | 66,7 % [ | 67,9 [ | Bei Command-Line- und autonomen Coding-Aufgaben ist der Vorsprung von GPT‑5.5 am klarsten. |
| SWE‑Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 % [ | 55,4 [ | Auf diesem harten Software-Engineering-Benchmark liegt Claude Opus 4.7 vorn. |
| SWE‑Bench Verified | kein klar vergleichbarer Wert in diesen Quellen | 87,6 % [ | 80,2 % [ | 80,6 [ | Bei Repo-Issue-Resolution zeigt Claude das stärkste gemeldete Signal. |
| OSWorld‑Verified | 78,7 % [ | 78,0 % [ | 73,1 % [ | kein klar vergleichbarer Wert | Bei Computer-Use-Aufgaben liegen GPT‑5.5 und Claude Opus 4.7 sehr nah beieinander. |
| BrowseComp | 84,4 %; GPT‑5.5 Pro: 90,1 % [ | 79,3 % [ | 83,2 %; Agent Swarm: 86,3 % [ | kein klar vergleichbarer Wert | Für Browser-Agenten und Web-Recherche liefern GPT‑5.5 Pro und Kimi Agent Swarm starke Signale. |
| GPQA Diamond | kein klar vergleichbarer offizieller Wert in diesen Quellen | 94,2 % [ | 90,5 % [ | 90,1 [ | Bei wissenschaftlichem Reasoning auf Graduate-Level liegt Claude nach den gemeldeten Werten vorn. |
| HLE / Hard Reasoning | kein direkter vergleichbarer Wert | HLE ohne Tools: 46,9 %, mit Tools: 54,7 % [ | HLE-Full: 34,7 %; mit Tools: 54,0 % [ | HLE: 37,7 % [ | Mit Tools liegen Claude und Kimi näher beieinander; DeepSeek ist in der gelisteten HLE-Zahl niedriger. |
| Long Context | in den vorliegenden OpenAI-Launch-Auszügen keine klare öffentliche Kontext-Spezifikation | 1-Million-Token-Kontextfenster [ | 256k maximale Kontextlänge [ | V4-Materialien positionieren die Serie für Long-Context-Szenarien [ | Für Long-Context-Deployments sind Claude und DeepSeek klarer positioniert; die tatsächliche Retrieval-Qualität muss separat getestet werden. |
Welches Modell für welchen Einsatz?
1. Terminal-lastige autonome Coding-Agenten: GPT‑5.5
Wenn Ihr Workload aus Terminal-Aktionen, Browser-Nutzung, OS-Level-Aufgaben, Tool-Orchestrierung und mehrstufigen Agenten-Loops besteht, wirkt GPT‑5.5 in diesem Datensatz am stärksten. OpenAI meldet 82,7 % auf Terminal‑Bench 2.0, 78,7 % auf OSWorld‑Verified, 84,4 % auf BrowseComp und 55,6 % auf Toolathlon. [5]
Der hohe BrowseComp-Wert von GPT‑5.5 Pro mit 90,1 % ist interessant, sollte aber nicht wie ein regulärer GPT‑5.5-Wert gelesen werden: Laut OpenAI-Systemkarte nutzt GPT‑5.5 Pro dieselbe Modellbasis mit parallelem Test-Time-Compute. [3][
5]
Passt besonders zu: Coding-Agenten, Browser-Recherche-Agenten, Computer-Use-Automatisierung und Tool-lastigen Enterprise-Assistenten.
2. Produktive Codebase-Reparatur: Claude Opus 4.7
Wenn der wichtigste KPI lautet, echte Repository-Probleme zu lösen, Pull Requests vorzubereiten, Tests zum Laufen zu bringen und große Codebasen zu verstehen, gehört Claude Opus 4.7 ganz nach oben auf die Shortlist. Die gemeldeten 87,6 % auf SWE‑Bench Verified und 64,3 % auf SWE‑Bench Pro sind in diesem Vergleich das stärkste Coding-Signal. [17]
Anthropic beschreibt Claude Opus 4.7 zudem als Hybrid-Reasoning-Modell für Coding und KI-Agenten mit 1-Million-Token-Kontextfenster. Das macht es besonders naheliegend, es in Large-Codebase-Workflows zu testen. [14]
Passt besonders zu: Repository-Wartung, Code Reviews, komplexen Refactorings, Developer-Copilots und Engineering-Agenten.
3. Open-Weights-Coding-Stack: Kimi K2.6
Wenn Open Weights, mehr Hosting-Kontrolle oder ein selbst verwaltbarer Coding-Stack wichtig sind, ist Kimi K2.6 einer der stärksten Kandidaten. Die offiziellen Kimi-Angaben nennen 66,7 % auf Terminal‑Bench 2.0, 58,6 % auf SWE‑Bench Pro, 80,2 % auf SWE‑Bench Verified, 52,2 % auf SciCode und 89,6 auf LiveCodeBench v6. [29]
Auch für agentische Such- und Recherche-Workloads sieht Kimi gut aus: In den öffentlichen Materialien stehen 83,2 % auf BrowseComp und 86,3 % für Agent Swarm BrowseComp. [34] Artificial Analysis nennt außerdem native Bild- und Videoeingabe sowie 256k maximale Kontextlänge. [
32]
Passt besonders zu: Open-Model-Deployments, Coding-Agenten, Recherche-Agenten und Teams, die Hosting und Modellbetrieb stärker kontrollieren wollen.
4. Long-Context- und Open-Source-Experimente: DeepSeek V4
DeepSeek bezeichnete V4 Preview am 24. April 2026 als offiziell live und open-sourced. [42] Die DeepSeek-V4-Pro-Modellkarte stellt die V4-Serie als Mixture-of-Experts-Sprachmodelle dar. [
37]
Für DeepSeek V4-Pro/Pro-Max werden unter anderem 67,9 auf Terminal Bench 2.0, 80,6 auf SWE Verified, 55,4 auf SWE Pro und 90,1 auf GPQA Diamond gemeldet. [37] Das macht DeepSeek V4 zu einem strategischen Kandidaten für Open-Source/Open-Weights-Tests und Long-Context-Anwendungen — aber nur, wenn die genaue Variante sauber getrennt bewertet wird. [
37][
42]
Passt besonders zu: Long-Context-Anwendungen, Open-Source/Open-Weights-Experimenten und Teams, die gehostete Frontier-Modelle mit deploybaren Alternativen vergleichen.
5. Wissenschaft und Mathematik: Claude führt bei GPQA, aber nicht überall
Bei den verfügbaren gemeldeten Werten kommt Claude Opus 4.7 auf 94,2 % bei GPQA Diamond. [19] Kimi K2.6 meldet 90,5 % bei GPQA-Diamond und 96,4 % bei AIME 2026. [
27][
29] DeepSeek V4-Pro/Pro-Max meldet 90,1 bei GPQA Diamond. [
37]
Das macht Claude für Science-Reasoning sehr stark. Trotzdem sollte man bei Mathematik- und Wissenschafts-Workloads nicht auf einen einzelnen Benchmark setzen: Tool-Zugriff, Effort-Modus und Evaluationssetup können die Rangfolge verändern. [12]
Praktische Evaluations-Checkliste
- Nicht nach einem einzigen Leaderboard entscheiden. Nutzen Sie öffentliche Benchmarks als Vorauswahl, aber testen Sie intern mit denselben Prompts, Tools, Timeouts, Kostenlimits und Bewertungskriterien. [
12]
- GPT‑5.5 und GPT‑5.5 Pro getrennt erfassen. Pro nutzt parallelen Test-Time-Compute; reguläre und Pro-Ergebnisse sind daher nicht automatisch dasselbe Rechenbudget. [
3]
- Open-Weights-Anforderungen vorab definieren. Wenn Datenkontrolle, eigenes Hosting oder Anpassbarkeit zwingend sind, sollten Kimi K2.6 und DeepSeek V4 in einer separaten Evaluationsspur laufen. [
29][
34][
37][
42]
- Long Context nicht nur an der Fenstergröße messen. Claude Opus 4.7 ist mit 1-Million-Token-Kontextfenster klar positioniert, Kimi K2.6 mit 256k maximaler Kontextlänge; DeepSeek-V4-Materialien setzen ebenfalls auf Long-Context-Positionierung. Entscheidend sind aber Recall, Instruktionsbefolgung und Kosten auf Ihren eigenen Dokumenten. [
14][
17][
32][
37][
42]
- Coding-Agenten zusätzlich auf echten Repos testen. SWE‑Bench-Scores sind nützlich, aber Produktions-Repositories bringen eigene Abhängigkeiten, flaky Tests, Coding-Styles und Review-Regeln mit. [
17]
Grenzen dieser Einordnung
- In den vorliegenden öffentlichen Quellen gibt es keinen vollständigen Vergleich, der alle vier Modelle in derselben unabhängigen Umgebung, mit identischem Harness, identischem Tool-Zugriff und gleicher Effort-Einstellung testet; LM Council warnt zudem vor Abweichungen zwischen unabhängigen und selbst gemeldeten Benchmarks. [
12]
- GPT‑5.5 Pro und GPT‑5.5 sollten nicht gleichgesetzt werden, weil OpenAI GPT‑5.5 Pro als dieselbe Modellbasis mit parallelem Test-Time-Compute beschreibt. [
3]
- DeepSeek-V4-Scores sind variantenspezifisch. V4 Preview, V4-Pro und Pro-Max-artige Ergebnisse sollten nicht zu einem einzigen DeepSeek-V4-Wert vermischt werden. [
37][
42]
- Bei Open-Weights-Deployments wie Kimi K2.6 und DeepSeek V4 können Serving-Stack, Hardware, Quantisierung und Kontext-Settings die reale Leistung beeinflussen; veröffentlichte Benchmarks ersetzen daher keine Deployment-Evaluation. [
29][
34][
37]
Bottom Line
GPT‑5.5 gehört nach oben auf die Shortlist, wenn Agentic Computer-Use, Browsing, Tool-Orchestrierung und terminal-lastiges Coding im Mittelpunkt stehen. [5]
Claude Opus 4.7 ist die stärkste Wahl für die erste Testphase, wenn der Produktwert vor allem in Repo-Level-Bugfixing, Codebase-Reparatur und SWE‑Bench-artigem Software Engineering liegt. [14][
17]
Kimi K2.6 ist besonders interessant, wenn ein Open-Weights-Coding-Modell mit starken SWE‑Bench-, Terminal‑Bench- und agentischen Search-Signalen gebraucht wird. [29][
34]
DeepSeek V4-Pro/Pro-Max sollte auf die Liste, wenn Long-Context-Experimente, Open-Source/Open-Weights-Deployability und Variantenvergleich zentrale Kriterien sind. [37][
42]
Die robusteste Entscheidung entsteht nicht aus einer einzelnen Zahl, sondern aus einer Kombination: öffentliche Benchmarks für die Shortlist, danach interne Tests mit realen Aufgaben, Kosten-, Latenz-, Datenschutz- und Failure-Mode-Prüfung. [12]




