Wer 2026 nur nach dem einen Sieger fragt, bekommt bei diesen vier Modellen eine trügerisch einfache Antwort. In der Vals-AI-Liste erscheinen DeepSeek V4 und GPT-5.5 als Einträge vom 23. April 2026, Kimi K2.6 vom 20. April 2026 und Claude Opus 4.7 vom 16. April 2026 [19]. Die öffentlich vorliegenden Daten bewerten die vier Modelle aber nicht sauber unter denselben Benchmarks, Einstellungen und Kostenbedingungen. Für die Auswahl zählt deshalb weniger eine absolute Rangliste als die Frage: Welcher Messwert passt zu welchem Einsatz?
Warum ein einziger Spitzenplatz wenig sagt
KI-Benchmarks sind 2026 kein einheitlicher TÜV-Stempel. Kili Technology ordnet MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval und Sicherheitsbewertungen unterschiedlichen Fähigkeiten zu [8]. Auch der AI Index von Stanford HAI behandelt technische Leistung nicht als einen einzigen Wert, sondern unter anderem entlang von MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME und SWE-bench Verified [
13].
Gerade allgemeine Wissensbenchmarks verlieren bei Spitzenmodellen an Trennschärfe. Nanonets beschreibt MMLU als 5-shot-Test und weist darauf hin, dass Topmodelle 2026 häufig im Bereich oberhalb von 88 % liegen, sodass kleine Unterschiede kaum noch als klare Qualitätsabstufung taugen [22]. Praktisch heißt das: Für Entwicklerteams, Produktverantwortliche oder Analysten ist die passende Achse wichtiger als der lauteste Gesamtscore – also etwa Coding, Wissensarbeit, wissenschaftliches Reasoning, Computerbedienung, Kosten oder Latenz [
8][
22].
Die wichtigsten öffentlichen Werte im Überblick
| Modell | Öffentlich greifbare Werte | Was daraus als Stärke lesbar ist | Wichtige Einschränkung |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100, provisional Rang 2 von 110; SWE-bench Verified 82,4 %; FinanceBench 82,7 %; MathVista +9,5 Punkte [ | Coding, Gesamtleaderboard, Finanzdokumente, visuelles mathematisches Reasoning | Anthropics research-agent benchmark mit 0,715 ist intern und nicht direkt mit GDPval oder Vals vergleichbar [ |
| GPT-5.5 | BenchLM 89/100, provisional Rang 5 von 112; GDPval 84,9 %; OSWorld-Verified 78,7 %; Tau2-bench Telecom 98,0 %; Vals Accuracy 67,76 % ± 1,79 [ | Wissensarbeit, Computerbedienung, Kundensupport-Workflows, agentenbasierte Aufgaben | OpenAI-Angaben, BenchLM und Vals AI nutzen unterschiedliche Bewertungslogiken [ |
| DeepSeek V4 / V4-Pro-Max | Vals-AI-Eintrag vom 23. April 2026; V4-Pro-Max mit MMLU-Pro 87,5 %, GPQA Diamond 90,1 %, GSM8K 92,6 % [ | Wissenschaftliche Fragen, Mathematik, anspruchsvolles Reasoning | DataCamp kennzeichnet die Werte als auf DeepSeeks internen Ergebnissen beruhend; das ist von unabhängig replizierten Scores zu trennen [ |
| Kimi K2.6 | BenchLM 85/100, provisional Rang 12 von 115; Vals Accuracy 63,94 % ± 1,97, Latenz 373,57 s, Kosten 0,21 US-Dollar/Test; Artificial Analysis Intelligence Index 54, Gesamtrang 4 [ | Open-Weights-Segment, Kosten, Latenz, Betriebseffizienz | Je nach Quelle tauchen Kimi 2.6, Kimi K2.6 und K2.6 Thinking auf; vor dem Vergleich sollte die konkrete Einstellung geprüft werden [ |
Gesamtleaderboards: Claude liegt bei BenchLM vorn – in diesem Ausschnitt
Unter den drei hier belegten BenchLM-Seiten steht Claude Opus 4.7 am besten da. BenchLM führt das Modell auf dem provisional leaderboard als Rang 2 von 110 mit einem overall score von 97/100 und zusätzlich als Rang 2 von 14 auf dem verified leaderboard [3].
GPT-5.5 erscheint bei BenchLM als Rang 5 von 112 im provisional leaderboard mit 89/100 und als Rang 2 von 16 im verified leaderboard [28]. Kimi 2.6 wird dort mit 85/100, Rang 12 von 115 und 27 veröffentlichten Benchmarkwerten beschrieben [
37].
Das ist nützlich, aber kein abschließendes Urteil. Die Vergleichsgruppen sind nicht identisch, und in den vorliegenden Quellen liegt kein gleichwertiger BenchLM-Wert für DeepSeek V4 vor [3][
28][
37]. BenchLM liefert also einen wichtigen Ausschnitt – nicht die endgültige Weltrangliste.
Coding: Bei Claude ist der öffentliche Nachweis am klarsten
Für Software-Engineering ist Claude Opus 4.7 in diesem Quellenpaket am deutlichsten belegt. MindStudio nennt 82,4 % auf SWE-bench Verified und beschreibt das als Zuwachs von rund 11 Punkten gegenüber Opus 4.6 [2]. Dieselbe Quelle nennt außerdem 82,7 % auf FinanceBench und einen Anstieg von 9,5 Punkten bei MathVista, was auf stärkere Verarbeitung von Finanzdokumenten und visuellem mathematischem Reasoning hindeutet [
2].
Bei GPT-5.5 stehen in den offiziellen OpenAI-Angaben andere Einsatzachsen im Vordergrund: GDPval, OSWorld-Verified und Tau2-bench Telecom statt eines zentral herausgestellten SWE-bench-Werts [29]. Für Kimi K2.6 spricht GMI Cloud von einem Spitzenplatz in SWE-Bench Pro, doch aus den hier vorliegenden Angaben lässt sich kein sauberer Punktwert für den Vierervergleich ableiten [
35]. DeepSeek V4 ist in den verfügbaren Daten stärker über Reasoning- und Mathematikwerte belegt als über Coding [
15][
16].
Agenten und Wissensarbeit: GPT-5.5 hat besonders konkrete offizielle Werte
Bei beruflicher Wissensarbeit und agentenbasierten Workflows sind die offiziellen GPT-5.5-Zahlen besonders konkret. OpenAI gibt für GPT-5.5 84,9 % auf GDPval an; GDPval testet, ob Agenten gut spezifizierte Wissensarbeit über 44 Berufsfelder hinweg erzeugen können [29]. Außerdem nennt OpenAI 78,7 % auf OSWorld-Verified, einem Test für die Bedienung realer Computerumgebungen, sowie 98,0 % auf Tau2-bench Telecom für komplexe Kundensupport-Workflows [
29].
Auch Claude Opus 4.7 hat Agentenwerte, allerdings aus einem anderen Rahmen. Anthropic berichtet für den internen research-agent benchmark einen geteilten Spitzenwert von 0,715 über sechs Module und im Modul General Finance 0,813 gegenüber 0,767 bei Opus 4.6 [7].
Wichtig ist die Skala: GPT-5.5 mit 84,9 % auf GDPval und Claude Opus 4.7 mit 0,715 in einem internen Research-Agent-Benchmark sind nicht derselbe Messwert. Sie sollten nicht so gelesen werden, als lägen sie auf einer gemeinsamen Prozentachse [7][
29].
Wissen und Reasoning: DeepSeek und Kimi lassen sich teilweise direkt gegenüberstellen
Für DeepSeek V4 sind die konkretesten öffentlichen Zahlen in der V4-Pro-Max-Konfiguration greifbar. DataCamp schreibt, DeepSeek V4-Pro-Max erreiche laut internen DeepSeek-Ergebnissen 87,5 % auf MMLU-Pro, 90,1 % auf GPQA Diamond und 92,6 % auf GSM8K [15]. Diese Werte sind als Referenz interessant, sollten aber wegen der internen Herkunft anders gewichtet werden als unabhängig erhobene Leaderboardwerte [
15].
Das Hugging-Face-Material zu DeepSeek-V4-Pro stellt DeepSeek V4-Pro-Max und Kimi K2.6 Thinking in einigen Wissens- und Reasoning-Benchmarks nebeneinander [16]:
| Benchmark | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | Höher in dieser Tabelle |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90,1 | 90,5 | Kimi K2.6 Thinking |
| HLE | 37,7 | 36,4 | DeepSeek V4-Pro-Max |
In genau dieser Tabelle liegt DeepSeek V4-Pro-Max bei MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA und HLE vor Kimi K2.6 Thinking; Kimi K2.6 Thinking liegt bei GPQA Diamond knapp vorn [16]. Für eine Vier-Wege-Rangliste reicht das trotzdem nicht, weil dieselbe Tabelle nicht Claude Opus 4.7 und GPT-5.5 enthält, sondern unter anderem Opus-4.6 Max und GPT-5.4 xHigh [
16].
Kosten, Latenz und Open Weights: Kimi hat auffällige Betriebswerte
Vals AI nennt für GPT-5.5 eine Accuracy von 67,76 % ± 1,79, eine Latenz von 409,09 s und ein Context Window von 1M [31]. Für Kimi K2.6 weist Vals AI eine Accuracy von 63,94 % ± 1,97, eine Latenz von 373,57 s und Kosten von 0,21 US-Dollar pro Test aus [
39]. Vergleicht man nur diese beiden Vals-Einträge, liegt GPT-5.5 beim ausgewiesenen Genauigkeitswert höher, während Kimi K2.6 den niedrigeren Latenzwert zeigt [
31][
39].
Für Nutzerinnen und Nutzer, die Open-Weights-Modelle betrachten, ist Kimi K2.6 zusätzlich interessant. Artificial Analysis beschreibt Moonshots Kimi K2.6 als führendes Open-Weights-Modell und nennt einen Artificial Analysis Intelligence Index von 54 sowie Gesamtrang 4 [36]. Aber auch hier gilt: Der Artificial-Analysis-Wert 54, die Vals Accuracy 63,94 % und BenchLM 85/100 sind verschiedene Skalen und sollten nicht zu einem künstlichen Gesamtscore addiert werden [
36][
37][
39].
Was das für die Modellauswahl bedeutet
- Wenn automatische Codekorrektur, Software-Engineering und Coding-Agenten im Mittelpunkt stehen, ist Claude Opus 4.7 in den vorliegenden Daten der naheliegende erste Prüfpunkt: SWE-bench Verified 82,4 % und BenchLM 97/100 sind die klarsten öffentlichen Signale [
2][
3].
- Wenn es um Wissensarbeit, Computerbedienung und komplexe Kundensupport-Flows geht, liefern die GPT-5.5-Werte auf GDPval, OSWorld-Verified und Tau2-bench Telecom die direktesten offiziellen Anhaltspunkte [
29].
- Wenn wissenschaftliche Fragen, Mathematik und anspruchsvolles Reasoning entscheidend sind, lohnt der Blick auf DeepSeek V4-Pro-Max und Kimi K2.6 Thinking, insbesondere über MMLU-Pro, GPQA Diamond und HLE [
15][
16].
- Wenn Open Weights, Betriebskosten und Latenz eine große Rolle spielen, sind Kimi K2.6s Artificial-Analysis-Einstufung und die Vals-Angaben zu 0,21 US-Dollar/Test sowie 373,57 s Latenz wichtige Referenzpunkte [
36][
39].
- Wenn jemand eine Rangliste nur mit MMLU begründet, ist Vorsicht angebracht: 2026 drängen sich Topmodelle in diesem Test in einem engen Hochscore-Bereich, was die Aussagekraft reduziert [
22].
Fazit: Keine Krone, sondern ein Einsatzprofil
Aus den öffentlich belegten Daten ergibt sich kein seriöser Gesamtsieger über alle Achsen hinweg. Claude Opus 4.7 wirkt besonders stark bei Coding und im BenchLM-Ausschnitt; GPT-5.5 ist sehr konkret für Wissensarbeit, Computerbedienung und Agenten-Workflows dokumentiert; DeepSeek V4-Pro-Max bringt auffällige Reasoning- und Mathematikwerte mit; Kimi K2.6 punktet vor allem im Open-Weights- und Betriebsdaten-Kontext [2][
3][
15][
16][
28][
29][
36][
37][
39].
Die beste Praxis ist daher nicht, eine globale Platzierung zu übernehmen. Sinnvoller ist ein eigener Test mit den Aufgaben, die wirklich anfallen: Code-Reparaturen, Finanzdokumente, Browser- oder Desktop-Steuerung, Kundensupport, lange Agentenläufe oder wissenschaftliche Fragen. Benchmarks sind dafür ein guter Startpunkt – aber sie ersetzen nicht den Test unter den eigenen Produktionsbedingungen [8][
22].




