| Mittel bis niedrig |
| Kimi K2.6 | Einzelne Signale sind vorhanden – LLM Stats listet 0,91 in GPQA, WhatLLM führt Kimi K2.6 im Top-10-Quality-Index –, aber eine breite Multi-Benchmark-Abdeckung fehlt | Niedrig |
Benchmarks messen unterschiedliche Dinge. SWE-bench prüft reale Aufgaben aus der Softwareentwicklung; Vals AI beschreibt den Benchmark als Test für das Lösen von Produktions-Engineering-Aufgaben . SWE-bench Pro ist noch einmal gesondert zu betrachten: Das Paper beschreibt ihn als deutlich anspruchsvollere Variante für langfristige Software-Engineering-Aufgaben
.
Auch Reasoning-Benchmarks sind nicht automatisch entscheidend. GPQA Diamond ist für wissenschaftliches Schlussfolgern relevant, trennt aber die führenden Frontier-Modelle nicht mehr scharf. TNW weist darauf hin, dass Modelle wie Opus 4.7, GPT-5.4 Pro und Gemini 3.1 Pro bei GPQA Diamond so eng beieinanderliegen, dass die Unterschiede im Messrauschen liegen können . MMLU ist noch problematischer als Differenzierer: Nanonets schreibt, dass Top-Modelle 2026 bereits oberhalb von 88 % liegen und der Benchmark für feine Unterschiede kaum noch aussagekräftig ist
.
Mindestens genauso wichtig ist die Herkunft der Zahlen. Eine offizielle Herstellerangabe, ein unabhängiges Leaderboard, ein Aggregator und ein Community-Thread haben nicht dasselbe Gewicht. BenchLM markiert diese Unsicherheit sogar selbst: Das Profil zu Claude Opus 4.7 ist dort vom öffentlichen Leaderboard ausgeschlossen, weil noch nicht genug nicht-generierte öffentliche Benchmark-Abdeckung für ein sicheres Ranking vorliegt .
Claude Opus 4.7 ist in dieser Auswahl am besten öffentlich belegt. Die stärkste Primärquelle kommt von Anthropic selbst: Das Unternehmen berichtet, Opus 4.7 habe in einem internen Research-Agent-Benchmark mit 0,715 den geteilten Bestwert erreicht und unter den getesteten Modellen die konsistenteste Long-Context-Leistung gezeigt . Weil es sich um einen internen Benchmark handelt, ersetzt das keine unabhängige Messung. Es zeigt aber klar, worauf Anthropic das Modell ausrichtet: mehrstufige Arbeit, Tool-Nutzung und längere Kontexte.
Das stärkste externe Signal kommt aus SWE-bench. Vals AI führt Claude Opus 4.7 mit 82,00 % auf Platz 1; die Seite wurde am 24. April 2026 aktualisiert . Vellum meldet zusätzlich 87,6 % in SWE-bench Verified und 64,3 % in SWE-bench Pro
. LMCouncil listet für Claude Opus 4.7 in SWE-bench Verified 83,5 % ± 1,7
.
Die seriöse Schlussfolgerung lautet daher nicht: Eine Zahl ist die einzig wahre. Belastbarer ist: Claude liegt in mehreren Software-Engineering-Quellen im Spitzenfeld oder an der Spitze. Zugleich sind SWE-bench, SWE-bench Verified und SWE-bench Pro nicht identisch; Unterschiede können von Methodik, Datum, Teilmenge oder Konfiguration abhängen .
Beim wissenschaftlichen Reasoning steht Claude Opus 4.7 mit 94,2 % in GPQA Diamond in den Tabellen von O-Mega, Vellum und TNW . Das ist stark, aber kein alleiniger Gesamtsieg: TNW betont, dass GPQA Diamond bei Frontier-Modellen bereits sehr eng geworden ist
.
GPT-5.5 sieht in den vorliegenden Reasoning-Daten sehr konkurrenzfähig aus. O-Mega meldet 92,4 % in MMLU, 93,6 % in GPQA Diamond, 85,0 % in ARC-AGI-2 und 95,0 % in ARC-AGI-1 . Vellum führt GPT-5.5 ebenfalls mit 93,6 % in GPQA Diamond, in dieser konkreten Tabelle knapp hinter Claude Opus 4.7
. BenchLM ordnet GPT-5.5 mit 89/100 im vorläufigen Leaderboard und Rang 2 von 16 im verifizierten Leaderboard in die Spitzengruppe ein
.
Der Haken ist die Nachvollziehbarkeit. In den verfügbaren Quellen erscheint GPT-5.5 vor allem in Artikeln, Aggregatoren und Benchmark-Seiten. Eine offizielle OpenAI-Benchmark-Card mit einem vollständig vergleichbaren Zahlenpaket wie bei Anthropic zu Claude Opus 4.7 liegt in diesem Material nicht vor. Appwrite beschreibt den Launch von GPT-5.5 am 24. April 2026; Vals führt openai/gpt-5.5 mit Release Date 23. April 2026 und einem Vals Index von 67,76 % ± 1,79 . Das sind hilfreiche Hinweise, aber kein Ersatz für eine offizielle Benchmark-Dokumentation.
Für eine Entscheidungsvorlage sollte GPT-5.5 deshalb als Top-Kandidat im allgemeinen Reasoning dargestellt werden – besonders wegen GPQA und ARC-AGI. Als Gesamtsieger ist es in dieser Datenlage aber schwerer zu begründen, wenn für alle Modelle gleich harte öffentliche Evidenz verlangt wird .
DeepSeek ist der Fall mit der größten Namens- und Varianten-Unschärfe. Die Quellen sprechen teils von DeepSeek V4, teils von DeepSeek V4 Pro und teils von DeepSeek V4 Pro High. Eine Zahl aus einer Variante sollte daher nicht automatisch auf die andere übertragen werden .
Hugging Face zeigt für DeepSeek-V4-Pro eine Community-Diskussion mit Evaluationen zu GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified und Terminal-Bench 2.0 . BenchLM meldet für DeepSeek V4 Pro High 83,8/100 in Agentic, 88,8/100 in Coding und 72,1/100 in Knowledge
. NxCode schreibt, DeepSeek V4 erreiche 81 % in SWE-bench und 97 % bei Needle-in-a-Haystack über 1 Mio. Tokens; die Quelle macht die Aussage zu den 97 % aber selbst von unabhängiger Validierung abhängig
.
Redreamality liefert ein weiteres positives Signal für reines Coding: LiveCodeBench 93,5 und Codeforces 3206 für DeepSeek V4 . Gleichzeitig hält dieselbe Quelle fest, dass bei längerfristiger agentischer Arbeit wie SWE-bench Pro und Terminal-Bench 2.0 geschlossene Frontier-Modelle weiterhin führen
.
Praktisch heißt das: DeepSeek V4/V4 Pro gehört auf die Shortlist, wenn ein Team technische Kontrolle, eigene Evaluationsläufe oder experimentelle Deployments priorisiert. Für eine öffentliche Führungsbehauptung reicht die Evidenz im Vergleich zu Claude aber noch nicht aus .
Kimi K2.6 sollte nicht aus der Diskussion verschwinden, aber es hat nicht dieselbe Benchmark-Abdeckung wie die anderen drei Kandidaten. LLM Stats listet Kimi K2.6 mit 0,91 in GPQA, und WhatLLM führt das Modell im Top-10-Quality-Index . Das sind nützliche Signale, aber keine vollständige Multi-Benchmark-Grundlage.
Wichtig ist außerdem, nicht stillschweigend auf Kimi K2.5 auszuweichen. Simon Willison dokumentiert im Februar 2026 ein Ergebnis von Kimi K2.5 in SWE-bench Verified; das betrifft aber eine andere Modellversion . Für eine saubere Präsentation sollte Kimi K2.6 daher als noch nicht ausreichend belegt oder als Kandidat für spätere Validierung geführt werden.
Am überzeugendsten ist eine Trennung zwischen Leistung und Evidenzqualität. Eine Folie kann den Einsatzfall zeigen, eine zweite die Zahlen und eine dritte die methodischen Einschränkungen. So vermeidet man die typische Benchmark-Falle: eine scheinbar exakte Rangliste aus uneinheitlichen Quellen.
Die Kernbotschaft wäre: Claude Opus 4.7 ist der am besten belegte Kandidat für Coding und agentische Aufgaben. GPT-5.5 ist der stärkste Reasoning-Rivale in den verfügbaren Sekundärdaten. DeepSeek V4/V4 Pro ist eine technische Alternative, die eigene Validierung verdient. Kimi K2.6 bleibt vorerst ein Modell mit unvollständiger öffentlicher Evidenz.
Drei Warnhinweise gehören unbedingt dazu. Erstens: SWE-bench, SWE-bench Verified und SWE-bench Pro nicht gleichsetzen, weil SWE-bench Pro für schwierigere langfristige Software-Aufgaben ausgelegt ist . Zweitens: Entscheidungen nicht allein auf MMLU stützen, weil Spitzenmodelle dort bereits sehr eng oberhalb von 88 % liegen
. Drittens: Jede Zahl nach Quellentyp markieren – offiziell, Leaderboard, Aggregator, Community-Auswertung oder Claim.
Wenn es um eine belastbare Executive-Einschätzung geht, sollte Claude Opus 4.7 derzeit vorne stehen: Es kombiniert eine offizielle Anthropic-Aussage, Platz 1 bei Vals SWE-bench und starke Drittquellenwerte in SWE-bench-Varianten . GPT-5.5 gehört als Top-Konkurrent im Reasoning daneben, aber mit dem Hinweis, dass die vorliegenden Zahlen überwiegend sekundär sind
. DeepSeek V4/V4 Pro ist eine ernsthafte technische Option für eigene Tests, nicht aber schon ein sauber belegter Gesamtsieger
. Kimi K2.6 sollte bis auf Weiteres als Kandidat mit unzureichender Vergleichsdatenlage geführt werden
.
Comments
0 comments