Diese Benchmarks prüfen, ob ein Modell echte Fehler in Open‑Source‑Projekten beheben kann – also reale GitHub‑Issues analysiert, Code schreibt und funktionierende Patches erstellt.
GPT‑5.5 liegt auf diesem Benchmark mit 58,6 % etwas darunter. Dafür erzielt es sehr starke Ergebnisse in anderen Engineering‑Workflows, etwa Terminal‑Bench 2.0, wo es mit 82,7 % führt.
Gemini 3.5 Flash erreicht 55,1 % auf SWE‑Bench Pro – bemerkenswert für ein Modell, das primär auf schnelle Inferenz ausgelegt ist.
Bei Grok 4.3 ist die Vergleichbarkeit schwieriger. Veröffentlicht wurden unter anderem:
Diese Benchmarks messen jedoch eher spezifische Fähigkeiten und lassen sich nicht direkt mit SWE‑Bench oder Terminal‑Bench vergleichen.
Für DeepSeek V4 existieren bislang nur wenige unabhängig bestätigte Coding‑Benchmarks. Viele der genannten Zahlen stammen aus internen Tests oder Leaks und wurden noch nicht reproduziert.
Moderne KI‑Benchmarks messen zunehmend, wie gut Modelle Tools orchestrieren und mehrstufige Aufgaben ausführen.
Hier fällt besonders Gemini 3.5 Flash auf. Google berichtet unter anderem:
Auch GPT‑5.5 zeigt starke Ergebnisse bei solchen Aufgaben. Der Benchmark GDPval misst reale Wissensarbeit über verschiedene Berufe hinweg und zeigt 84,9 % Siege oder Unentschieden gegen andere Modelle.
Claude Opus 4.7 ist ebenfalls stark im Umgang mit Software‑Interfaces. Auf OSWorld‑Verified erreicht es 78,0 %, was seine Fähigkeit zeigt, grafische Benutzeroberflächen und Programme zu bedienen.
Benchmarks allein sagen wenig über reale Einsatzbedingungen aus.
Grok 4.3 positioniert sich besonders über große Kontextfenster und niedrige Kosten. Laut xAI‑Dokumentation bietet das Modell:
Das macht es potenziell attraktiv für Anwendungen mit langen Dokumenten oder umfangreichen Kontextdaten.
Gemini 3.5 Flash verfolgt eine andere Strategie: maximale Geschwindigkeit. Google beschreibt das Modell als deutlich schneller als viele Frontier‑Modelle, bei gleichzeitig konkurrenzfähigen Benchmark‑Werten.
Modelle von DeepSeek wiederum setzen oft auf open‑weight oder kostengünstige Deployments, sodass Unternehmen sie leichter auf eigener Infrastruktur betreiben können.
Eine der glaubwürdigsten unabhängigen Analysen stammt vom CAISI‑Programm des US‑amerikanischen National Institute of Standards and Technology (NIST).
Dort wird festgestellt, dass DeepSeek V4 das leistungsfähigste getestete chinesische Modell in Bereichen wie:
ist. Gleichzeitig liegt es laut Bericht etwa acht Monate hinter den führenden Frontier‑Modellen zurück.
Die Untersuchung weist außerdem darauf hin, dass DeepSeeks eigene Benchmark‑Angaben stärker ausfallen als die Ergebnisse der unabhängigen Messungen, was die Bedeutung neutraler Evaluierungen unterstreicht.
Selbst mit vielen Zahlen sind direkte Rankings problematisch. Gründe sind unter anderem:
Deshalb sollte ein striktes Ranking aller Modelle immer mit Vorsicht interpretiert werden.
Auf Basis der zuverlässigsten öffentlich verfügbaren Daten ergibt sich derzeit ungefähr folgendes Bild:
In der Praxis hängt die Wahl des „besten“ Modells stark vom Einsatz ab: Coding‑Agenten, Research‑Assistenten, lange Dokumentanalysen oder kostensensitive Anwendungen können jeweils unterschiedliche Gewinner hervorbringen.
Comments
0 comments