Auch bei Wissensarbeit schneidet das Modell stark ab: GDPval testet Aufgaben aus Dutzenden Berufen – etwa Recht, Finanzen oder Produktmanagement. In rund 84,9 % der Vergleiche erreicht GPT‑5.5 mindestens das Niveau menschlicher Experten.
Diese Kombination deutet darauf hin, dass GPT‑5.5 besonders leistungsfähig bei autonomen, mehrstufigen Aufgaben und agentischen Workflows ist.
Anthropics Claude Opus 4.7 gilt weithin als eines der stärksten Modelle für Programmierung und Software‑Engineering.
Wichtige Benchmark‑Ergebnisse:
Der SWE‑bench‑Test prüft, ob ein Modell echte Bugs in Open‑Source‑Repositories beheben kann. Dass Opus 4.7 87,6 % der Verified‑Aufgaben löst, stellt einen deutlichen Fortschritt gegenüber früheren Versionen dar.
Zwar liegt sein Terminal‑Bench‑Wert unter dem von GPT‑5.5, doch bei vielen coding‑orientierten Benchmarks gehört Opus 4.7 weiterhin zu den stärksten öffentlich dokumentierten Modellen.
Googles Gemini 3.5 Flash nimmt eine ungewöhnliche Position ein: Es ist als schnelles, kosteneffizientes Modell konzipiert – erreicht aber dennoch sehr konkurrenzfähige Benchmark‑Ergebnisse.
Bekannte Werte:
Google gibt an, dass das Modell etwa viermal schneller als viele vergleichbare Frontier‑Modelle arbeitet und gleichzeitig ältere Flaggschiffe wie Gemini 3.1 Pro in mehreren agentischen Benchmarks übertrifft.
Die Stärke von Gemini 3.5 Flash liegt daher vor allem im Verhältnis von Geschwindigkeit zu Leistungsfähigkeit – ein wichtiger Faktor für produktive Anwendungen mit niedriger Latenz.
DeepSeek V4 ist bemerkenswert, weil es zu den leistungsfähigsten Modellen mit offen verfügbaren Gewichten gehört.
Die Modellfamilie umfasst zwei Varianten:
Im maximalen Reasoning‑Modus erreicht V4‑Pro laut technischen Berichten unter anderem:
Allerdings kam eine unabhängige Bewertung des US‑amerikanischen National Institute of Standards and Technology (NIST) zu dem Schluss, dass die Fähigkeiten des Modells etwa acht Monate hinter der aktuellen Frontier liegen.
xAIs Grok 4.3 stellt eine deutliche Verbesserung gegenüber früheren Grok‑Versionen dar, besonders bei agentischen Aufgaben.
Veröffentlichte Kennzahlen:
Der Anstieg von mehr als 300 Elo‑Punkten auf GDPval‑AA im Vergleich zu älteren Grok‑Versionen deutet auf deutliche Fortschritte bei realen Automatisierungsaufgaben hin.
Unabhängige Analysen ordnen das Modell jedoch meist noch unter den neuesten Systemen von OpenAI und Anthropic ein.
Betrachtet man die verfügbaren Daten zusammen, ergibt sich ein relativ klares Muster:
Diese Einordnung sollte jedoch eher als Trend denn als endgültiges Ranking verstanden werden.
Benchmark‑Vergleiche moderner KI‑Systeme werden aus mehreren Gründen immer komplizierter:
Deshalb wird die tatsächliche Rangfolge der Modelle oft erst klar, wenn unabhängige Tests über mehrere Monate hinweg vorliegen.
Die aktuellen Benchmark‑Ergebnisse zeigen keinen eindeutigen Gesamtsieger.
Stattdessen hat sich eine spezialisierte Frontier‑Landschaft entwickelt:
Mit weiteren unabhängigen Benchmarks und standardisierten Tests dürfte sich das Kräfteverhältnis in der KI‑Spitze auch in den kommenden Monaten weiter verschieben.
Comments
0 comments