| ~18,1 %* |
| SWE-Bench Verified | ~83 % (geschätzt) | 87,6 % | 85,0 % | 82,1 % | 81,0 % | 80,6 % |
| Terminal-Bench 2.0/2.1 | 74,6 % | 66,1–69,4 % | 78,2–82,7 % | 76,2 % | 68,5 % | 65,0 % |
| OSWorld-Verified (Computersteuerung) | 83,4 % | 82,8 % | 78,7 % | 75,0 % | 72,1 % | 70,5 % |
| GDPval-AA (Wissensarbeit / Agenten-Elo) | 1890 | 1753 | 1620–1769 | 1656 | 1500–1570 | 1550 |
| Humanity's Last Exam (mit Werkzeugen) | 57,9 % | 54,7 % | — | — | — | — |
| Humanity's Last Exam (ohne Werkzeuge) | 49,8 % | — | — | — | — | — |
| GPQA Diamond | ~94 % (geschätzt) | 94,2 % | 96,0 % | 92,4 % | 90,1–91,5 % | 95,1 % |
| ARC-AGI-2 | ~80 % (geschätzt) | 80,2 % | 85,0 % | 75,8 % | 76,1 % | 74,0 % |
| MCP Atlas (Zuverlässigkeit der Werkzeugnutzung) | — | 77,3 % | 79,1 % | 83,6 % | 74,2 % | 71,5 % |
| AA Intelligence Index (v4.0) | ~59–60 (geschätzt) | 59 | 60 | 57 | 53 | 55 |
| Finance Agent v2 | 53,9 % | 51,5 % | — | — | — | — |
| LiveCodeBench (Pass@1) | — | — | ~91–92 % (geschätzt) | — | — | 93,5 % |
| Codeforces ELO | — | ~3050 (geschätzt) | 3168 | — | — | 3206 |
| FrontierMath Tier 1–3 | — | 43,8 % | 51,7 % | — | — | — |
| MMLU-Pro | — | — | — | — | — | 87,5 % |
| AIME 2025 (Mathematik) | — | — | 95,2 % | — | — | — |
| BrowseComp | — | 79,3 % | 84,4 % | — | — | — |
* Die SWE-Bench Pro-Werte für Gemini 3.5 Flash, Grok 4.3 und DeepSeek V4 Pro stammen aus einem einzelnen Drittanbieter-Test . Die offiziellen Modellkarten von Google zeigen abweichende Zahlen.
Claude Opus 4.8 führt bei agentischem Coding (SWE-Bench Pro) mit 69,2 % , bei Wissensarbeit (GDPval-AA) mit einem Elo-Wert von 1890
, bei der Computersteuerung (OSWorld-Verified) mit 83,4 %
, bei fachübergreifendem Denken (Humanity's Last Exam)
und bei Finanzanalysen
. Auf der BenchLM-Rangliste belegt es Platz 2 von 119 Modellen mit einer Gesamtpunktzahl von 93/100
.
GPT-5.5 ist führend beim terminalbasierten Coding (Terminal-Bench 2.0/2.1) mit bis zu 82,7 % , bei abstraktem visuellem Denken (ARC-AGI-2) mit 85,0 %
, bei GPQA Diamond mit 96,0 %
, bei FrontierMath
und im AA Intelligence Index mit 60 Punkten
.
Gemini 3.5 Flash setzt Maßstäbe bei der Werkzeug-Orchestrierung (MCP Atlas) mit 83,6 % und ist mit etwa 289 Token pro Sekunde rund viermal schneller als die Konkurrenz – und das zum niedrigsten Preis
.
DeepSeek V4 Pro ist der Champion bei Coding-Wettbewerben mit einem Codeforces-Elo von 3206 und erreicht bei LiveCodeBench 93,5 %. Bei SWE-bench Verified liegt es mit 80,6 % gleichauf mit Claude – allerdings zu einem Bruchteil der Kosten .
Grok 4.3 positioniert sich im soliden Mittelfeld: AA-Index 53, GPQA 90,1 %, hohe Geschwindigkeit (159–207 t/s) und sehr günstige Preise. Bei den meisten agentenbasierten Benchmarks liegt es jedoch hinter den Spitzenmodellen zurück .
Claude Opus 4.7, der direkte Vorgänger, ist bei SWE-bench Verified (87,6 %) immer noch stark, wird aber von seinem Nachfolger in jeder relevanten Metrik übertroffen .
Comments
0 comments