Gemini 3.1 Pro erzielte 77,1 % – ein Spitzenwert auf diesem Benchmark, der echte Problemlösungsfähigkeiten testet, die Modelle nicht einfach auswendig lernen können .
Claude Sonnet erzielte 9,8 von 10 Punkten in einem Test mit 125 realistischen Aufgaben, bei dem Qualität und menschlicher Tonfall bewertet wurden – das Modell, das sich im Gespräch und beim Schreiben am natürlichsten anfühlt .
Der Abstand zwischen den Spitzenmodellen (GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4) ist inzwischen sehr gering – oft nur wenige Prozentpunkte . Der Stanford AI Index Report 2026 stellt fest, dass die Leistung der 15 besten Modelle auf jedem Benchmark nur um maximal 3 Prozentpunkte auseinanderliegt
.
„Genauigkeit“ hängt entscheidend vom konkreten Einsatz ab: Das beste Programmiermodell ist nicht das beste Reasoning-Modell, und das benchmark-stärkste Modell muss nicht das richtige für den eigenen Workflow sein. Die Wahl hängt vom primären Einsatzzweck ab .
Comments
0 comments