Der stärkste Fall für Claude Opus 4.6 kommt aus SWE-Bench Verified. Die zitierten Berichte nennen dort Werte von 79,2 %, 79,4 % oder 80,8 % . Für Workflows, bei denen es um realistische Fehlerbehebung in Repositories geht, ist das der klarste positive Hinweis in diesem Vergleich.
Bei GPT-5.3-Codex ist das Bild komplizierter. Eine GPT-5.4-Analyse führt GPT-5.3-Codex mit 56,8 % auf SWE-Bench Pro, während andere Vergleiche GPT-5.3-Codex mit 78,2 % auf SWE-Bench Pro Public nennen . Das ist kein Grund, die Werte zu mitteln. Es ist eine Warnung: Mehrere Quellen betonen ausdrücklich, dass SWE-Bench Verified und SWE-Bench Pro Public nicht direkt austauschbar sind
.
GPT-5.4s sauberster OpenAI-interner Coding-Vorteil ist in diesen Quellen klein. Die GPT-5.4-Analyse nennt 57,7 % auf SWE-Bench Pro gegenüber 56,8 % für GPT-5.3-Codex . Eine weitere Zusammenfassung verweist ebenfalls auf den GPT-5.4-Wert von 57,7 % für SWE-Bench Pro Public, warnt aber vor einem einfachen Claude-gegen-GPT-Gesamtsieger
.
Terminal-Bench 2.0 ist besonders leicht falsch zu lesen. Das öffentliche Leaderboard listet Agent/Modell-Kombinationen, keine isolierten Basismodell-Werte . Für GPT-5.3-Codex stehen dort unter anderem 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex
. Claude Opus 4.6 erscheint mit 79,8 % mit ForgeCode, 75,3 % mit Capy und 62,9 % mit Terminus 2
.
Diese Spanne ist groß genug, um den vermeintlichen Sieger zu wechseln. Ein GPT-5.4-Vergleich sieht GPT-5.3-Codex auf Terminal-Bench 2.0 vor Claude Opus 4.6, 77,3 % zu 65,4 % . Im öffentlichen Leaderboard liegt aber die Kombination ForgeCode/Claude Opus 4.6 mit 79,8 % über SageAgent/GPT-5.3-Codex mit 78,4 %
. Für die Praxis heißt das: Wer Terminal-Agenten bewertet, muss den Harness konstant halten, bevor er ein Modellurteil fällt.
Wenn SWE-Bench Verified Ihr wichtigster Proxy für Coding-Qualität ist, ist Claude Opus 4.6 der bestbelegte Startpunkt. Die gemeldeten Verified-Werte liegen eng beieinander: 79,2 % in der GPT-5.4-Analyse, 79,4 % in Opus-vs.-Codex-Vergleichen und 80,8 % in anderen Benchmark-Zusammenfassungen .
Das beweist aber nicht, dass Opus 4.6 jeden Coding-Workflow gewinnt. Bei Terminal-Bench ist das Bild gemischt: Vergleichsberichte nennen 65,4 %, während das öffentliche Leaderboard 79,8 % mit ForgeCode und 62,9 % mit Terminus 2 zeigt . Opus 4.6 ist damit die naheliegende erste Wahl für Verified-artige Repository-Reparatur, aber kein automatischer Gesamtsieger.
GPT-5.3-Codex hat seinen stärksten OpenAI-Fall dort, wo der Workflow nach Terminal-Bench aussieht: agentisches Arbeiten in Shell- oder CLI-Umgebungen. Vergleichsberichte nennen 77,3 % auf Terminal-Bench 2.0, und das öffentliche Leaderboard führt GPT-5.3-Codex mit 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex .
Bei SWE-Bench sollte man vorsichtiger sein. Manche Quellen nennen 78,2 % auf SWE-Bench Pro Public, andere 56,8 % auf SWE-Bench Pro . Da die Quellen vor direkter Gleichsetzung der Varianten warnen, sollte GPT-5.3-Codex in genau der SWE-Bench-Variante und Evaluationsumgebung geprüft werden, die für den eigenen Einsatz relevant ist
.
GPT-5.4 wirkt in den bereitgestellten Coding-Benchmarks nicht wie ein klarer Sprung. Der zentrale Vergleich sieht GPT-5.4 auf SWE-Bench Pro nur knapp vor GPT-5.3-Codex, 57,7 % zu 56,8 %, und zugleich auf Terminal-Bench 2.0 dahinter, 75,1 % zu 77,3 % .
Der auffälligere Punkt ist Tool-Nutzung. Die GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % reduziert, weil Tool-Definitionen bei Bedarf geladen werden, statt alle Definitionen in den Kontext zu packen . Für Coding-Agenten mit vielen Tools kann das systemisch wichtig sein. Es sollte aber getrennt von der reinen Benchmark-Trefferquote gemessen werden.
Für Repository-Bugfixing im Stil von SWE-Bench Verified sollten Sie mit Claude Opus 4.6 starten. Für terminalbasierte Agenten-Workflows gehört GPT-5.3-Codex zwingend in den Direktvergleich. GPT-5.4 sollten Sie testen, wenn Sie das neuere OpenAI-Modell brauchen oder die gemeldete Tool-Search-Effizienz in MCP-nahen Systemen relevant ist .
Comments
0 comments