Die kurze Antwort: Es gibt hier keinen universellen Coding-König. In den vorliegenden Quellen liegt Claude Opus 4.6 bei SWE-Bench Verified am überzeugendsten, GPT-5.3-Codex hat die stärkste OpenAI-Linie für Terminal-Bench 2.0, und GPT-5.4 verbessert sich im direkten Coding-Vergleich mit GPT-5.3-Codex eher knapp als spektakulär [1][
3][
5][
7][
9].
Der entscheidende Haken: Die Benchmarks messen nicht alle dasselbe. SWE-Bench Verified, SWE-Bench Pro und SWE-Bench Pro Public dürfen nicht einfach in eine gemeinsame Rangliste geworfen werden. Und bei Terminal-Bench zählt öffentlich nicht nur das Modell, sondern die Kombination aus Modell und Agent-Harness – also der Software, die das Modell durch die Aufgabe führt [1][
6][
7][
10].
Schnellurteil: Nach Einsatzfall auswählen
| Einsatzfall | Zuerst testen | Warum | Wichtigster Haken |
|---|---|---|---|
| Repository-Bugfixing im Stil von SWE-Bench Verified | Claude Opus 4.6 | Opus 4.6 wird in den zitierten Berichten bei etwa 79,2 bis 80,8 % auf SWE-Bench Verified geführt [ | Nicht mit SWE-Bench Pro Public gleichsetzen; das sind unterschiedliche Varianten [ |
| Terminalbasierte Agenten-Workflows | GPT-5.3-Codex, aber mit Harness-Kontrolle | Ein GPT-5.4-Vergleich nennt GPT-5.3-Codex mit 77,3 % auf Terminal-Bench 2.0, vor GPT-5.4 mit 75,1 % und Claude Opus 4.6 mit 65,4 % [ | Das öffentliche Leaderboard listet Agent/Modell-Paare; Claude Opus 4.6 kommt dort mit ForgeCode auf 79,8 % [ |
| Auswahl nur innerhalb der OpenAI-Modelle | GPT-5.4, aber keine Wunder erwarten | Derselbe Vergleich sieht GPT-5.4 auf SWE-Bench Pro knapp vor GPT-5.3-Codex: 57,7 % zu 56,8 % [ | Auf Terminal-Bench 2.0 liegt GPT-5.4 in dieser Quelle hinter GPT-5.3-Codex [ |
| Tool-lastige MCP-Systeme | GPT-5.4 separat prüfen | Die GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % senkt, indem Tool-Definitionen erst bei Bedarf geladen werden [ | Token-Effizienz ist nicht dasselbe wie ein Sieg bei Bugfix-Benchmarks [ |
Die Benchmark-Falle: Die Zahlen sind nicht eins zu eins vergleichbar
SWE-Bench Verified ist nicht SWE-Bench Pro Public
Der stärkste Fall für Claude Opus 4.6 kommt aus SWE-Bench Verified. Die zitierten Berichte nennen dort Werte von 79,2 %, 79,4 % oder 80,8 % [3][
5][
6][
7][
9]. Für Workflows, bei denen es um realistische Fehlerbehebung in Repositories geht, ist das der klarste positive Hinweis in diesem Vergleich.
Bei GPT-5.3-Codex ist das Bild komplizierter. Eine GPT-5.4-Analyse führt GPT-5.3-Codex mit 56,8 % auf SWE-Bench Pro, während andere Vergleiche GPT-5.3-Codex mit 78,2 % auf SWE-Bench Pro Public nennen [3][
6][
7]. Das ist kein Grund, die Werte zu mitteln. Es ist eine Warnung: Mehrere Quellen betonen ausdrücklich, dass SWE-Bench Verified und SWE-Bench Pro Public nicht direkt austauschbar sind [
6][
7][
10].
GPT-5.4s sauberster OpenAI-interner Coding-Vorteil ist in diesen Quellen klein. Die GPT-5.4-Analyse nennt 57,7 % auf SWE-Bench Pro gegenüber 56,8 % für GPT-5.3-Codex [3]. Eine weitere Zusammenfassung verweist ebenfalls auf den GPT-5.4-Wert von 57,7 % für SWE-Bench Pro Public, warnt aber vor einem einfachen Claude-gegen-GPT-Gesamtsieger [
10].
Bei Terminal-Bench entscheidet auch der Agent-Harness
Terminal-Bench 2.0 ist besonders leicht falsch zu lesen. Das öffentliche Leaderboard listet Agent/Modell-Kombinationen, keine isolierten Basismodell-Werte [1]. Für GPT-5.3-Codex stehen dort unter anderem 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex [
1]. Claude Opus 4.6 erscheint mit 79,8 % mit ForgeCode, 75,3 % mit Capy und 62,9 % mit Terminus 2 [
1].
Diese Spanne ist groß genug, um den vermeintlichen Sieger zu wechseln. Ein GPT-5.4-Vergleich sieht GPT-5.3-Codex auf Terminal-Bench 2.0 vor Claude Opus 4.6, 77,3 % zu 65,4 % [3]. Im öffentlichen Leaderboard liegt aber die Kombination ForgeCode/Claude Opus 4.6 mit 79,8 % über SageAgent/GPT-5.3-Codex mit 78,4 % [
1]. Für die Praxis heißt das: Wer Terminal-Agenten bewertet, muss den Harness konstant halten, bevor er ein Modellurteil fällt.
Die Modelle im Einzelbild
Claude Opus 4.6: Starkes Signal für Verified-artige Bugfixes
Wenn SWE-Bench Verified Ihr wichtigster Proxy für Coding-Qualität ist, ist Claude Opus 4.6 der bestbelegte Startpunkt. Die gemeldeten Verified-Werte liegen eng beieinander: 79,2 % in der GPT-5.4-Analyse, 79,4 % in Opus-vs.-Codex-Vergleichen und 80,8 % in anderen Benchmark-Zusammenfassungen [3][
5][
6][
7][
9].
Das beweist aber nicht, dass Opus 4.6 jeden Coding-Workflow gewinnt. Bei Terminal-Bench ist das Bild gemischt: Vergleichsberichte nennen 65,4 %, während das öffentliche Leaderboard 79,8 % mit ForgeCode und 62,9 % mit Terminus 2 zeigt [1][
3][
7][
9]. Opus 4.6 ist damit die naheliegende erste Wahl für Verified-artige Repository-Reparatur, aber kein automatischer Gesamtsieger.
GPT-5.3-Codex: Der OpenAI-Kandidat für Terminal-Agenten
GPT-5.3-Codex hat seinen stärksten OpenAI-Fall dort, wo der Workflow nach Terminal-Bench aussieht: agentisches Arbeiten in Shell- oder CLI-Umgebungen. Vergleichsberichte nennen 77,3 % auf Terminal-Bench 2.0, und das öffentliche Leaderboard führt GPT-5.3-Codex mit 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex [1][
3][
7][
9].
Bei SWE-Bench sollte man vorsichtiger sein. Manche Quellen nennen 78,2 % auf SWE-Bench Pro Public, andere 56,8 % auf SWE-Bench Pro [3][
6][
7][
9]. Da die Quellen vor direkter Gleichsetzung der Varianten warnen, sollte GPT-5.3-Codex in genau der SWE-Bench-Variante und Evaluationsumgebung geprüft werden, die für den eigenen Einsatz relevant ist [
6][
7][
10].
GPT-5.4: Kleiner Coding-Schritt, interessanter Tool-Use-Winkel
GPT-5.4 wirkt in den bereitgestellten Coding-Benchmarks nicht wie ein klarer Sprung. Der zentrale Vergleich sieht GPT-5.4 auf SWE-Bench Pro nur knapp vor GPT-5.3-Codex, 57,7 % zu 56,8 %, und zugleich auf Terminal-Bench 2.0 dahinter, 75,1 % zu 77,3 % [3].
Der auffälligere Punkt ist Tool-Nutzung. Die GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % reduziert, weil Tool-Definitionen bei Bedarf geladen werden, statt alle Definitionen in den Kontext zu packen [3]. Für Coding-Agenten mit vielen Tools kann das systemisch wichtig sein. Es sollte aber getrennt von der reinen Benchmark-Trefferquote gemessen werden.
So vergleichen Sie die Modelle, ohne sich selbst zu täuschen
- Erst die Benchmark-Variante festlegen. SWE-Bench Verified, SWE-Bench Pro und SWE-Bench Pro Public sollten nicht zu einer einzigen Tabelle verschmolzen werden [
6][
7][
10].
- Bei Terminal-Aufgaben den Harness konstant halten. Das öffentliche Terminal-Bench-2.0-Leaderboard zeigt, dass dasselbe Modell je nach Agent-Kombination deutlich anders abschneiden kann [
1].
- Coding-Genauigkeit und Tool-Effizienz trennen. GPT-5.4s gemeldete 47 % weniger MCP-Token-Nutzung sind relevant für Tool-lastige Systeme, aber kein Ersatz für einen SWE-Bench- oder Terminal-Bench-Sieg [
3].
- Gemischte Ranglisten nur als Richtung lesen. Die Quellen stützen unterschiedliche Gewinner unter unterschiedlichen Bedingungen. Genau deshalb wäre eine einzige universelle Rangliste überzogen [
1][
3][
6][
7][
10].
Fazit
Für Repository-Bugfixing im Stil von SWE-Bench Verified sollten Sie mit Claude Opus 4.6 starten. Für terminalbasierte Agenten-Workflows gehört GPT-5.3-Codex zwingend in den Direktvergleich. GPT-5.4 sollten Sie testen, wenn Sie das neuere OpenAI-Modell brauchen oder die gemeldete Tool-Search-Effizienz in MCP-nahen Systemen relevant ist [1][
3][
5][
7][
9].
Der belastbarste Schluss lautet nicht: Ein Modell dominiert Coding. Er lautet: Der Gewinner hängt von Benchmark-Variante, Agent-Harness und dem tatsächlichen Arbeitsprofil ab [1][
6][
7][
10].




