studioglobal
Trendthemen auf Entdecken
AntwortenVeröffentlicht7 Quellen

GPT-5.4, GPT-5.3-Codex oder Claude Opus 4.6: Der Coding-Sieger hängt vom Benchmark ab

Claude Opus 4.6 ist der stärkste Startpunkt für SWE Bench Verified artige Bugfixes: Die zitierten Berichte nennen rund 79 bis 81 % [3][5][7][9]. GPT 5.3 Codex gehört in jeden Test für Terminal Agenten: Es steht bei 77,3 % in einem Vergleich und erreicht im öffentlichen Terminal Bench 2.0 Leaderboard je nach Harness...

4.9K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
KI-Prompt

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

Die kurze Antwort: Es gibt hier keinen universellen Coding-König. In den vorliegenden Quellen liegt Claude Opus 4.6 bei SWE-Bench Verified am überzeugendsten, GPT-5.3-Codex hat die stärkste OpenAI-Linie für Terminal-Bench 2.0, und GPT-5.4 verbessert sich im direkten Coding-Vergleich mit GPT-5.3-Codex eher knapp als spektakulär [1][3][5][7][9].

Der entscheidende Haken: Die Benchmarks messen nicht alle dasselbe. SWE-Bench Verified, SWE-Bench Pro und SWE-Bench Pro Public dürfen nicht einfach in eine gemeinsame Rangliste geworfen werden. Und bei Terminal-Bench zählt öffentlich nicht nur das Modell, sondern die Kombination aus Modell und Agent-Harness – also der Software, die das Modell durch die Aufgabe führt [1][6][7][10].

Schnellurteil: Nach Einsatzfall auswählen

EinsatzfallZuerst testenWarumWichtigster Haken
Repository-Bugfixing im Stil von SWE-Bench VerifiedClaude Opus 4.6Opus 4.6 wird in den zitierten Berichten bei etwa 79,2 bis 80,8 % auf SWE-Bench Verified geführt [3][5][6][7][9].Nicht mit SWE-Bench Pro Public gleichsetzen; das sind unterschiedliche Varianten [6][7][10].
Terminalbasierte Agenten-WorkflowsGPT-5.3-Codex, aber mit Harness-KontrolleEin GPT-5.4-Vergleich nennt GPT-5.3-Codex mit 77,3 % auf Terminal-Bench 2.0, vor GPT-5.4 mit 75,1 % und Claude Opus 4.6 mit 65,4 % [3].Das öffentliche Leaderboard listet Agent/Modell-Paare; Claude Opus 4.6 kommt dort mit ForgeCode auf 79,8 % [1].
Auswahl nur innerhalb der OpenAI-ModelleGPT-5.4, aber keine Wunder erwartenDerselbe Vergleich sieht GPT-5.4 auf SWE-Bench Pro knapp vor GPT-5.3-Codex: 57,7 % zu 56,8 % [3].Auf Terminal-Bench 2.0 liegt GPT-5.4 in dieser Quelle hinter GPT-5.3-Codex [3].
Tool-lastige MCP-SystemeGPT-5.4 separat prüfenDie GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % senkt, indem Tool-Definitionen erst bei Bedarf geladen werden [3].Token-Effizienz ist nicht dasselbe wie ein Sieg bei Bugfix-Benchmarks [3].

Die Benchmark-Falle: Die Zahlen sind nicht eins zu eins vergleichbar

SWE-Bench Verified ist nicht SWE-Bench Pro Public

Der stärkste Fall für Claude Opus 4.6 kommt aus SWE-Bench Verified. Die zitierten Berichte nennen dort Werte von 79,2 %, 79,4 % oder 80,8 % [3][5][6][7][9]. Für Workflows, bei denen es um realistische Fehlerbehebung in Repositories geht, ist das der klarste positive Hinweis in diesem Vergleich.

Bei GPT-5.3-Codex ist das Bild komplizierter. Eine GPT-5.4-Analyse führt GPT-5.3-Codex mit 56,8 % auf SWE-Bench Pro, während andere Vergleiche GPT-5.3-Codex mit 78,2 % auf SWE-Bench Pro Public nennen [3][6][7]. Das ist kein Grund, die Werte zu mitteln. Es ist eine Warnung: Mehrere Quellen betonen ausdrücklich, dass SWE-Bench Verified und SWE-Bench Pro Public nicht direkt austauschbar sind [6][7][10].

GPT-5.4s sauberster OpenAI-interner Coding-Vorteil ist in diesen Quellen klein. Die GPT-5.4-Analyse nennt 57,7 % auf SWE-Bench Pro gegenüber 56,8 % für GPT-5.3-Codex [3]. Eine weitere Zusammenfassung verweist ebenfalls auf den GPT-5.4-Wert von 57,7 % für SWE-Bench Pro Public, warnt aber vor einem einfachen Claude-gegen-GPT-Gesamtsieger [10].

Bei Terminal-Bench entscheidet auch der Agent-Harness

Terminal-Bench 2.0 ist besonders leicht falsch zu lesen. Das öffentliche Leaderboard listet Agent/Modell-Kombinationen, keine isolierten Basismodell-Werte [1]. Für GPT-5.3-Codex stehen dort unter anderem 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex [1]. Claude Opus 4.6 erscheint mit 79,8 % mit ForgeCode, 75,3 % mit Capy und 62,9 % mit Terminus 2 [1].

Diese Spanne ist groß genug, um den vermeintlichen Sieger zu wechseln. Ein GPT-5.4-Vergleich sieht GPT-5.3-Codex auf Terminal-Bench 2.0 vor Claude Opus 4.6, 77,3 % zu 65,4 % [3]. Im öffentlichen Leaderboard liegt aber die Kombination ForgeCode/Claude Opus 4.6 mit 79,8 % über SageAgent/GPT-5.3-Codex mit 78,4 % [1]. Für die Praxis heißt das: Wer Terminal-Agenten bewertet, muss den Harness konstant halten, bevor er ein Modellurteil fällt.

Die Modelle im Einzelbild

Claude Opus 4.6: Starkes Signal für Verified-artige Bugfixes

Wenn SWE-Bench Verified Ihr wichtigster Proxy für Coding-Qualität ist, ist Claude Opus 4.6 der bestbelegte Startpunkt. Die gemeldeten Verified-Werte liegen eng beieinander: 79,2 % in der GPT-5.4-Analyse, 79,4 % in Opus-vs.-Codex-Vergleichen und 80,8 % in anderen Benchmark-Zusammenfassungen [3][5][6][7][9].

Das beweist aber nicht, dass Opus 4.6 jeden Coding-Workflow gewinnt. Bei Terminal-Bench ist das Bild gemischt: Vergleichsberichte nennen 65,4 %, während das öffentliche Leaderboard 79,8 % mit ForgeCode und 62,9 % mit Terminus 2 zeigt [1][3][7][9]. Opus 4.6 ist damit die naheliegende erste Wahl für Verified-artige Repository-Reparatur, aber kein automatischer Gesamtsieger.

GPT-5.3-Codex: Der OpenAI-Kandidat für Terminal-Agenten

GPT-5.3-Codex hat seinen stärksten OpenAI-Fall dort, wo der Workflow nach Terminal-Bench aussieht: agentisches Arbeiten in Shell- oder CLI-Umgebungen. Vergleichsberichte nennen 77,3 % auf Terminal-Bench 2.0, und das öffentliche Leaderboard führt GPT-5.3-Codex mit 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex [1][3][7][9].

Bei SWE-Bench sollte man vorsichtiger sein. Manche Quellen nennen 78,2 % auf SWE-Bench Pro Public, andere 56,8 % auf SWE-Bench Pro [3][6][7][9]. Da die Quellen vor direkter Gleichsetzung der Varianten warnen, sollte GPT-5.3-Codex in genau der SWE-Bench-Variante und Evaluationsumgebung geprüft werden, die für den eigenen Einsatz relevant ist [6][7][10].

GPT-5.4: Kleiner Coding-Schritt, interessanter Tool-Use-Winkel

GPT-5.4 wirkt in den bereitgestellten Coding-Benchmarks nicht wie ein klarer Sprung. Der zentrale Vergleich sieht GPT-5.4 auf SWE-Bench Pro nur knapp vor GPT-5.3-Codex, 57,7 % zu 56,8 %, und zugleich auf Terminal-Bench 2.0 dahinter, 75,1 % zu 77,3 % [3].

Der auffälligere Punkt ist Tool-Nutzung. Die GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % reduziert, weil Tool-Definitionen bei Bedarf geladen werden, statt alle Definitionen in den Kontext zu packen [3]. Für Coding-Agenten mit vielen Tools kann das systemisch wichtig sein. Es sollte aber getrennt von der reinen Benchmark-Trefferquote gemessen werden.

So vergleichen Sie die Modelle, ohne sich selbst zu täuschen

  1. Erst die Benchmark-Variante festlegen. SWE-Bench Verified, SWE-Bench Pro und SWE-Bench Pro Public sollten nicht zu einer einzigen Tabelle verschmolzen werden [6][7][10].
  2. Bei Terminal-Aufgaben den Harness konstant halten. Das öffentliche Terminal-Bench-2.0-Leaderboard zeigt, dass dasselbe Modell je nach Agent-Kombination deutlich anders abschneiden kann [1].
  3. Coding-Genauigkeit und Tool-Effizienz trennen. GPT-5.4s gemeldete 47 % weniger MCP-Token-Nutzung sind relevant für Tool-lastige Systeme, aber kein Ersatz für einen SWE-Bench- oder Terminal-Bench-Sieg [3].
  4. Gemischte Ranglisten nur als Richtung lesen. Die Quellen stützen unterschiedliche Gewinner unter unterschiedlichen Bedingungen. Genau deshalb wäre eine einzige universelle Rangliste überzogen [1][3][6][7][10].

Fazit

Für Repository-Bugfixing im Stil von SWE-Bench Verified sollten Sie mit Claude Opus 4.6 starten. Für terminalbasierte Agenten-Workflows gehört GPT-5.3-Codex zwingend in den Direktvergleich. GPT-5.4 sollten Sie testen, wenn Sie das neuere OpenAI-Modell brauchen oder die gemeldete Tool-Search-Effizienz in MCP-nahen Systemen relevant ist [1][3][5][7][9].

Der belastbarste Schluss lautet nicht: Ein Modell dominiert Coding. Er lautet: Der Gewinner hängt von Benchmark-Variante, Agent-Harness und dem tatsächlichen Arbeitsprofil ab [1][6][7][10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

  • Claude Opus 4.6 ist der stärkste Startpunkt für SWE Bench Verified artige Bugfixes: Die zitierten Berichte nennen rund 79 bis 81 % [3][5][7][9].
  • GPT 5.3 Codex gehört in jeden Test für Terminal Agenten: Es steht bei 77,3 % in einem Vergleich und erreicht im öffentlichen Terminal Bench 2.0 Leaderboard je nach Harness bis zu 78,4 % [1][3].
  • GPT 5.4 sieht beim reinen Coding eher nach einem kleinen Schritt aus, bringt aber einen eigenen Tool Use Winkel: 57,7 % vs.

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-5.4, GPT-5.3-Codex oder Claude Opus 4.6: Der Coding-Sieger hängt vom Benchmark ab“?

Claude Opus 4.6 ist der stärkste Startpunkt für SWE Bench Verified artige Bugfixes: Die zitierten Berichte nennen rund 79 bis 81 % [3][5][7][9].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Claude Opus 4.6 ist der stärkste Startpunkt für SWE Bench Verified artige Bugfixes: Die zitierten Berichte nennen rund 79 bis 81 % [3][5][7][9]. GPT 5.3 Codex gehört in jeden Test für Terminal Agenten: Es steht bei 77,3 % in einem Vergleich und erreicht im öffentlichen Terminal Bench 2.0 Leaderboard je nach Harness bis zu 78,4 % [1][3].

Was soll ich als nächstes in der Praxis tun?

GPT 5.4 sieht beim reinen Coding eher nach einem kleinen Schritt aus, bringt aber einen eigenen Tool Use Winkel: 57,7 % vs.

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Sprachinput und Wortschatz: Was die Forschung zum frühen Wörterlernen zeigt“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „Sprachentwicklung: Warum die Art der Antwort zählt“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Quellen

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...