AntwortenVeröffentlicht5. Mai 2026Last edited 6. Mai 20267 Quellen

GPT-5.4, GPT-5.3-Codex oder Claude Opus 4.6: Der Coding-Sieger hängt vom Benchmark ab

Claude Opus 4.6 ist der stärkste Startpunkt für SWE Bench Verified artige Bugfixes: Die zitierten Berichte nennen rund 79 bis 81 % [3][5][7][9]. GPT 5.3 Codex gehört in jeden Test für Terminal Agenten: Es steht bei 77,3 % in einem Vergleich und erreicht im öffentlichen Terminal Bench 2.0 Leaderboard je nach Harness...

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

4.9K0

Abstract comparison of AI coding models on a benchmark leaderboard — GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic
openai.com

Die kurze Antwort: Es gibt hier keinen universellen Coding-König. In den vorliegenden Quellen liegt Claude Opus 4.6 bei SWE-Bench Verified am überzeugendsten, GPT-5.3-Codex hat die stärkste OpenAI-Linie für Terminal-Bench 2.0, und GPT-5.4 verbessert sich im direkten Coding-Vergleich mit GPT-5.3-Codex eher knapp als spektakulär ^[1]^[3]^[5]^[7]^[9].

Der entscheidende Haken: Die Benchmarks messen nicht alle dasselbe. SWE-Bench Verified, SWE-Bench Pro und SWE-Bench Pro Public dürfen nicht einfach in eine gemeinsame Rangliste geworfen werden. Und bei Terminal-Bench zählt öffentlich nicht nur das Modell, sondern die Kombination aus Modell und Agent-Harness – also der Software, die das Modell durch die Aufgabe führt ^[1]^[6]^[7]^[10].

Schnellurteil: Nach Einsatzfall auswählen

Einsatzfall	Zuerst testen	Warum	Wichtigster Haken
Repository-Bugfixing im Stil von SWE-Bench Verified	Claude Opus 4.6	Opus 4.6 wird in den zitierten Berichten bei etwa 79,2 bis 80,8 % auf SWE-Bench Verified geführt ^[3]^[5]^[6]^[7]^[9].	Nicht mit SWE-Bench Pro Public gleichsetzen; das sind unterschiedliche Varianten ^[6]^[7]^[10].
Terminalbasierte Agenten-Workflows	GPT-5.3-Codex, aber mit Harness-Kontrolle	Ein GPT-5.4-Vergleich nennt GPT-5.3-Codex mit 77,3 % auf Terminal-Bench 2.0, vor GPT-5.4 mit 75,1 % und Claude Opus 4.6 mit 65,4 % ^[3].	Das öffentliche Leaderboard listet Agent/Modell-Paare; Claude Opus 4.6 kommt dort mit ForgeCode auf 79,8 % ^[1].
Auswahl nur innerhalb der OpenAI-Modelle	GPT-5.4, aber keine Wunder erwarten	Derselbe Vergleich sieht GPT-5.4 auf SWE-Bench Pro knapp vor GPT-5.3-Codex: 57,7 % zu 56,8 % ^[3].	Auf Terminal-Bench 2.0 liegt GPT-5.4 in dieser Quelle hinter GPT-5.3-Codex ^[3].
Tool-lastige MCP-Systeme	GPT-5.4 separat prüfen	Die GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % senkt, indem Tool-Definitionen erst bei Bedarf geladen werden ^[3].	Token-Effizienz ist nicht dasselbe wie ein Sieg bei Bugfix-Benchmarks ^[3].

Die Benchmark-Falle: Die Zahlen sind nicht eins zu eins vergleichbar

SWE-Bench Verified ist nicht SWE-Bench Pro Public

Der stärkste Fall für Claude Opus 4.6 kommt aus SWE-Bench Verified. Die zitierten Berichte nennen dort Werte von 79,2 %, 79,4 % oder 80,8 % ^[3]^[5]^[6]^[7]^[9]. Für Workflows, bei denen es um realistische Fehlerbehebung in Repositories geht, ist das der klarste positive Hinweis in diesem Vergleich.

Bei GPT-5.3-Codex ist das Bild komplizierter. Eine GPT-5.4-Analyse führt GPT-5.3-Codex mit 56,8 % auf SWE-Bench Pro, während andere Vergleiche GPT-5.3-Codex mit 78,2 % auf SWE-Bench Pro Public nennen ^[3]^[6]^[7]. Das ist kein Grund, die Werte zu mitteln. Es ist eine Warnung: Mehrere Quellen betonen ausdrücklich, dass SWE-Bench Verified und SWE-Bench Pro Public nicht direkt austauschbar sind ^[6]^[7]^[10].

GPT-5.4s sauberster OpenAI-interner Coding-Vorteil ist in diesen Quellen klein. Die GPT-5.4-Analyse nennt 57,7 % auf SWE-Bench Pro gegenüber 56,8 % für GPT-5.3-Codex ^[3]. Eine weitere Zusammenfassung verweist ebenfalls auf den GPT-5.4-Wert von 57,7 % für SWE-Bench Pro Public, warnt aber vor einem einfachen Claude-gegen-GPT-Gesamtsieger ^[10].

Bei Terminal-Bench entscheidet auch der Agent-Harness

Terminal-Bench 2.0 ist besonders leicht falsch zu lesen. Das öffentliche Leaderboard listet Agent/Modell-Kombinationen, keine isolierten Basismodell-Werte ^[1]. Für GPT-5.3-Codex stehen dort unter anderem 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex ^[1]. Claude Opus 4.6 erscheint mit 79,8 % mit ForgeCode, 75,3 % mit Capy und 62,9 % mit Terminus 2 ^[1].

Diese Spanne ist groß genug, um den vermeintlichen Sieger zu wechseln. Ein GPT-5.4-Vergleich sieht GPT-5.3-Codex auf Terminal-Bench 2.0 vor Claude Opus 4.6, 77,3 % zu 65,4 % ^[3]. Im öffentlichen Leaderboard liegt aber die Kombination ForgeCode/Claude Opus 4.6 mit 79,8 % über SageAgent/GPT-5.3-Codex mit 78,4 % ^[1]. Für die Praxis heißt das: Wer Terminal-Agenten bewertet, muss den Harness konstant halten, bevor er ein Modellurteil fällt.

Die Modelle im Einzelbild

Claude Opus 4.6: Starkes Signal für Verified-artige Bugfixes

Wenn SWE-Bench Verified Ihr wichtigster Proxy für Coding-Qualität ist, ist Claude Opus 4.6 der bestbelegte Startpunkt. Die gemeldeten Verified-Werte liegen eng beieinander: 79,2 % in der GPT-5.4-Analyse, 79,4 % in Opus-vs.-Codex-Vergleichen und 80,8 % in anderen Benchmark-Zusammenfassungen ^[3]^[5]^[6]^[7]^[9].

Das beweist aber nicht, dass Opus 4.6 jeden Coding-Workflow gewinnt. Bei Terminal-Bench ist das Bild gemischt: Vergleichsberichte nennen 65,4 %, während das öffentliche Leaderboard 79,8 % mit ForgeCode und 62,9 % mit Terminus 2 zeigt ^[1]^[3]^[7]^[9]. Opus 4.6 ist damit die naheliegende erste Wahl für Verified-artige Repository-Reparatur, aber kein automatischer Gesamtsieger.

GPT-5.3-Codex: Der OpenAI-Kandidat für Terminal-Agenten

GPT-5.3-Codex hat seinen stärksten OpenAI-Fall dort, wo der Workflow nach Terminal-Bench aussieht: agentisches Arbeiten in Shell- oder CLI-Umgebungen. Vergleichsberichte nennen 77,3 % auf Terminal-Bench 2.0, und das öffentliche Leaderboard führt GPT-5.3-Codex mit 78,4 % mit SageAgent, 77,3 % mit Droid und 75,1 % mit Simple Codex ^[1]^[3]^[7]^[9].

Bei SWE-Bench sollte man vorsichtiger sein. Manche Quellen nennen 78,2 % auf SWE-Bench Pro Public, andere 56,8 % auf SWE-Bench Pro ^[3]^[6]^[7]^[9]. Da die Quellen vor direkter Gleichsetzung der Varianten warnen, sollte GPT-5.3-Codex in genau der SWE-Bench-Variante und Evaluationsumgebung geprüft werden, die für den eigenen Einsatz relevant ist ^[6]^[7]^[10].

GPT-5.4: Kleiner Coding-Schritt, interessanter Tool-Use-Winkel

GPT-5.4 wirkt in den bereitgestellten Coding-Benchmarks nicht wie ein klarer Sprung. Der zentrale Vergleich sieht GPT-5.4 auf SWE-Bench Pro nur knapp vor GPT-5.3-Codex, 57,7 % zu 56,8 %, und zugleich auf Terminal-Bench 2.0 dahinter, 75,1 % zu 77,3 % ^[3].

Der auffälligere Punkt ist Tool-Nutzung. Die GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % reduziert, weil Tool-Definitionen bei Bedarf geladen werden, statt alle Definitionen in den Kontext zu packen ^[3]. Für Coding-Agenten mit vielen Tools kann das systemisch wichtig sein. Es sollte aber getrennt von der reinen Benchmark-Trefferquote gemessen werden.

So vergleichen Sie die Modelle, ohne sich selbst zu täuschen

Erst die Benchmark-Variante festlegen. SWE-Bench Verified, SWE-Bench Pro und SWE-Bench Pro Public sollten nicht zu einer einzigen Tabelle verschmolzen werden ^[6]^[7]^[10].
Bei Terminal-Aufgaben den Harness konstant halten. Das öffentliche Terminal-Bench-2.0-Leaderboard zeigt, dass dasselbe Modell je nach Agent-Kombination deutlich anders abschneiden kann ^[1].
Coding-Genauigkeit und Tool-Effizienz trennen. GPT-5.4s gemeldete 47 % weniger MCP-Token-Nutzung sind relevant für Tool-lastige Systeme, aber kein Ersatz für einen SWE-Bench- oder Terminal-Bench-Sieg ^[3].
Gemischte Ranglisten nur als Richtung lesen. Die Quellen stützen unterschiedliche Gewinner unter unterschiedlichen Bedingungen. Genau deshalb wäre eine einzige universelle Rangliste überzogen ^[1]^[3]^[6]^[7]^[10].

Fazit

Für Repository-Bugfixing im Stil von SWE-Bench Verified sollten Sie mit Claude Opus 4.6 starten. Für terminalbasierte Agenten-Workflows gehört GPT-5.3-Codex zwingend in den Direktvergleich. GPT-5.4 sollten Sie testen, wenn Sie das neuere OpenAI-Modell brauchen oder die gemeldete Tool-Search-Effizienz in MCP-nahen Systemen relevant ist ^[1]^[3]^[5]^[7]^[9].

Der belastbarste Schluss lautet nicht: Ein Modell dominiert Coding. Er lautet: Der Gewinner hängt von Benchmark-Variante, Agent-Harness und dem tatsächlichen Arbeitsprofil ab ^[1]^[6]^[7]^[10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

Claude Opus 4.6 ist der stärkste Startpunkt für SWE Bench Verified artige Bugfixes: Die zitierten Berichte nennen rund 79 bis 81 % [3][5][7][9].
GPT 5.3 Codex gehört in jeden Test für Terminal Agenten: Es steht bei 77,3 % in einem Vergleich und erreicht im öffentlichen Terminal Bench 2.0 Leaderboard je nach Harness bis zu 78,4 % [1][3].
GPT 5.4 sieht beim reinen Coding eher nach einem kleinen Schritt aus, bringt aber einen eigenen Tool Use Winkel: 57,7 % vs.

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-5.4, GPT-5.3-Codex oder Claude Opus 4.6: Der Coding-Sieger hängt vom Benchmark ab“?

Claude Opus 4.6 ist der stärkste Startpunkt für SWE Bench Verified artige Bugfixes: Die zitierten Berichte nennen rund 79 bis 81 % [3][5][7][9].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

GPT 5.4 sieht beim reinen Coding eher nach einem kleinen Schritt aus, bringt aber einen eigenen Tool Use Winkel: 57,7 % vs.

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Sprachinput und Wortschatz: Was die Forschung zum frühen Wörterlernen zeigt“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „Sprachentwicklung: Warum die Art der Antwort zählt“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Sprachinput und Wortschatz: Was die Forschung zum frühen Wörterlernen zeigt

Sprachentwicklung: Warum die Art der Antwort zählt

Studie: Höherstufige Antworten von Bezugspersonen hängen mit kindlicher Sprache zusammen

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security: Was Anthropics KI-Scanner für Unternehmenscode kann

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 Mio. Kontext und niedrige Tokenpreise – was xAI damit vorhat

Grok 4.3 API: Wie xAI mit 1 Mio. Kontext und günstigen Tokenpreisen Druck macht

Quellen

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

Trendthemen auf Entdecken

AntwortenVeröffentlicht5. Mai 2026Last edited 6. Mai 20267 Quellen

GPT-5.4, GPT-5.3-Codex oder Claude Opus 4.6: Der Coding-Sieger hängt vom Benchmark ab

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

4.9K0

Schnellurteil: Nach Einsatzfall auswählen

Einsatzfall	Zuerst testen	Warum	Wichtigster Haken
Repository-Bugfixing im Stil von SWE-Bench Verified	Claude Opus 4.6	Opus 4.6 wird in den zitierten Berichten bei etwa 79,2 bis 80,8 % auf SWE-Bench Verified geführt ^[3]^[5]^[6]^[7]^[9].	Nicht mit SWE-Bench Pro Public gleichsetzen; das sind unterschiedliche Varianten ^[6]^[7]^[10].
Terminalbasierte Agenten-Workflows	GPT-5.3-Codex, aber mit Harness-Kontrolle	Ein GPT-5.4-Vergleich nennt GPT-5.3-Codex mit 77,3 % auf Terminal-Bench 2.0, vor GPT-5.4 mit 75,1 % und Claude Opus 4.6 mit 65,4 % ^[3].	Das öffentliche Leaderboard listet Agent/Modell-Paare; Claude Opus 4.6 kommt dort mit ForgeCode auf 79,8 % ^[1].
Auswahl nur innerhalb der OpenAI-Modelle	GPT-5.4, aber keine Wunder erwarten	Derselbe Vergleich sieht GPT-5.4 auf SWE-Bench Pro knapp vor GPT-5.3-Codex: 57,7 % zu 56,8 % ^[3].	Auf Terminal-Bench 2.0 liegt GPT-5.4 in dieser Quelle hinter GPT-5.3-Codex ^[3].
Tool-lastige MCP-Systeme	GPT-5.4 separat prüfen	Die GPT-5.4-Analyse berichtet, dass Tool Search die MCP-Token-Nutzung um 47 % senkt, indem Tool-Definitionen erst bei Bedarf geladen werden ^[3].	Token-Effizienz ist nicht dasselbe wie ein Sieg bei Bugfix-Benchmarks ^[3].