studioglobal
トレンドを発見する
答え公開済み7 ソース

GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6:コーディングで選ぶならどれか

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。 リポジトリのバグ修正ならClaude Opus 4.6、ターミナル操作を含むエージェント型ワークフローならGPT 5.3 Codex、ツール定義が多いMCP系システムならGPT 5.4の47%トークン削減を別途検証する、という使い分けが現実的です [1][3]。

4.5K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

公開されているベンチマークだけを見るなら、結論はシンプルです。コーディングAIの勝者は1つに決まりません。SWE-Bench Verified型のリポジトリ修正ではClaude Opus 4.6が強く、ターミナルを使うエージェント型の作業ではGPT-5.3-Codexが有力で、GPT-5.4のGPT-5.3-Codexに対する直接的なコーディング改善は決定打というより小幅な差に見えます [1][3][5][7][9]

ただし、ここで一番大事なのはスコアそのものよりも読み方です。SWE-BenchにはVerified、Pro、Pro Publicといった異なる系統があり、Terminal-Bench 2.0の公開結果もモデル単体ではなく、エージェント構成との組み合わせで表示されます [1][6][7][10]。つまり、数字を横に並べただけで最強モデルを決めるのは危険です。

先に結論:用途別に最初に試すモデル

用途まず試したいモデル根拠注意点
SWE-Bench Verifiedに近いリポジトリのバグ修正Claude Opus 4.6Opus 4.6はSWE-Bench Verifiedで約79.2〜80.8%と報告されています [3][5][7][9]SWE-Bench VerifiedとSWE-Bench Pro Publicを同じテストとして比較しないこと [6][7][10]
ターミナル操作を含むエージェント型コーディングGPT-5.3-CodexGPT-5.4の分析ではTerminal-Bench 2.0でGPT-5.3-Codexが77.3%、GPT-5.4が75.1%、Claude Opus 4.6が65.4%とされています [3]公開リーダーボードはagent/modelの組み合わせで、ForgeCodeと組んだClaude Opus 4.6は79.8%に達しています [1]
OpenAIモデルだけで選ぶ場合GPT-5.4。ただし期待値は小幅改善同じGPT-5.4分析では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%です [3]同じ比較では、Terminal-Bench 2.0でGPT-5.4はGPT-5.3-Codexを下回っています [3]
MCPのようにツール定義が多いシステムGPT-5.4を別枠で検証GPT-5.4分析では、必要なツール定義だけを読み込むtool searchによりMCPのトークン使用量が47%減るとされています [3]トークン効率の改善は、バグ修正ベンチマークでの勝利とは別の評価軸です [3]

最大の落とし穴:同じSWE-Benchでも別物がある

Claude Opus 4.6の強みが最もはっきり出ているのはSWE-Bench Verifiedです。参照されている複数のレポートでは、Opus 4.6のSWE-Bench Verifiedスコアは79.2%、79.4%、80.8%といった範囲で報告されています [3][5][7][9]

一方、GPT-5.3-CodexのSWE-Bench系スコアは注意して読む必要があります。あるGPT-5.4分析ではGPT-5.3-CodexがSWE-Bench Proで56.8%とされる一方、Opus対Codexの比較記事ではSWE-Bench Pro Publicで78.2%とされています [3][6][7]。これは平均すればよいという話ではなく、そもそも違う評価線を混ぜている可能性がある、という警告として読むべきです。複数の資料が、SWE-Bench VerifiedとSWE-Bench Pro Publicは直接比較できないと明記しています [6][7][10]

GPT-5.4について、OpenAI系モデル同士で一番読みやすい差は小さいものです。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とされています [3]。別のまとめもGPT-5.4の57.7%というSWE-Bench Pro Publicの数字に触れつつ、Claudeとの広い比較は同じ土俵ではないと注意しています [10]

Terminal-Benchはモデル単体の順位表ではない

Terminal-Bench 2.0は、特に読み間違えやすいベンチマークです。公開リーダーボードはベースモデル単体の点数ではなく、エージェントとモデルのペアを並べています [1]

実際、GPT-5.3-CodexはSageAgentとの組み合わせで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています [1]。Claude Opus 4.6も、ForgeCodeとの組み合わせでは79.8%、Capyでは75.3%、Terminus 2では62.9%です [1]

この差は、見かけの勝者を入れ替えるほど大きいものです。GPT-5.4分析では、Terminal-Bench 2.0でGPT-5.3-CodexがClaude Opus 4.6を77.3%対65.4%で上回るとされています [3]。しかし公開リーダーボードでは、ForgeCodeと組んだClaude Opus 4.6の79.8%が、SageAgentと組んだGPT-5.3-Codexの78.4%を上回っています [1]。ターミナル系のワークフローを評価するなら、モデルだけでなく、同じエージェント・ハーネスで比べることが欠かせません。

モデル別の読み方

Claude Opus 4.6:Verified型のバグ修正では最有力

コーディング能力の代理指標としてSWE-Bench Verifiedを重視するなら、Claude Opus 4.6が最初の検証候補になります。報告値は79.2〜80.8%付近に集まっており、参照資料の範囲ではこの領域で最も強いシグナルがあります [3][5][6][7][9]

ただし、Opus 4.6がすべてのコーディング作業で勝つ、という意味ではありません。Terminal-Bench 2.0では比較記事で65.4%とされる一方、公開リーダーボードではForgeCodeとの組み合わせで79.8%、Terminus 2との組み合わせで62.9%と、構成による差が大きく出ています [1][3][7][9]。リポジトリ修正の第一候補としては強いものの、万能王者とは言い切れません。

GPT-5.3-Codex:OpenAI系ではターミナル・エージェント用途が強い

GPT-5.3-Codexの見どころは、Terminal-Bench型のエージェント的なシェル作業です。比較記事ではTerminal-Bench 2.0で77.3%とされ、公開リーダーボードでもSageAgentで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています [1][3][7][9]

SWE-Bench系の評価は、より慎重に読むべきです。資料によって、GPT-5.3-CodexはSWE-Bench Pro Publicで78.2%、SWE-Bench Proで56.8%と異なる線で報告されています [3][6][7][9]。参照資料自体がベンチマークの違いを警告しているため、実運用で使う評価セットと同じ種類のSWE-Benchで見るのが安全です [6][7][10]

GPT-5.4:大幅なコーディング勝利より、ツール利用に注目

提供されたベンチマーク群だけを見る限り、GPT-5.4はコーディングで圧勝しているモデルには見えません。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とわずかな差にとどまり、Terminal-Bench 2.0ではGPT-5.4が75.1%、GPT-5.3-Codexが77.3%です [3]

むしろGPT-5.4で目立つのはツール利用の話です。GPT-5.4分析によれば、すべてのツール定義をコンテキストに詰め込むのではなく、必要に応じて読み込むことで、tool searchがMCPのトークン使用量を47%削減するとされています [3]。ツールが多いコーディングエージェントでは実務上の意味がある可能性がありますが、これはSWE-BenchやTerminal-Benchの正答率とは別に測るべき指標です。

自分の環境で比べるときの手順

  1. 先にベンチマークの種類を決める。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Publicを1つのスコア表にまとめて勝敗を決めないことが重要です [6][7][10]
  2. ターミナル系ではエージェント構成をそろえる。 Terminal-Bench 2.0の公開リーダーボードは、同じモデルでも組み合わせるエージェントによって精度が大きく変わることを示しています [1]
  3. 正答率とトークン効率を分けて見る。 GPT-5.4のMCPトークン47%削減は、ツールが多いシステムでは有用な材料ですが、ベンチマーク勝利そのものではありません [3]
  4. 混在したランキングは方向感として扱う。 参照資料の範囲では、評価軸によって勝者が変わります。単一の総合順位を作ると、根拠以上に強い結論になってしまいます [1][3][6][7][10]

結論

SWE-Bench Verified型のバグ修正を重視するならClaude Opus 4.6、ターミナル操作を含むエージェント型開発を重視するならGPT-5.3-Codex、OpenAIの最新モデルやツール検索による効率を試したいならGPT-5.4を検証する、というのが現時点で最も無理のない読み方です [1][3][5][7][9]

最終的な答えは、どのモデルが絶対に最強かではありません。どのSWE-Bench系統を見るのか、Terminal-Benchでどのエージェント・ハーネスを使うのか、そして自分の開発ワークロードが何を重視するのかで、勝者は変わります [1][6][7][10]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。
  • リポジトリのバグ修正ならClaude Opus 4.6、ターミナル操作を含むエージェント型ワークフローならGPT 5.3 Codex、ツール定義が多いMCP系システムならGPT 5.4の47%トークン削減を別途検証する、という使い分けが現実的です [1][3]。
  • SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Publicを同じ表で単純比較するのは危険です。複数の資料が、これらは直接比較できる同一テストではないと注意しています [6][7][10]。

人々も尋ねます

「GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6:コーディングで選ぶならどれか」の短い答えは何ですか?

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。

最初に検証する重要なポイントは何ですか?

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。 リポジトリのバグ修正ならClaude Opus 4.6、ターミナル操作を含むエージェント型ワークフローならGPT 5.3 Codex、ツール定義が多いMCP系システムならGPT 5.4の47%トークン削減を別途検証する、という使い分けが現実的です [1][3]。

次の実践では何をすればいいでしょうか?

SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Publicを同じ表で単純比較するのは危険です。複数の資料が、これらは直接比較できる同一テストではないと注意しています [6][7][10]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは:AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「Grok 4.3 APIの読み方:100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

情報源

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...