答え公開済み2026年5月5日Last edited 2026年5月6日7 ソース

GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。リポジトリのバグ修正ならClaude Opus 4.6、ターミナル操作を含むエージェント型ワークフローならGPT 5.3 Codex、ツール定義が多いMCP系システムならGPT 5.4の47%トークン削減を別途検証する、という使い分けが現実的です [1][3]。

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

4.5K0

Abstract comparison of AI coding models on a benchmark leaderboard — GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic
openai.com

公開されているベンチマークだけを見るなら、結論はシンプルです。コーディングAIの勝者は1つに決まりません。SWE-Bench Verified型のリポジトリ修正ではClaude Opus 4.6が強く、ターミナルを使うエージェント型の作業ではGPT-5.3-Codexが有力で、GPT-5.4のGPT-5.3-Codexに対する直接的なコーディング改善は決定打というより小幅な差に見えます ^[1]^[3]^[5]^[7]^[9]。

ただし、ここで一番大事なのはスコアそのものよりも読み方です。SWE-BenchにはVerified、Pro、Pro Publicといった異なる系統があり、Terminal-Bench 2.0の公開結果もモデル単体ではなく、エージェント構成との組み合わせで表示されます ^[1]^[6]^[7]^[10]。つまり、数字を横に並べただけで最強モデルを決めるのは危険です。

先に結論：用途別に最初に試すモデル

用途	まず試したいモデル	根拠	注意点
SWE-Bench Verifiedに近いリポジトリのバグ修正	Claude Opus 4.6	Opus 4.6はSWE-Bench Verifiedで約79.2〜80.8%と報告されています ^[3]^[5]^[7]^[9]。	SWE-Bench VerifiedとSWE-Bench Pro Publicを同じテストとして比較しないこと ^[6]^[7]^[10]。
ターミナル操作を含むエージェント型コーディング	GPT-5.3-Codex	GPT-5.4の分析ではTerminal-Bench 2.0でGPT-5.3-Codexが77.3%、GPT-5.4が75.1%、Claude Opus 4.6が65.4%とされています ^[3]。	公開リーダーボードはagent/modelの組み合わせで、ForgeCodeと組んだClaude Opus 4.6は79.8%に達しています ^[1]。
OpenAIモデルだけで選ぶ場合	GPT-5.4。ただし期待値は小幅改善	同じGPT-5.4分析では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%です ^[3]。	同じ比較では、Terminal-Bench 2.0でGPT-5.4はGPT-5.3-Codexを下回っています ^[3]。
MCPのようにツール定義が多いシステム	GPT-5.4を別枠で検証	GPT-5.4分析では、必要なツール定義だけを読み込むtool searchによりMCPのトークン使用量が47%減るとされています ^[3]。	トークン効率の改善は、バグ修正ベンチマークでの勝利とは別の評価軸です ^[3]。

最大の落とし穴：同じSWE-Benchでも別物がある

Claude Opus 4.6の強みが最もはっきり出ているのはSWE-Bench Verifiedです。参照されている複数のレポートでは、Opus 4.6のSWE-Bench Verifiedスコアは79.2%、79.4%、80.8%といった範囲で報告されています ^[3]^[5]^[7]^[9]。

一方、GPT-5.3-CodexのSWE-Bench系スコアは注意して読む必要があります。あるGPT-5.4分析ではGPT-5.3-CodexがSWE-Bench Proで56.8%とされる一方、Opus対Codexの比較記事ではSWE-Bench Pro Publicで78.2%とされています ^[3]^[6]^[7]。これは平均すればよいという話ではなく、そもそも違う評価線を混ぜている可能性がある、という警告として読むべきです。複数の資料が、SWE-Bench VerifiedとSWE-Bench Pro Publicは直接比較できないと明記しています ^[6]^[7]^[10]。

GPT-5.4について、OpenAI系モデル同士で一番読みやすい差は小さいものです。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とされています ^[3]。別のまとめもGPT-5.4の57.7%というSWE-Bench Pro Publicの数字に触れつつ、Claudeとの広い比較は同じ土俵ではないと注意しています ^[10]。

Terminal-Benchはモデル単体の順位表ではない

Terminal-Bench 2.0は、特に読み間違えやすいベンチマークです。公開リーダーボードはベースモデル単体の点数ではなく、エージェントとモデルのペアを並べています ^[1]。

実際、GPT-5.3-CodexはSageAgentとの組み合わせで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています ^[1]。Claude Opus 4.6も、ForgeCodeとの組み合わせでは79.8%、Capyでは75.3%、Terminus 2では62.9%です ^[1]。

この差は、見かけの勝者を入れ替えるほど大きいものです。GPT-5.4分析では、Terminal-Bench 2.0でGPT-5.3-CodexがClaude Opus 4.6を77.3%対65.4%で上回るとされています ^[3]。しかし公開リーダーボードでは、ForgeCodeと組んだClaude Opus 4.6の79.8%が、SageAgentと組んだGPT-5.3-Codexの78.4%を上回っています ^[1]。ターミナル系のワークフローを評価するなら、モデルだけでなく、同じエージェント・ハーネスで比べることが欠かせません。

モデル別の読み方

Claude Opus 4.6：Verified型のバグ修正では最有力

コーディング能力の代理指標としてSWE-Bench Verifiedを重視するなら、Claude Opus 4.6が最初の検証候補になります。報告値は79.2〜80.8%付近に集まっており、参照資料の範囲ではこの領域で最も強いシグナルがあります ^[3]^[5]^[6]^[7]^[9]。

ただし、Opus 4.6がすべてのコーディング作業で勝つ、という意味ではありません。Terminal-Bench 2.0では比較記事で65.4%とされる一方、公開リーダーボードではForgeCodeとの組み合わせで79.8%、Terminus 2との組み合わせで62.9%と、構成による差が大きく出ています ^[1]^[3]^[7]^[9]。リポジトリ修正の第一候補としては強いものの、万能王者とは言い切れません。

GPT-5.3-Codex：OpenAI系ではターミナル・エージェント用途が強い

GPT-5.3-Codexの見どころは、Terminal-Bench型のエージェント的なシェル作業です。比較記事ではTerminal-Bench 2.0で77.3%とされ、公開リーダーボードでもSageAgentで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています ^[1]^[3]^[7]^[9]。

SWE-Bench系の評価は、より慎重に読むべきです。資料によって、GPT-5.3-CodexはSWE-Bench Pro Publicで78.2%、SWE-Bench Proで56.8%と異なる線で報告されています ^[3]^[6]^[7]^[9]。参照資料自体がベンチマークの違いを警告しているため、実運用で使う評価セットと同じ種類のSWE-Benchで見るのが安全です ^[6]^[7]^[10]。

GPT-5.4：大幅なコーディング勝利より、ツール利用に注目

提供されたベンチマーク群だけを見る限り、GPT-5.4はコーディングで圧勝しているモデルには見えません。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とわずかな差にとどまり、Terminal-Bench 2.0ではGPT-5.4が75.1%、GPT-5.3-Codexが77.3%です ^[3]。

むしろGPT-5.4で目立つのはツール利用の話です。GPT-5.4分析によれば、すべてのツール定義をコンテキストに詰め込むのではなく、必要に応じて読み込むことで、tool searchがMCPのトークン使用量を47%削減するとされています ^[3]。ツールが多いコーディングエージェントでは実務上の意味がある可能性がありますが、これはSWE-BenchやTerminal-Benchの正答率とは別に測るべき指標です。

自分の環境で比べるときの手順

先にベンチマークの種類を決める。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Publicを1つのスコア表にまとめて勝敗を決めないことが重要です ^[6]^[7]^[10]。
ターミナル系ではエージェント構成をそろえる。 Terminal-Bench 2.0の公開リーダーボードは、同じモデルでも組み合わせるエージェントによって精度が大きく変わることを示しています ^[1]。
正答率とトークン効率を分けて見る。 GPT-5.4のMCPトークン47%削減は、ツールが多いシステムでは有用な材料ですが、ベンチマーク勝利そのものではありません ^[3]。
混在したランキングは方向感として扱う。 参照資料の範囲では、評価軸によって勝者が変わります。単一の総合順位を作ると、根拠以上に強い結論になってしまいます ^[1]^[3]^[6]^[7]^[10]。

結論

SWE-Bench Verified型のバグ修正を重視するならClaude Opus 4.6、ターミナル操作を含むエージェント型開発を重視するならGPT-5.3-Codex、OpenAIの最新モデルやツール検索による効率を試したいならGPT-5.4を検証する、というのが現時点で最も無理のない読み方です ^[1]^[3]^[5]^[7]^[9]。

最終的な答えは、どのモデルが絶対に最強かではありません。どのSWE-Bench系統を見るのか、Terminal-Benchでどのエージェント・ハーネスを使うのか、そして自分の開発ワークロードが何を重視するのかで、勝者は変わります ^[1]^[6]^[7]^[10]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。
リポジトリのバグ修正ならClaude Opus 4.6、ターミナル操作を含むエージェント型ワークフローならGPT 5.3 Codex、ツール定義が多いMCP系システムならGPT 5.4の47%トークン削減を別途検証する、という使い分けが現実的です [1][3]。
SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Publicを同じ表で単純比較するのは危険です。複数の資料が、これらは直接比較できる同一テストではないと注意しています [6][7][10]。

人々も尋ねます

「GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか」の短い答えは何ですか?

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Publicを同じ表で単純比較するのは危険です。複数の資料が、これらは直接比較できる同一テストではないと注意しています [6][7][10]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Claude Security公開ベータ版とは：AnthropicがAIで企業コードの脆弱性を探す仕組み

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5なのか？最新リークはXiaomi 18シリーズを示唆

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

MetaのAI年齢確認：InstagramとFacebookで変わる13歳未満・10代保護

MetaのAI年齢確認でInstagramとFacebookはどう変わる？

情報源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

トレンドを発見する

答え公開済み2026年5月5日Last edited 2026年5月6日7 ソース

GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

4.5K0

先に結論：用途別に最初に試すモデル

用途	まず試したいモデル	根拠	注意点
SWE-Bench Verifiedに近いリポジトリのバグ修正	Claude Opus 4.6	Opus 4.6はSWE-Bench Verifiedで約79.2〜80.8%と報告されています ^[3]^[5]^[7]^[9]。	SWE-Bench VerifiedとSWE-Bench Pro Publicを同じテストとして比較しないこと ^[6]^[7]^[10]。
ターミナル操作を含むエージェント型コーディング	GPT-5.3-Codex	GPT-5.4の分析ではTerminal-Bench 2.0でGPT-5.3-Codexが77.3%、GPT-5.4が75.1%、Claude Opus 4.6が65.4%とされています ^[3]。	公開リーダーボードはagent/modelの組み合わせで、ForgeCodeと組んだClaude Opus 4.6は79.8%に達しています ^[1]。
OpenAIモデルだけで選ぶ場合	GPT-5.4。ただし期待値は小幅改善	同じGPT-5.4分析では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%です ^[3]。	同じ比較では、Terminal-Bench 2.0でGPT-5.4はGPT-5.3-Codexを下回っています ^[3]。
MCPのようにツール定義が多いシステム	GPT-5.4を別枠で検証	GPT-5.4分析では、必要なツール定義だけを読み込むtool searchによりMCPのトークン使用量が47%減るとされています ^[3]。	トークン効率の改善は、バグ修正ベンチマークでの勝利とは別の評価軸です ^[3]。

最大の落とし穴：同じSWE-Benchでも別物がある

Terminal-Benchはモデル単体の順位表ではない

モデル別の読み方

Claude Opus 4.6：Verified型のバグ修正では最有力

GPT-5.3-Codex：OpenAI系ではターミナル・エージェント用途が強い

GPT-5.4：大幅なコーディング勝利より、ツール利用に注目

自分の環境で比べるときの手順

先にベンチマークの種類を決める。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Publicを1つのスコア表にまとめて勝敗を決めないことが重要です ^[6]^[7]^[10]。
ターミナル系ではエージェント構成をそろえる。 Terminal-Bench 2.0の公開リーダーボードは、同じモデルでも組み合わせるエージェントによって精度が大きく変わることを示しています ^[1]。
正答率とトークン効率を分けて見る。 GPT-5.4のMCPトークン47%削減は、ツールが多いシステムでは有用な材料ですが、ベンチマーク勝利そのものではありません ^[3]。
混在したランキングは方向感として扱う。 参照資料の範囲では、評価軸によって勝者が変わります。単一の総合順位を作ると、根拠以上に強い結論になってしまいます ^[1]^[3]^[6]^[7]^[10]。

結論

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。
リポジトリのバグ修正ならClaude Opus 4.6、ターミナル操作を含むエージェント型ワークフローならGPT 5.3 Codex、ツール定義が多いMCP系システムならGPT 5.4の47%トークン削減を別途検証する、という使い分けが現実的です [1][3]。
SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Publicを同じ表で単純比較するのは危険です。複数の資料が、これらは直接比較できる同一テストではないと注意しています [6][7][10]。

人々も尋ねます

「GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

情報源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

トレンドを発見する

答え公開済み2026年5月5日Last edited 2026年5月6日7 ソース

GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

4.5K0

先に結論：用途別に最初に試すモデル

用途	まず試したいモデル	根拠	注意点
SWE-Bench Verifiedに近いリポジトリのバグ修正	Claude Opus 4.6	Opus 4.6はSWE-Bench Verifiedで約79.2〜80.8%と報告されています ^[3]^[5]^[7]^[9]。	SWE-Bench VerifiedとSWE-Bench Pro Publicを同じテストとして比較しないこと ^[6]^[7]^[10]。
ターミナル操作を含むエージェント型コーディング	GPT-5.3-Codex	GPT-5.4の分析ではTerminal-Bench 2.0でGPT-5.3-Codexが77.3%、GPT-5.4が75.1%、Claude Opus 4.6が65.4%とされています ^[3]。	公開リーダーボードはagent/modelの組み合わせで、ForgeCodeと組んだClaude Opus 4.6は79.8%に達しています ^[1]。
OpenAIモデルだけで選ぶ場合	GPT-5.4。ただし期待値は小幅改善	同じGPT-5.4分析では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%です ^[3]。	同じ比較では、Terminal-Bench 2.0でGPT-5.4はGPT-5.3-Codexを下回っています ^[3]。
MCPのようにツール定義が多いシステム	GPT-5.4を別枠で検証	GPT-5.4分析では、必要なツール定義だけを読み込むtool searchによりMCPのトークン使用量が47%減るとされています ^[3]。	トークン効率の改善は、バグ修正ベンチマークでの勝利とは別の評価軸です ^[3]。

最大の落とし穴：同じSWE-Benchでも別物がある

Terminal-Benchはモデル単体の順位表ではない

モデル別の読み方

Claude Opus 4.6：Verified型のバグ修正では最有力

GPT-5.3-Codex：OpenAI系ではターミナル・エージェント用途が強い

GPT-5.4：大幅なコーディング勝利より、ツール利用に注目

自分の環境で比べるときの手順

先にベンチマークの種類を決める。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Publicを1つのスコア表にまとめて勝敗を決めないことが重要です ^[6]^[7]^[10]。
ターミナル系ではエージェント構成をそろえる。 Terminal-Bench 2.0の公開リーダーボードは、同じモデルでも組み合わせるエージェントによって精度が大きく変わることを示しています ^[1]。
正答率とトークン効率を分けて見る。 GPT-5.4のMCPトークン47%削減は、ツールが多いシステムでは有用な材料ですが、ベンチマーク勝利そのものではありません ^[3]。
混在したランキングは方向感として扱う。 参照資料の範囲では、評価軸によって勝者が変わります。単一の総合順位を作ると、根拠以上に強い結論になってしまいます ^[1]^[3]^[6]^[7]^[10]。

結論

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

コーディング用途で万能の勝者は見えません。SWE Bench VerifiedではClaude Opus 4.6が約79〜81%で強く、Terminal Bench 2.0の一部比較ではGPT 5.3 Codexが77.3%で目立ち、GPT 5.4の直接的な伸びは小幅に見えます [1][3][5][7][9]。
リポジトリのバグ修正ならClaude Opus 4.6、ターミナル操作を含むエージェント型ワークフローならGPT 5.3 Codex、ツール定義が多いMCP系システムならGPT 5.4の47%トークン削減を別途検証する、という使い分けが現実的です [1][3]。
SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Publicを同じ表で単純比較するのは危険です。複数の資料が、これらは直接比較できる同一テストではないと注意しています [6][7][10]。

人々も尋ねます

「GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

情報源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

先に結論：用途別に最初に試すモデル

最大の落とし穴：同じSWE-Benchでも別物がある

Terminal-Benchはモデル単体の順位表ではない

モデル別の読み方

Claude Opus 4.6：Verified型のバグ修正では最有力

GPT-5.3-Codex：OpenAI系ではターミナル・エージェント用途が強い

GPT-5.4：大幅なコーディング勝利より、ツール利用に注目

自分の環境で比べるときの手順

結論

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

MetaのAI年齢確認：InstagramとFacebookで変わる13歳未満・10代保護

情報源

先に結論：用途別に最初に試すモデル

最大の落とし穴：同じSWE-Benchでも別物がある

Terminal-Benchはモデル単体の順位表ではない

モデル別の読み方

Claude Opus 4.6：Verified型のバグ修正では最有力

GPT-5.3-Codex：OpenAI系ではターミナル・エージェント用途が強い

GPT-5.4：大幅なコーディング勝利より、ツール利用に注目

自分の環境で比べるときの手順

結論

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

MetaのAI年齢確認：InstagramとFacebookで変わる13歳未満・10代保護

情報源

先に結論：用途別に最初に試すモデル

最大の落とし穴：同じSWE-Benchでも別物がある

Terminal-Benchはモデル単体の順位表ではない

モデル別の読み方

Claude Opus 4.6：Verified型のバグ修正では最有力

GPT-5.3-Codex：OpenAI系ではターミナル・エージェント用途が強い

GPT-5.4：大幅なコーディング勝利より、ツール利用に注目

自分の環境で比べるときの手順

結論

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6：コーディングで選ぶならどれか」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

MetaのAI年齢確認：InstagramとFacebookで変わる13歳未満・10代保護

情報源

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り