公開されているベンチマークだけを見るなら、結論はシンプルです。コーディングAIの勝者は1つに決まりません。SWE-Bench Verified型のリポジトリ修正ではClaude Opus 4.6が強く、ターミナルを使うエージェント型の作業ではGPT-5.3-Codexが有力で、GPT-5.4のGPT-5.3-Codexに対する直接的なコーディング改善は決定打というより小幅な差に見えます [1][
3][
5][
7][
9]。
ただし、ここで一番大事なのはスコアそのものよりも読み方です。SWE-BenchにはVerified、Pro、Pro Publicといった異なる系統があり、Terminal-Bench 2.0の公開結果もモデル単体ではなく、エージェント構成との組み合わせで表示されます [1][
6][
7][
10]。つまり、数字を横に並べただけで最強モデルを決めるのは危険です。
先に結論:用途別に最初に試すモデル
| 用途 | まず試したいモデル | 根拠 | 注意点 |
|---|---|---|---|
| SWE-Bench Verifiedに近いリポジトリのバグ修正 | Claude Opus 4.6 | Opus 4.6はSWE-Bench Verifiedで約79.2〜80.8%と報告されています [ | SWE-Bench VerifiedとSWE-Bench Pro Publicを同じテストとして比較しないこと [ |
| ターミナル操作を含むエージェント型コーディング | GPT-5.3-Codex | GPT-5.4の分析ではTerminal-Bench 2.0でGPT-5.3-Codexが77.3%、GPT-5.4が75.1%、Claude Opus 4.6が65.4%とされています [ | 公開リーダーボードはagent/modelの組み合わせで、ForgeCodeと組んだClaude Opus 4.6は79.8%に達しています [ |
| OpenAIモデルだけで選ぶ場合 | GPT-5.4。ただし期待値は小幅改善 | 同じGPT-5.4分析では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%です [ | 同じ比較では、Terminal-Bench 2.0でGPT-5.4はGPT-5.3-Codexを下回っています [ |
| MCPのようにツール定義が多いシステム | GPT-5.4を別枠で検証 | GPT-5.4分析では、必要なツール定義だけを読み込むtool searchによりMCPのトークン使用量が47%減るとされています [ | トークン効率の改善は、バグ修正ベンチマークでの勝利とは別の評価軸です [ |
最大の落とし穴:同じSWE-Benchでも別物がある
Claude Opus 4.6の強みが最もはっきり出ているのはSWE-Bench Verifiedです。参照されている複数のレポートでは、Opus 4.6のSWE-Bench Verifiedスコアは79.2%、79.4%、80.8%といった範囲で報告されています [3][
5][
7][
9]。
一方、GPT-5.3-CodexのSWE-Bench系スコアは注意して読む必要があります。あるGPT-5.4分析ではGPT-5.3-CodexがSWE-Bench Proで56.8%とされる一方、Opus対Codexの比較記事ではSWE-Bench Pro Publicで78.2%とされています [3][
6][
7]。これは平均すればよいという話ではなく、そもそも違う評価線を混ぜている可能性がある、という警告として読むべきです。複数の資料が、SWE-Bench VerifiedとSWE-Bench Pro Publicは直接比較できないと明記しています [
6][
7][
10]。
GPT-5.4について、OpenAI系モデル同士で一番読みやすい差は小さいものです。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とされています [3]。別のまとめもGPT-5.4の57.7%というSWE-Bench Pro Publicの数字に触れつつ、Claudeとの広い比較は同じ土俵ではないと注意しています [
10]。
Terminal-Benchはモデル単体の順位表ではない
Terminal-Bench 2.0は、特に読み間違えやすいベンチマークです。公開リーダーボードはベースモデル単体の点数ではなく、エージェントとモデルのペアを並べています [1]。
実際、GPT-5.3-CodexはSageAgentとの組み合わせで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています [1]。Claude Opus 4.6も、ForgeCodeとの組み合わせでは79.8%、Capyでは75.3%、Terminus 2では62.9%です [
1]。
この差は、見かけの勝者を入れ替えるほど大きいものです。GPT-5.4分析では、Terminal-Bench 2.0でGPT-5.3-CodexがClaude Opus 4.6を77.3%対65.4%で上回るとされています [3]。しかし公開リーダーボードでは、ForgeCodeと組んだClaude Opus 4.6の79.8%が、SageAgentと組んだGPT-5.3-Codexの78.4%を上回っています [
1]。ターミナル系のワークフローを評価するなら、モデルだけでなく、同じエージェント・ハーネスで比べることが欠かせません。
モデル別の読み方
Claude Opus 4.6:Verified型のバグ修正では最有力
コーディング能力の代理指標としてSWE-Bench Verifiedを重視するなら、Claude Opus 4.6が最初の検証候補になります。報告値は79.2〜80.8%付近に集まっており、参照資料の範囲ではこの領域で最も強いシグナルがあります [3][
5][
6][
7][
9]。
ただし、Opus 4.6がすべてのコーディング作業で勝つ、という意味ではありません。Terminal-Bench 2.0では比較記事で65.4%とされる一方、公開リーダーボードではForgeCodeとの組み合わせで79.8%、Terminus 2との組み合わせで62.9%と、構成による差が大きく出ています [1][
3][
7][
9]。リポジトリ修正の第一候補としては強いものの、万能王者とは言い切れません。
GPT-5.3-Codex:OpenAI系ではターミナル・エージェント用途が強い
GPT-5.3-Codexの見どころは、Terminal-Bench型のエージェント的なシェル作業です。比較記事ではTerminal-Bench 2.0で77.3%とされ、公開リーダーボードでもSageAgentで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています [1][
3][
7][
9]。
SWE-Bench系の評価は、より慎重に読むべきです。資料によって、GPT-5.3-CodexはSWE-Bench Pro Publicで78.2%、SWE-Bench Proで56.8%と異なる線で報告されています [3][
6][
7][
9]。参照資料自体がベンチマークの違いを警告しているため、実運用で使う評価セットと同じ種類のSWE-Benchで見るのが安全です [
6][
7][
10]。
GPT-5.4:大幅なコーディング勝利より、ツール利用に注目
提供されたベンチマーク群だけを見る限り、GPT-5.4はコーディングで圧勝しているモデルには見えません。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とわずかな差にとどまり、Terminal-Bench 2.0ではGPT-5.4が75.1%、GPT-5.3-Codexが77.3%です [3]。
むしろGPT-5.4で目立つのはツール利用の話です。GPT-5.4分析によれば、すべてのツール定義をコンテキストに詰め込むのではなく、必要に応じて読み込むことで、tool searchがMCPのトークン使用量を47%削減するとされています [3]。ツールが多いコーディングエージェントでは実務上の意味がある可能性がありますが、これはSWE-BenchやTerminal-Benchの正答率とは別に測るべき指標です。
自分の環境で比べるときの手順
- 先にベンチマークの種類を決める。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Publicを1つのスコア表にまとめて勝敗を決めないことが重要です [
6][
7][
10]。
- ターミナル系ではエージェント構成をそろえる。 Terminal-Bench 2.0の公開リーダーボードは、同じモデルでも組み合わせるエージェントによって精度が大きく変わることを示しています [
1]。
- 正答率とトークン効率を分けて見る。 GPT-5.4のMCPトークン47%削減は、ツールが多いシステムでは有用な材料ですが、ベンチマーク勝利そのものではありません [
3]。
- 混在したランキングは方向感として扱う。 参照資料の範囲では、評価軸によって勝者が変わります。単一の総合順位を作ると、根拠以上に強い結論になってしまいます [
1][
3][
6][
7][
10]。
結論
SWE-Bench Verified型のバグ修正を重視するならClaude Opus 4.6、ターミナル操作を含むエージェント型開発を重視するならGPT-5.3-Codex、OpenAIの最新モデルやツール検索による効率を試したいならGPT-5.4を検証する、というのが現時点で最も無理のない読み方です [1][
3][
5][
7][
9]。
最終的な答えは、どのモデルが絶対に最強かではありません。どのSWE-Bench系統を見るのか、Terminal-Benchでどのエージェント・ハーネスを使うのか、そして自分の開発ワークロードが何を重視するのかで、勝者は変わります [1][
6][
7][
10]。




