Claude Opus 4.6の強みが最もはっきり出ているのはSWE-Bench Verifiedです。参照されている複数のレポートでは、Opus 4.6のSWE-Bench Verifiedスコアは79.2%、79.4%、80.8%といった範囲で報告されています 。
一方、GPT-5.3-CodexのSWE-Bench系スコアは注意して読む必要があります。あるGPT-5.4分析ではGPT-5.3-CodexがSWE-Bench Proで56.8%とされる一方、Opus対Codexの比較記事ではSWE-Bench Pro Publicで78.2%とされています 。これは平均すればよいという話ではなく、そもそも違う評価線を混ぜている可能性がある、という警告として読むべきです。複数の資料が、SWE-Bench VerifiedとSWE-Bench Pro Publicは直接比較できないと明記しています
。
GPT-5.4について、OpenAI系モデル同士で一番読みやすい差は小さいものです。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とされています 。別のまとめもGPT-5.4の57.7%というSWE-Bench Pro Publicの数字に触れつつ、Claudeとの広い比較は同じ土俵ではないと注意しています
。
実際、GPT-5.3-CodexはSageAgentとの組み合わせで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています 。Claude Opus 4.6も、ForgeCodeとの組み合わせでは79.8%、Capyでは75.3%、Terminus 2では62.9%です
。
この差は、見かけの勝者を入れ替えるほど大きいものです。GPT-5.4分析では、Terminal-Bench 2.0でGPT-5.3-CodexがClaude Opus 4.6を77.3%対65.4%で上回るとされています 。しかし公開リーダーボードでは、ForgeCodeと組んだClaude Opus 4.6の79.8%が、SageAgentと組んだGPT-5.3-Codexの78.4%を上回っています
。ターミナル系のワークフローを評価するなら、モデルだけでなく、同じエージェント・ハーネスで比べることが欠かせません。
コーディング能力の代理指標としてSWE-Bench Verifiedを重視するなら、Claude Opus 4.6が最初の検証候補になります。報告値は79.2〜80.8%付近に集まっており、参照資料の範囲ではこの領域で最も強いシグナルがあります 。
ただし、Opus 4.6がすべてのコーディング作業で勝つ、という意味ではありません。Terminal-Bench 2.0では比較記事で65.4%とされる一方、公開リーダーボードではForgeCodeとの組み合わせで79.8%、Terminus 2との組み合わせで62.9%と、構成による差が大きく出ています 。リポジトリ修正の第一候補としては強いものの、万能王者とは言い切れません。
GPT-5.3-Codexの見どころは、Terminal-Bench型のエージェント的なシェル作業です。比較記事ではTerminal-Bench 2.0で77.3%とされ、公開リーダーボードでもSageAgentで78.4%、Droidで77.3%、Simple Codexで75.1%と掲載されています 。
SWE-Bench系の評価は、より慎重に読むべきです。資料によって、GPT-5.3-CodexはSWE-Bench Pro Publicで78.2%、SWE-Bench Proで56.8%と異なる線で報告されています 。参照資料自体がベンチマークの違いを警告しているため、実運用で使う評価セットと同じ種類のSWE-Benchで見るのが安全です
。
提供されたベンチマーク群だけを見る限り、GPT-5.4はコーディングで圧勝しているモデルには見えません。同じ分析内では、SWE-Bench ProでGPT-5.4が57.7%、GPT-5.3-Codexが56.8%とわずかな差にとどまり、Terminal-Bench 2.0ではGPT-5.4が75.1%、GPT-5.3-Codexが77.3%です 。
むしろGPT-5.4で目立つのはツール利用の話です。GPT-5.4分析によれば、すべてのツール定義をコンテキストに詰め込むのではなく、必要に応じて読み込むことで、tool searchがMCPのトークン使用量を47%削減するとされています 。ツールが多いコーディングエージェントでは実務上の意味がある可能性がありますが、これはSWE-BenchやTerminal-Benchの正答率とは別に測るべき指標です。
SWE-Bench Verified型のバグ修正を重視するならClaude Opus 4.6、ターミナル操作を含むエージェント型開発を重視するならGPT-5.3-Codex、OpenAIの最新モデルやツール検索による効率を試したいならGPT-5.4を検証する、というのが現時点で最も無理のない読み方です 。
最終的な答えは、どのモデルが絶対に最強かではありません。どのSWE-Bench系統を見るのか、Terminal-Benchでどのエージェント・ハーネスを使うのか、そして自分の開発ワークロードが何を重視するのかで、勝者は変わります 。
Comments
0 comments