| SWE-benchには複数の派生があり、ベンダーが有利な指標を強調する可能性があります。 |
| ターミナル・CLI中心の開発エージェント | GPT-5.5 | VentureBeatのTerminal-Bench 2.0表では、GPT-5.5が82.7、Claude Opus 4.7が69.4です。 | コマンドライン運用力の評価であって、すべてのコード品質を代表するわけではありません。 |
| ブラウジングや外部ツール呼び出しを含む開発補助 | 混合 | BrowseCompはGPT-5.5が84.4%、Claude Opus 4.7が79.3%。一方、MCP AtlasはGPT-5.5が75.3%、Claude Opus 4.7が79.1%です。 | ツール利用評価はコーディング専用ベンチマークではありません。 |
| 長いエージェントループの制御 | Claude Opus 4.7も有力 | AnthropicはOpus 4.7を、複雑な推論とエージェント型コーディング向けの同社で最も強力な一般提供モデルと説明しています。 | 結果はハーネス、プロンプト、権限、テスト環境で大きく変わります。 |
Claude Opus 4.7を先に試したいのは、失敗したテストを読み、原因を探し、小さな修正で通すタイプの作業です。AnthropicはClaude Opus 4.7がSWE-bench Proで64.3%を記録したと示しており、GPT-5.5との比較を扱った報道でも、SWE-bench ProではGPT-5.5が58.6%、Claude Opus 4.7が64.3%と整理されています。
この見え方は、Anthropic自身の位置づけとも重なります。同社のClaude APIリリースノートは、2026年4月16日にClaude Opus 4.7を公開し、複雑な推論とエージェント型コーディング向けの同社で最も強力な一般提供モデルだと説明しています。
機能面でも、長めの作業を意識した変更があります。Claude Opus 4.7にはベータ機能のtask budgetsthinking、tool callstool resultsfinal output また、AnthropicはOpus 4.7ユーザーのデフォルトを
xhigh effortにしたとも説明しています。
そのため、次のような作業ではClaude Opus 4.7から評価するのが自然です。
ただし、これは「どんなコーディングでもClaudeが上」という意味ではありません。SWE-bench系には複数のバリエーションがあり、ベンダーが自分に有利な指標を強調する可能性も指摘されています。公開スコアは、あくまで実リポジトリで検証を始めるための手がかりとして見るのが安全です。
GPT-5.5の強みは、ターミナルを作業場として使うエージェント型ワークフローで見えやすくなります。VentureBeatがまとめたTerminal-Bench 2.0の表では、GPT-5.5が82.7、Claude Opus 4.7が69.4と示されています。
この差が注目されるのは、Terminal-Bench 2.0が単なるコード片の生成テストではないからです。同ベンチマークは、複雑なコマンドライン作業における計画、反復、ツール調整を評価するものだと説明されています。 つまり、エージェントがコマンドを実行し、ログを読み、失敗原因を絞り込み、再びテストを走らせるような開発作業に近い指標です。
次のようなワークフローなら、GPT-5.5を先に候補に入れる価値があります。
ただし、Terminal-Bench 2.0の点数が高いからといって、すべてのバグ修正やPR品質で優位だとは言えません。CLIワークフローのうまさと、レビューでそのままマージできるパッチを作る力は重なる部分がありますが、同じ評価軸ではありません。
ブラウジングやツール呼び出しを含む評価では、結果は片方にきれいには寄りません。OpenAIのGPT-5.5紹介資料では、BrowseCompはGPT-5.5が84.4%、Claude Opus 4.7が79.3%でGPT-5.5が上回ります。一方、MCP AtlasではGPT-5.5が75.3%、Claude Opus 4.7が79.1%でClaude Opus 4.7が上回ります。
そのため、「ツールを使えるモデル」という広いくくりだけでは判断しにくいところがあります。検索やブラウジングが多い開発補助なのか、ローカルのターミナルを操作するエージェントなのか、既存コードベースを直すパッチ生成器なのかで、必要な能力は変わります。
まず、総合ランキングをそのままコーディング順位として読まないことです。BenchLMのoverall rankingではGPT-5.4が88点、Claude Opus 4.7が86点と表示されていますが、これはGPT-5.5ではなく、コーディング専用評価でもありません。
次に、SWE-bench Proの一点だけでコーディング全体を決めないことです。SWE-benchには複数の派生があり、ベンダーが自分に有利な指標を強調する可能性がある点は割り引いて読む必要があります。
最後に、ターミナル系ベンチマークをコード品質ベンチマークと同一視しないことです。Terminal-Bench 2.0は、コマンドライン上での計画、反復、ツール調整に近いシグナルです。レビュー担当者が安心してマージできるパッチをどれだけ作れるかは、別途確認する必要があります。
公開ベンチマークは候補を絞るには便利ですが、最終判断は自分たちのコードベースで行うのが現実的です。比較するときは、できるだけ条件をそろえます。
評価指標も、単なる正答率より開発現場に寄せたほうが役に立ちます。
一般的な開発チームの目的が、Issue解決、バグ修正、テスト通過、PRパッチ作成なら、まずClaude Opus 4.7を試すのが妥当です。公開されているSWE-bench Proのシグナルは、Claude Opus 4.7に有利に示されています。
逆に、目的がターミナルでのコマンド実行、ログ分析、ビルド・テストの反復、CLIツールの組み合わせなら、GPT-5.5を先に評価するのが自然です。Terminal-Bench 2.0では、GPT-5.5がClaude Opus 4.7より高い点数として報じられています。
つまり、コード修正型のコーディングはClaude Opus 4.7から、ターミナル自動化中心のエージェント型コーディングはGPT-5.5から始める。そして最終的には、同じリポジトリで、より安定してテストを通し、より少ない手直しでマージ可能なコードを出すモデルを選ぶのが堅実です。
Comments
0 comments