公開ベンチマークだけを見ると、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を単純な「最強ランキング」に並べるのは難しい状況です。GPT-5.5とClaude Opus 4.7は同じ表で比較できる公開値が比較的多い一方、Kimi K2.6はモデルカードや別ハーネスの値が混ざり、DeepSeek V4は主要コーディングベンチマークで共通の公開値が十分ではありません [1][
2][
5][
6]。
そのため、見るべきポイントは「どのモデルが総合1位か」ではなく、「自分の作業ではどのモデルから検証するか」です。
先に結論:用途ごとの有力候補
- ターミナル型エージェントコーディング:まずGPT-5.5を試す価値があります。OpenAIはGPT-5.5がTerminal-Bench 2.0で82.7%を記録したと説明しており、公開比較ではClaude Opus 4.7が69.4%、Kimi K2.6が66.7%です [
19][
8][
13][
6]。
- 実際のGitHub issue解決・コード修正:Claude Opus 4.7が有力な第一候補です。公開資料ではSWE-Bench Pro 64.3%、SWE-Bench Verified 87.6%が報告され、GPT-5.5のSWE-Bench Pro 58.6%を上回ります [
27][
19]。
- 長いマルチモーダル入力:Kimi K2.6を候補に入れられます。Kimi K2.6はテキスト、画像、動画入力と256kコンテキスト対応ルートをサポートすると紹介されています [
7]。
- コスト重視の大量API呼び出し:DeepSeek V4が価格面で目立ちます。Mashableが整理したAPI価格では、100万トークンあたりDeepSeek V4は入力1.74米ドル・出力3.48米ドル、GPT-5.5は入力5米ドル・出力30米ドル、Claude Opus 4.7は入力5米ドル・出力25米ドルです [
3]。
主要ベンチマーク早見表
下の表の「—」は、提供された公開情報の範囲で同じベンチマークに直接対応する値を確認しにくい、という意味です。そのモデルがその作業をできないという意味ではありません。
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | 読み方 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7% [ | — | ターミナルやコマンドライン中心のワークフローでは、GPT-5.5の公開値が最も高いです。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | — | 実際のGitHub issueに近いコード修正では、Claude Opus 4.7が上回ります。 |
| SWE-Bench Verified | — | 87.6% [ | 80.2% [ | — | 提供情報の範囲ではClaude Opus 4.7とKimi K2.6の値が確認できます。 |
| GPQA Diamond | 93.6% [ | 94.2% [ | — | — | GPT-5.5とClaude Opus 4.7は非常に近く、公開値ではClaudeがわずかに上です。 |
| HLE with tools | 52.2% [ | 54.7% [ | 54.0% [ | — | ClaudeとKimiの値が高いものの、Kimiは評価条件が別の可能性があります [ |
| BrowseComp | 84.4% [ | 79.3% [ | — | — | ブラウジングやWeb探索型の評価では、GPT-5.5の公開値が上です。 |
| OSWorld-Verified | 78.7% [ | 78.0% [ | — | — | GPT-5.5とClaude Opus 4.7の差は小さいです。 |
| MCP Atlas | 75.3% [ | 79.1% [ | — | — | MCPやツール連携型の評価では、Claude Opus 4.7が上回ります。 |
GPT-5.5:長いターミナル作業の自動化に強い候補
OpenAIは、GPT-5.5がTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を記録したと発表しています [19]。同社の説明では、Terminal-Bench 2.0は計画、反復、ツール調整を必要とする複雑なコマンドラインワークフローを評価し、SWE-Bench Proは現実のGitHub issue解決能力を見るベンチマークです [
19]。
このためGPT-5.5は、サンドボックス内での実行、シェルコマンドの反復、CIの再現、ファイル生成・修正のように、長めのターミナルセッションを伴うワークロードで先に試しやすいモデルです。ただし、SWE-Bench ProではClaude Opus 4.7の64.3%がGPT-5.5の58.6%を上回っており、すべてのコーディング作業でGPT-5.5が優位とは言えません [19][
27]。
Claude Opus 4.7:コード修正とレビュー型タスクで有力
Claude Opus 4.7は、SWE-Bench Proで64.3%、SWE-Bench Verifiedで87.6%と報告されています [27]。DataCampは、Opus 4.7がコーディング、推論、ツール使用、コンピューター使用、視覚推論を含む14のベンチマークで評価されたとまとめています [
27]。
GPT-5.5との共通比較では、Claude Opus 4.7はGPQA Diamondで94.2%対93.6%、MCP Atlasで79.1%対75.3%と上回ります [8][
13]。一方、Terminal-Bench 2.0とBrowseCompではGPT-5.5のほうが高い公開値を示します [
8][
13][
19]。つまりClaude Opus 4.7は、ターミナル自動化全般の絶対的な勝者というより、実際のissue解決、コード修正、レビュー型作業で最初に検証したいモデルと見るのが自然です。
Kimi K2.6:長いマルチモーダル入力は魅力、ただし評価条件に注意
Kimi K2.6は、SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%と紹介されており、別のガイドではTerminal-Bench 2.0 66.7%、HLE with tools 54.0%も示されています [1][
6]。ただし、そのガイドはK2.6の数値についてMoonshot AIの公式モデルカードを出典とし、SWE-Bench ProにはMoonshotのin-house harnessという注記を付けています [
6]。
そのため、Kimi K2.6のSWE-Bench Pro 58.6%がGPT-5.5の58.6%と数字上は同じでも、完全に同じ評価ハーネスでの同率と断定するのは避けるべきです [1][
6][
19]。一方で、Kimi K2.6はテキスト、画像、動画入力と256kコンテキスト対応ルートをサポートすると紹介されているため、長いマルチモーダル入力が重要なプロダクトでは別枠で試す価値があります [
7]。
DeepSeek V4:価格は強いが、精度検証が前提
DeepSeek V4については、この比較表にあるTerminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamondなどへ直接入れられる共通の公開値が、提供情報の範囲では十分ではありません。代わりにArtificial Analysisは、DeepSeek V4 Pro MaxがAA-Omniscienceで-10を記録し、V3.2から11ポイント改善したこと、V4 Flash Maxは-23だったことを説明しています [2]。同じ出典は、V4 ProとV4 Flashのハルシネーション率をそれぞれ94%、96%と報告し、知らない場合でもほぼ常に答えてしまう傾向があると解釈しています [
2]。
一方で、構造と価格には検討材料があります。DataCampは、DeepSeek V4がMixture of Experts構造を採用し、Proモデルは総パラメーター1.6兆のうち490億がアクティブ、Flashモデルは総パラメーター2,840億のうち130億がアクティブだと説明しています [4]。また、Mashableが整理したAPI価格では、DeepSeek V4はGPT-5.5やClaude Opus 4.7より低価格です [
3]。
したがってDeepSeek V4は、コスト感度の高い大量処理、内部検証をかけられるワークフロー、低価格なAPI運用の候補になり得ます。ただし、高いハルシネーション率の報告と共通ベンチマークの空白を合わせて見ると、正確性が重要なプロダクトでは独自評価、後処理、失敗検知を前提にすべきです [2][
3][
4]。
導入前のテスト順ガイド
| 使い方 | まず試すモデル | 根拠 |
|---|---|---|
| 長時間のターミナル自動化、シェルベースのエージェント、CI再現 | GPT-5.5 | Terminal-Bench 2.0でGPT-5.5 82.7%、Claude Opus 4.7 69.4%、Kimi K2.6 66.7%が公開されています [ |
| 実際のGitHub issue解決、コード修正、SWE-Bench型タスク | Claude Opus 4.7 | Claude Opus 4.7はSWE-Bench Pro 64.3%、SWE-Bench Verified 87.6%と報告されています [ |
| ブラウジング・Web探索型タスク | GPT-5.5 | BrowseCompでGPT-5.5 84.4%、Claude Opus 4.7 79.3%が報告されています [ |
| MCP・ツール連携型タスク | Claude Opus 4.7 | MCP AtlasでClaude Opus 4.7 79.1%、GPT-5.5 75.3%が報告されています [ |
| 長いマルチモーダルコンテキスト | Kimi K2.6 | Kimi K2.6はテキスト、画像、動画入力と256kコンテキスト対応ルートをサポートすると紹介されています [ |
| コスト重視の大量API呼び出し | DeepSeek V4 | Mashable基準ではDeepSeek V4のトークン価格がGPT-5.5やClaude Opus 4.7より低い一方、Artificial Analysisの高いハルシネーション率報告も併せて確認が必要です [ |
なぜ総合1位を決めにくいのか
第一に、4モデルを同じプロンプト、同じツールアクセス、同じ推論予算、同じ採点器で評価した独立比較が、提供情報の範囲では十分ではありません。GPT-5.5とClaude Opus 4.7は共通比較が比較的多いものの、Kimi K2.6はモデルカードやin-house harnessの値が混在し、DeepSeek V4は共通ベンチマークの行が空きがちです [1][
2][
5][
6]。
第二に、同じベンチマーク名でも実行条件が変わることがあります。ある集計資料は、GPT-5.5とClaude Opus 4.7の公開スコアは形として比較可能でも、方法論まで同一とは限らないと説明しています [5]。AnthropicもTerminal-Bench 2.0評価でTerminus-2ハーネスと特定のリソース条件を使ったと明記しています [
31]。
第三に、ベンチマークスコアはプロダクト品質の一部にすぎません。実際の導入では、正答率だけでなく、失敗の仕方、ハルシネーション率、遅延、コスト、ツール呼び出しの安定性、セキュリティポリシー、ログの再現性まで見る必要があります。ExplainXも、ベンチマーク定義、プロンプト、ツールポリシーによってスコアは動くため、自社の評価ハーネスの代替にはならないと指摘しています [28]。
最終判断
現時点の公開根拠だけで見るなら、ターミナル型エージェントコーディングはGPT-5.5、SWE-Bench系のコード修正はClaude Opus 4.7、長いマルチモーダルコンテキストはKimi K2.6、コスト重視の大量呼び出しはDeepSeek V4から検証するのが合理的です [19][
27][
7][
3]。
ただし、4モデルの総合勝者は保留するのが安全です。公開スコアは、プロンプト、ツールアクセス、推論設定、評価ハーネスによって変わり得るためです [5][
28][
31]。




