4つの最新LLMを横並びで比べるとき、最初に見るべきなのは「どのモデルが強いか」ではなく、「その数字はどこから来たのか」です。GPT-5.5については、OpenAIがTerminal-Bench 2.0とSWE-Bench Proの具体的な数値を公表しています[24]。一方、DeepSeek V4について公式に確認できる主な情報は、V4-ProとV4-FlashがDeepSeek APIで利用可能になったという点です[
25]。
Claude Opus 4.7やKimi K2.6を含む直接比較は、今回の範囲では主に第三者分析に依存します[4][
6]。つまり、この記事の結論は「勝者をひとつ決める」よりも、「用途別にどれを最初に試すべきか」を整理するものです。
まず結論:用途別の有力候補
- コード修正やGitHub Issue対応:引用されているSWE-Bench系、CursorBench系の数値では、Claude Opus 4.7がGPT-5.5より強く見える[
4]。
- ターミナル操作を伴うエージェント:GPT-5.5が最も根拠を確認しやすい。OpenAIはTerminal-Bench 2.0で82.7%と公表している[
24]。
- コスト重視のコーディングエージェント:Kimi K2.6は、CodeRouterにより100万トークンあたり入力0.60ドル、出力4.00ドルのコスト品質候補として説明されている[
6]。
- DeepSeek V4:V4-ProとV4-Flashは公式にAPI提供されているが、今回のソース範囲では4モデルを同条件で並べた公式ベンチマーク表は確認できない[
25]。
数字の読み方:公式値と第三者データを混ぜない
OpenAIはTerminal-Bench 2.0を、計画、反復、ツール連携を必要とする複雑なコマンドライン作業を測るベンチマークとして説明し、GPT-5.5が82.7%を達成したとしている[24]。また、実際のGitHub Issue解決を評価するSWE-Bench Proでは、GPT-5.5が58.6%とされている[
24]。
DeepSeekの公式変更履歴では、DeepSeek APIがV4-ProとV4-Flashをサポートし、OpenAI ChatCompletions互換インターフェースとAnthropic互換インターフェースの両方から使えることが示されている。モデル指定はdeepseek-v4-proとdeepseek-v4-flashだ[25]。これは「使える」ことの根拠にはなるが、「どのベンチマークで勝つか」の根拠にはならない。
Claude Opus 4.7とKimi K2.6については、ここで使える直接比較の多くがLushBinaryやCodeRouterなどの第三者ソースに基づく[4][
6]。判断材料としては有用だが、公式発表値と同じ重みで扱うべきではない。
比較表:確認できる範囲のベンチマーク
「確認できず」は、今回のソース範囲では同条件で比較できる十分な数値が見つからないことを意味します。
| ベンチマーク / 観点 | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | 確認できず | CodeRouterはGPT-5.5相当と記載[ | 64.3%[ | 58.6%[ |
| SWE-Bench Verified | 確認できず | 確認できず | 87.6%[ | 約85%[ |
| Terminal-Bench 2.0 | 確認できず | 確認できず | 約72%[ | 82.7%[ |
| GDPval / Knowledge Work | 確認できず | 確認できず | 約78%[ | 84.9%[ |
| OSWorld-Verified / Computer Use | 確認できず | 確認できず | 約65%[ | 78.7%[ |
| GPQA Diamond | 確認できず | 確認できず | 94.2%[ | 約93%[ |
| CursorBench | 確認できず | 確認できず | 70%[ | 約65%[ |
| Tau2-bench Telecom | 確認できず | 確認できず | 約90%[ | 98.0%[ |
| Vision & Document Arena | 確認できず | 確認できず | Arena報告で1位[ | 確認できず |
| 価格・コンテキストの目安 | V4 Flashは入力0.14ドル、出力0.28ドル / 100万トークン、1Mコンテキスト[ | 入力0.60ドル、出力4.00ドル / 100万トークン[ | 確認できず | 確認できず |
コーディング:Claude Opus 4.7が優勢に見える
コード修正、リポジトリ理解、GitHub Issue対応のような用途では、今回引用できる数字だけを見るとClaude Opus 4.7が最も強く見える。LushBinaryはSWE-Bench ProでClaude Opus 4.7を64.3%、GPT-5.5を58.6%としており、GPT-5.5の58.6%はOpenAI自身の公表値とも一致する[4][
24]。SWE-Bench VerifiedとCursorBenchでも、同じ第三者ソースではClaude Opus 4.7がGPT-5.5を上回る[
4]。
ただし、Kimi K2.6も無視しにくい。CodeRouterはKimi K2.6をSWE-Bench ProでGPT-5.5相当と位置づけ、同時に低いトークン単価を示している[6]。大量の試行、下書き生成、リトライを前提にする開発チームなら、最終精度だけでなく「受け入れ可能な成果1件あたりのコスト」で見る価値がある。
DeepSeek V4については、公式情報からコーディングベンチマークの勝敗までは読み取れない。確認できるのは、V4-ProとV4-FlashがAPIで利用可能という点だ[25]。
ターミナル型エージェント:GPT-5.5の根拠が最も明確
シェルコマンド、ファイル操作、ツール連携を含むエージェント用途では、GPT-5.5が最も根拠を追いやすい。OpenAIはTerminal-Bench 2.0で82.7%と公表し、このベンチマークを複雑なコマンドラインワークフローのテストとして説明している[24]。LushBinaryは同じベンチマークでClaude Opus 4.7を約72%としている[
4]。
第三者データでは、Knowledge Work系のGDPvalでGPT-5.5が84.9%、Claude Opus 4.7が約78%、Computer Use系のOSWorld-VerifiedでGPT-5.5が78.7%、Claude Opus 4.7が約65%とされている[4]。GUIに近い操作やツールオーケストレーションを含む業務では、まずGPT-5.5から検証するのが自然だ。
Visionと文書処理:Claude Opus 4.7に強いシグナル
画像、文書、OCR、図表読み取りのようなマルチモーダル用途では、4モデルを同条件で並べた表は今回のソース範囲では見当たらない。比較材料として最も強いのは、Latent Space / AINewsが引用したArena報告で、Claude Opus 4.7がVision & Document Arenaで1位とされている点だ[1]。
LLM Statsはさらに、Claude Opus 4.7が長辺2,576ピクセル、約3.75メガピクセルまでの画像を扱えると説明し、GPT-5.5については画像入力対応とMMMU-Proでツールなし81.2%、ツールあり83.2%という値を挙げている[5]。これはClaudeとGPT-5.5を考える材料にはなるが、Kimi K2.6やDeepSeek V4を含む完全な4者比較ではない。
価格性能:Kimi K2.6とDeepSeek V4 Flashは自社評価に入れたい
コスト面で最も分かりやすい候補はKimi K2.6だ。CodeRouterはKimi K2.6をコスト品質の勝者として説明し、100万トークンあたり入力0.60ドル、出力4.00ドルという価格を挙げている[6]。
同じくCodeRouterは、DeepSeek V4 Flashを低コストのワークホース候補として、100万トークンあたり入力0.14ドル、出力0.28ドル、1Mコンテキストと記載している[6]。DeepSeek公式ドキュメントも、V4-ProとV4-Flashが現行APIで利用可能であることを確認している[
25]。
ただし、安いこととベンチマークで勝つことは別問題だ。実運用では、失敗による手戻り、再実行回数、レビュー時間まで含めて評価しなければならない。
4モデルを公平に試すなら
公開ベンチマークだけで導入モデルを決めるのは危険です。実際のコードベース、社内文書、顧客対応フロー、エージェント作業から小さな評価セットを作り、同じプロンプト、同じ制約、同じ採点基準で比較するのが現実的です。
見るべき指標は、初回回答の見栄えだけではありません。受け入れ可能な成果1件あたりのコスト、リトライ回数、重大な誤りの頻度、実行時間、レビュー担当者の負荷まで測るべきです。特にCoding Agentでは、ベンチマーク上の数%差よりも、失敗時にどれだけ安全に止まれるかが重要になる場合があります。
まとめ
今回の比較では、全分野で勝つ万能モデルは確認できない。Claude Opus 4.7はコーディング系ベンチマークで強く見え、GPT-5.5はターミナル型エージェントやComputer Useで最も根拠が明確だ。Kimi K2.6は価格性能の候補として目立ち、DeepSeek V4はAPIで使えるモデルとして自社評価に入れるべき段階にある[4][
24][
6][
25]。




