GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4-Proを比較するとき、最初に避けたいのは、出所も実行条件も違う数字をそのまま一つの順位表にしてしまうことです。公開情報を実務寄りに読むなら、コマンドラインやCLIエージェントはGPT-5.5、SWE-Bench系と視覚・computer-use系はClaude Opus 4.7、知識・数学やオープンモデル路線はDeepSeek V4-Pro、Cloudflare Workers AI上のマルチモーダルなエージェント処理はKimi K2.6を候補に入れる、という見方が現実的です。[27][
4][
1][
5][
64][
36]
まずは公開スコアの早見表
下の表は、今回のソースから引用できる数値だけを整理したものです。ダッシュは今回の資料に同じ項目の引用可能な数値がないという意味で、能力がないという意味ではありません。また、すべてが同じ公式ハーネス、同じツール権限、同じreasoning effortで測られたわけではないため、絶対的な総合ランキングではなく、初期選定の材料として見るべきです。
| 評価・タスク | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | 実務での読み方 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7 [ | 67.9 [ | 引用可能な範囲では、GPT-5.5がコマンドライン系ワークフローで最も強い。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6 [ | 55.4 [ | Claude Opus 4.7が首位。ただしClaudeの数値はAWSを引用した二次整理に基づく。 |
| SWE-Bench Verified / Resolved | — | 87.6% [ | 80.2 [ | 80.6 [ | Claudeが高いが、GPT-5.5の同列比較値がなく、名称も完全にはそろっていない。 |
| Graphwalks 256k:BFS / parents | 73.7 / 90.1 [ | 76.9 / 93.6 [ | — | — | OpenAIの長文コンテキスト表では、256kの2項目でClaude Opus 4.7がGPT-5.5を上回る。 |
| Graphwalks 1M:BFS / parents | 45.4 / 58.5 [ | — | — | — | GPT-5.5の100万トークン級コンテキスト性能を見る材料。同表の1M比較欄はOpus 4.6表記のため、Opus 4.7の判定には使いにくい。 |
| 知識・数学 | — | — | — | GPQA Diamond 90.1、GSM8K 92.6、MMLU-Pro 87.5、HLE 37.7 [ | DeepSeek V4-Proは、今回の資料で知識・数学系スコアが最もまとまっている。 |
| 視覚、スクリーンショット、computer use | — | vision-heavy workloadの改善、1:1ピクセル座標、XBOW視覚ベンチマーク98.5% [ | Cloudflareはnative multimodal agentic modelと説明。ただし同一視覚ベンチマークの数値はない [ | — | 視覚・UI操作の根拠はClaude Opus 4.7が最も直接的。 |
なぜ単純な総合順位にしないのか
理由は大きく3つあります。
第一に、数値の出所がそろっていません。GPT-5.5のTerminal-Bench 2.0とSWE-Bench Proは、OpenAI提供のベンチマーク結果をメディアが伝えたものです。Claude Opus 4.7のSWE-Bench Pro、SWE-Bench Verified、Terminal-Bench 2.0は、AWSを引用した二次整理に基づいています。Kimi K2.6とDeepSeek V4-Proの一部スコアはHugging Faceのmodel cardに載っています。[27][
4][
84][
64]
第二に、ツール利用の有無で順位が変わり得ます。Mashableが報じたHLEの数値では、ツールなしではClaude Opus 4.7が46.9%、GPT-5.4 Proが42.7%でした。一方、ツールありではGPT-5.4 Proが58.7%、Claude Opus 4.7が54.7%です。これはGPT-5.5のスコアではありませんが、with toolsとwithout toolsを同じ表で混ぜる危うさをよく示しています。[6]
第三に、バージョンやeffort設定、コスト設定も効きます。DeepSeek V4にはV4-ProとV4-Flashがあり、Yahoo FinanceはV4-Flashをより効率的で経済的な選択肢だと報じています。この記事で詳細な数値を使っているのは主にDeepSeek-V4-Proです。[57][
64] またArtificial AnalysisはGPT-5.5を複数のeffort variantに分けており、GPT-5.5 xhighは同社Indexの実行コストが前世代より約20%高く、Claude Opus 4.7 maxより約30%低いとしています。[
24]
GPT-5.5:CLIと長文コンテキストが目立つ
GPT-5.5の強みとして最もはっきり見えるのは、Terminal-Bench 2.0です。Yahoo Finance / Investing.comは、OpenAI提供のベンチマーク結果として、GPT-5.5がコマンドラインワークフローを測るTerminal-Bench 2.0で82.7%、GitHub issue resolutionを評価するSWE-Bench Proで58.6%を記録したと報じています。[27]
長文コンテキストでは、OpenAIの表がより細かい数字を出しています。GPT-5.5はGraphwalks BFSで256kが73.7、1Mが45.4、Graphwalks parentsで256kが90.1、1Mが58.5です。同じ表では、GPT-5.4のGraphwalks BFS 1Mが9.4であるのに対し、GPT-5.5は45.4でした。[21]
第三者評価では、Artificial AnalysisがGPT-5.5を新しいleading AI modelと位置づけ、OpenAIが同社の5つのheadline evaluationで首位、3項目でGemini 3.1 Pro Previewに次ぐ2位だったとしています。同記事は、GPT-5.5 xhighが同社Indexを実行する際、前世代より約40%少ないoutput tokensを使ったとも述べています。[24]
優先して試したい用途: CLI automation、terminal agent、長文コンテキスト検索、output tokenコストを抑えたいagentic coding workflow。[27][
21][
24]
Claude Opus 4.7:SWE-Bench系と視覚・UI操作の根拠が強い
Claude Opus 4.7は、公式情報で視覚とUI操作への言及が最も具体的です。AnthropicのAPIドキュメントは、この変更によりvision-heavy workloadsで性能向上が見込め、特にcomputer use、screenshot、artifact、document understandingのワークフローで重要だと説明しています。さらに、座標が実ピクセルと1:1で対応するため、画像への座標マッピングでscale factor計算が不要になるとも述べています。[1]
Anthropicのローンチページでは、XBOWの視覚ベンチマークとしてClaude Opus 4.7が98.5%、Opus 4.6が54.5%だったという結果も紹介されています。[5] そのため、スクリーンショット理解、文書レイアウト解析、デスクトップUI操作、computer-use agentでは、4モデルの中でもClaude Opus 4.7の根拠が最も直接的です。[
1][
5]
コーディング系では、ある整理記事がAWSの引用として、Claude Opus 4.7のSWE-Bench Proを64.3%、SWE-Bench Verifiedを87.6%、Terminal-Bench 2.0を69.4%としています。[4] 引用可能なSWE-Bench ProとVerified / Resolvedの対照ではClaudeが上位に見えますが、これは直接の公式ベンチマーク表より一段弱いソースです。本番採用前には、自社リポジトリや自社の失敗事例で再評価するべきです。
運用面の注意もあります。Anthropicは、高解像度画像はより多くのtokensを使うため、追加の画像精度が不要ならClaudeに送る前にダウンサンプリングしてtoken usageの増加を避けるべきだと説明しています。[1]
優先して試したい用途: GitHub issue修正、coding agent、スクリーンショットや文書の理解、computer-use agent、ピクセル単位のUI操作。[1][
4][
5]
Kimi K2.6:Workers AI上のagentic multimodal候補
Kimi K2.6は、Cloudflare上で使う場合に特に候補に入ります。Cloudflareのchangelogによると、Moonshot AI Kimi K2.6は2026年4月20日にWorkers AIで利用可能になり、model IDは@cf/moonshotai/kimi-k2.6です。Cloudflareは、Moonshot AIとの提携によるDay 0 supportだと説明しています。[36]
同じ情報源は、Kimi K2.6をnative multimodal agentic modelと呼び、long-horizon coding、coding-driven design、proactive autonomous execution、swarm-based task orchestrationを重視したモデルだと説明しています。アーキテクチャはMixture-of-Expertsで、総パラメータは1T、各tokenでactiveなパラメータは32Bとされています。[36]
公開スコアでは、Kimi K2.6のHugging Face model cardにTerminal-Bench 2.0が66.7、SWE-Bench Proが58.6、SWE-Bench Multilingualが76.7とあります。[84] MarkTechPostは、Kimi K2.6のSWE-Bench Verifiedを80.2と報じています。[
45]
優先して試したい用途: すでにCloudflare Workers AIを使っているチーム、long-horizon coding、coding-driven design、マルチモーダルエージェント、多エージェントのオーケストレーション。[36][
84]
DeepSeek V4-Pro:知識・数学スコアとオープンモデル路線が見やすい
DeepSeek V4は、今回の資料ではV4-ProとV4-Flashに分かれます。Yahoo Financeは、DeepSeekの説明として、V4-Proがworld knowledge benchmarksで他のopen-source modelsを大きく上回り、トップ級のクローズドモデルであるGemini-Pro-3.1にはわずかに及ばないと報じています。同じ記事では、V4-Flashはより効率的で経済的な選択肢だとされています。[57]
DeepSeek-V4-ProのHugging Face model cardには、今回の記事で最もまとまった知識・数学・コーディング・ターミナル系の評価値が掲載されています。具体的には、GPQA Diamond 90.1、GSM8K 92.6、HLE 37.7、MMLU-Pro 87.5、SWE-Bench Pro 55.4、SWE-Bench Verified / Resolved 80.6、TerminalBench 2.0 67.9です。[64]
CNBCは、DeepSeekがV4をClaude CodeやOpenClawなどのエージェントツール向けに最適化したと報じています。またCounterpointのprincipal AI analystであるWei Sunは、V4のbenchmark profileは、かなり低いコストで優れたagent capabilityを提供し得ることを示していると見ています。[58]
優先して試したい用途: オープンモデル路線を重視する評価、知識・数学ベンチマーク、agent toolingの費用対効果、ローカルまたは自社管理環境でのモデル評価。[58][
64]
用途別のショートリスト
- Terminal automation / command-line agent:まずGPT-5.5。 引用可能な資料では、GPT-5.5のTerminal-Bench 2.0は82.7%で、Claude Opus 4.7の69.4%、DeepSeek V4-Proの67.9、Kimi K2.6の66.7を上回ります。[
27][
4][
64][
84]
- Software engineering repair / SWE-Bench Pro系:まずClaude Opus 4.7。ただし自社リポジトリで再評価。 引用可能なスコアではClaude Opus 4.7が64.3%、GPT-5.5とKimi K2.6が58.6、DeepSeek V4-Proが55.4です。ただしClaudeの数値は二次整理に基づきます。[
4][
27][
84][
64]
- スクリーンショット、文書理解、computer use:Claude Opus 4.7を優先。 Anthropicのドキュメントはvision-heavy workflows、computer use、1:1 pixel coordinatesに直接言及しており、ローンチページもXBOWの98.5%という視覚ベンチマーク結果を紹介しています。[
1][
5]
- 知識・数学、オープンモデル評価:DeepSeek V4-Proを候補に入れる。 Hugging Face model cardがGPQA Diamond、GSM8K、HLE、MMLU-Pro、SWE-Bench、TerminalBench 2.0などをまとめて示しています。[
64]
- Workers AI上のmultimodal agentic workflow:Kimi K2.6を試す価値がある。 CloudflareはKimi K2.6をWorkers AIでDay 0 supportとして提供し、long-horizon codingやswarm-based task orchestration向けのnative multimodal agentic modelと位置づけています。[
36]
採用前にそろえるべき評価条件
社内で説明可能な結論を出すには、同じモデルバージョンまたはAPI model ID、同じコンテキスト長、同じツール権限、同じreasoning effort、同じtemperature、同じtoken budget、同じscoring harnessで再実行する必要があります。特にツール権限は混ぜるべきではありません。HLEの報道が示すように、with toolsとwithout toolsでは相対結果が変わり得ます。[6]
コストも能力と同時に測るべきです。Artificial Analysisは、GPT-5.5 xhighのIndex実行コストが前世代より約20%高く、Claude Opus 4.7 maxより約30%低く、output tokensは前世代より約40%少ないと報じています。[24] 一方でAnthropicは、高解像度画像はより多くのtokensを使うと注意しています。[
1] 本番のエージェント運用では、単一ベンチマークの点数だけでなく、速度、token使用量、ツール呼び出し成功率、エラー修復率も同じくらい重要です。
結論:総合優勝ではなく、用途で選ぶ
現時点で最も信頼しやすい比較は、単一の総合ランキングではありません。Terminal-Benchを見るならGPT-5.5、SWE-Benchと視覚・computer-useを見るならClaude Opus 4.7、知識・数学の公開model cardを見るならDeepSeek V4-Pro、Workers AI上のマルチモーダルなagentic codingではKimi K2.6を候補に入れる、という用途別の整理が妥当です。[27][
4][
1][
5][
64][
36]
4モデルが同じハーネス、同じツール設定、同じバージョン条件で一通り評価されるまでは、きれいな総合順位表よりも、自社タスクでの再現テストを重視したほうがよいでしょう。




