レポート公開済み3 か月前Last edited 2 か月前19 ソース

GPT-5.5 vs Claude Opus 4.7、DeepSeek V4、Kimi K2.6：ベンチマークの慎重な読み方

4モデルを一列に並べた信頼できる総合ランキングは、少なくとも提供資料の範囲では作りにくい。GPT 5.5はARC AGIでClaude Opus 4.7を上回り、ClaudeはMCP AtlasでGPT 5.5を上回る [6] [14]。エージェント型コーディングでは、GPT 5.5のTerminal Bench 2.0で82.7％という数値が最も使いやすい手掛かり。ただし、他3モデルの同一条件スコアがそろっていないため、全面勝利とは言えない [15]。

Studio Global AIで検索して事実確認さらにトレンドページを見る

Illustration comparant les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 — GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarksComparaison prudente des scores disponibles : ARC-AGI, MCP-Atlas, coding agentique et signaux open-weights.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarks. Article summary: Il n’y a pas de classement global fiable des quatre modèles dans les sources disponibles : GPT 5.5 mène face à Claude Opus 4.7 sur ARC AGI avec 95,0 % et 85,0 % contre 93,5 % et 75,8 %, Claude mène sur MCP Atlas avec.... Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.you
openai.com

ベンチマーク表を見ると、つい「結局どれが一番強いのか」と聞きたくなります。ですが、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6については、単純な順位表にするよりも、用途別に読むほうが安全です。

同じ条件で比較しやすい数字があるのは、主にGPT-5.5とClaude Opus 4.7の一部ベンチマークです。一方、DeepSeek V4とKimi K2.6は、オープンウェイト領域での存在感を示す情報はあるものの、ARC-AGI、MCP-Atlas、Terminal-Bench 2.0のような同一指標で4モデルを横並びにする材料は不足しています。

比較できる数字だけを見る

領域・ベンチマーク	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	慎重な読み方
ARC-AGI-1 Verified	95.0％	93.5％	提供資料内に同一条件のスコアなし	提供資料内に同一条件のスコアなし	OpenAIの表では、GPT-5.5がClaude Opus 4.7を1.5ポイント上回る。
ARC-AGI-2 Verified	85.0％	75.8％	提供資料内に同一条件のスコアなし	提供資料内に同一条件のスコアなし	ARC-AGI-2では差が大きい。ただし、OpenAIの評価条件を前提に読む必要がある。
MCP-Atlas	75.3％	79.1％	提供資料内に同一条件のスコアなし	提供資料内に同一条件のスコアなし	ツール連携・オーケストレーションのこの指標では、Claude Opus 4.7がGPT-5.5を上回る。
Terminal-Bench 2.0／エージェント型コーディング	82.7％と報告	提供資料内に同一条件のスコアなし	提供資料内に同一条件のスコアなし	提供資料内に同一条件のスコアなし	GPT-5.5に強いシグナルはあるが、4モデルの完全な順位表ではない。
オープンウェイト関連指標	ここでは直接比較しない	ここでは直接比較しない	DeepSeek V4 Pro MaxはArtificial Analysis Intelligence Indexで52、V3.2の42から上昇と報告	Artificial AnalysisにKimi K2.6: The new leading open weights modelという分析が掲載されている	オープンウェイト領域の重要なシグナルではあるが、上のベンチマークと同じ比較軸ではない。
安全性・サイバーセキュリティ	CoT-Controlは1万3000件超のタスクで構成。別の二次情報ではサイバーレンジ93％、一方で6時間のレッドチーミングでユニバーサル・ジェイルブレイクが見つかったとも報告	提供資料内に同一条件のスコアなし	提供資料内に同一条件のスコアなし	提供資料内に同一条件のスコアなし	能力評価と安全性評価は別物。ここから4モデルの安全性ランキングは作れない。

表の空欄は、DeepSeek V4やKimi K2.6が弱いという意味ではありません。あくまで、ここで参照できる資料では、同じベンチマーク、同じ設定、同じ粒度で比較できる数値がそろっていない、という意味です。

ARC-AGI：抽象推論ではGPT-5.5が優勢

抽象推論系のARC-AGIでは、OpenAIの公開表においてGPT-5.5がClaude Opus 4.7を上回っています。ARC-AGI-1 VerifiedではGPT-5.5が95.0％、Claude Opus 4.7が93.5％。ARC-AGI-2 VerifiedではGPT-5.5が85.0％、Claude Opus 4.7が75.8％です。

ただし、これは「GPT-5.5があらゆる用途でClaudeより上」という意味ではありません。OpenAIは、この表のGPT評価が推論努力を“xhigh”に設定し、研究環境で実行されたものであり、本番のChatGPTとは出力が多少異なる可能性があると説明しています。

つまり、ARC-AGIという抽象推論の物差しではGPT-5.5が優勢。ただし、そのまま実運用のすべてに一般化するのは早計です。

MCP-Atlas：ツールをつなぐエージェントではClaudeが強い

Claude Opus 4.7に有利な数字として目立つのがMCP-Atlasです。二次分析では、Claude Opus 4.7が79.1％、GPT-5.5が75.3％と報告されています。この差は、Model Context Protocolを使う複雑なツール呼び出しや、複数ステップのワークフローにおける信頼性と関連づけて説明されています。

AIエージェントを単体のチャットボットではなく、外部ツール、社内システム、検索、コード実行などを組み合わせる「作業者」として設計する場合、この指標は重く見たほうがよいでしょう。純粋な推論スコアより、ツールを正しく呼び、途中で崩れずに処理をつなげる力のほうが製品価値に直結する場面があるからです。

Terminal-Bench 2.0：コーディングはGPT-5.5に強い手掛かり

エージェント型コーディングでは、GPT-5.5がTerminal-Bench 2.0で82.7％と報告されています。ターミナル操作やコード修正を含む作業をAIに任せる文脈では、これは重要なシグナルです。

ただし、この数字だけで「GPT-5.5がClaude Opus 4.7、DeepSeek V4、Kimi K2.6をすべて上回る」とは言えません。提供資料の範囲では、同じTerminal-Bench 2.0で4モデルをそろえて比較できるスコアがありません。結論としては、GPT-5.5には最も明確な数値シグナルがあるが、完全な勝敗表ではない、という読み方になります。

DeepSeek V4とKimi K2.6：オープンウェイトは別軸で見る

DeepSeek V4とKimi K2.6は、プロプライエタリなGPT-5.5やClaude Opus 4.7とは違い、オープンウェイト領域の候補として注目されています。ただし、今回の資料だけでは、ARC-AGI、MCP-Atlas、Terminal-Bench 2.0で4モデルを厳密に比較することはできません。

DeepSeekについては、Artificial AnalysisがDeepSeek V4の登場によってDeepSeekが主要なオープンウェイトモデル群に戻ってきたと位置づけています。また、DeepSeek V4 Pro MaxはArtificial Analysis Intelligence Indexで52を記録し、V3.2の42から上昇したと報告されています。

Kimi K2.6については、Artificial AnalysisにKimi K2.6: The new leading open weights modelという分析が掲載されています。これは強い位置づけを示す材料ですが、GPT-5.5やClaude Opus 4.7と同じベンチマークで直接比較できる数値が、提供資料内に十分あるわけではありません。

安全性：能力スコアと信頼性を混同しない

GPT-5.5のsystem cardでは、CoT-Controlが1万3000件超のタスクからなる評価スイートとして説明されています。これらのタスクはGPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどの既存ベンチマークをもとに構成されています。

この情報は、推論過程の制御可能性を評価する文脈では重要です。しかし、これだけでGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の安全性を順位づけることはできません。

さらに、別の二次情報ではGPT-5.5についてサイバーレンジで93％の成功率が報告される一方、6時間のレッドチーミングでユニバーサル・ジェイルブレイクが見つかったともされています。高いサイバー能力は、必ずしも高い安全性を意味しません。この2つは分けて読む必要があります。

外部の批判的な見方として、GPT-5.5の安全性評価はOpenAI自身の説明に大きく依存しており、公開情報だけでは安全性を十分に判断しにくい、という指摘もあります。

用途別に選ぶなら

抽象推論を重視する場合：公開されているARC-AGIの数字では、GPT-5.5がClaude Opus 4.7を上回ります。ただし、“xhigh”推論努力かつ研究環境での評価という条件を忘れるべきではありません。
複数ツールを使うAIエージェントを作る場合：MCP-AtlasではClaude Opus 4.7が79.1％、GPT-5.5が75.3％で、Claude側に有利な結果です。
ターミナル操作やコード修正を任せたい場合：GPT-5.5のTerminal-Bench 2.0で82.7％という数値が最も明確な材料です。ただし、他モデルとの同一条件比較は不完全です。
オープンウェイトを重視する場合：DeepSeek V4とKimi K2.6は検討に値します。ただし、提供資料の範囲では、GPT-5.5やClaude Opus 4.7と同じ土俵で結論を出すだけの共通スコアはありません。
安全性が重要な用途の場合：能力ベンチマーク、サイバー能力、安全性評価は分けて見るべきです。GPT-5.5についても、強い能力シグナルとジェイルブレイク・評価独立性への懸念は同時に存在します。

言い切ってはいけないこと

GPT-5.5がARC-AGIでClaude Opus 4.7を上回っているからといって、GPT-5.5が万能の最強モデルだとは言えません。逆に、Claude Opus 4.7がMCP-Atlasで勝っているからといって、Claudeが全領域で上という結論にもなりません。

また、DeepSeek V4とKimi K2.6をGPT-5.5やClaude Opus 4.7と並べて総合順位に入れるには、共通ベンチマークが足りません。Artificial Analysis上の情報は、DeepSeek V4とKimi K2.6がオープンウェイト領域で重要な候補であることを示しますが、それだけで全体ランキングは作れません。

結論

最も正直なまとめはこうです。GPT-5.5は、公開されているARC-AGIではClaude Opus 4.7を上回り、エージェント型コーディングでもTerminal-Bench 2.0の82.7％という強い数値シグナルがあります。Claude Opus 4.7は、MCP-AtlasでGPT-5.5を上回っており、ツール連携型エージェントでは有力です。DeepSeek V4とKimi K2.6はオープンウェイト領域の重要候補ですが、今回の資料だけでは2つのプロプライエタリモデルと厳密に順位づけることはできません。

実際の導入判断では、公開ベンチマークを出発点にしつつ、自社のタスクで検証するのが現実的です。見るべき軸は、推論、ツール呼び出し、コード作業、遅延、コスト、デプロイ制約、そして許容できるリスク水準です。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます