| 93.5% |
| 提供資料内に同一条件のスコアなし |
| 提供資料内に同一条件のスコアなし |
| OpenAIの表では、GPT-5.5がClaude Opus 4.7を1.5ポイント上回る |
| ARC-AGI-2 Verified | 85.0% | 75.8% | 提供資料内に同一条件のスコアなし | 提供資料内に同一条件のスコアなし | ARC-AGI-2では差が大きい。ただし、OpenAIの評価条件を前提に読む必要がある |
| MCP-Atlas | 75.3% | 79.1% | 提供資料内に同一条件のスコアなし | 提供資料内に同一条件のスコアなし | ツール連携・オーケストレーションのこの指標では、Claude Opus 4.7がGPT-5.5を上回る |
| Terminal-Bench 2.0/エージェント型コーディング | 82.7%と報告 | 提供資料内に同一条件のスコアなし | 提供資料内に同一条件のスコアなし | 提供資料内に同一条件のスコアなし | GPT-5.5に強いシグナルはあるが、4モデルの完全な順位表ではない |
| 安全性・サイバーセキュリティ | CoT-Controlは1万3000件超のタスクで構成。別の二次情報ではサイバーレンジ93%、一方で6時間のレッドチーミングでユニバーサル・ジェイルブレイクが見つかったとも報告 | 提供資料内に同一条件のスコアなし | 提供資料内に同一条件のスコアなし | 提供資料内に同一条件のスコアなし | 能力評価と安全性評価は別物。ここから4モデルの安全性ランキングは作れない |
表の空欄は、DeepSeek V4やKimi K2.6が弱いという意味ではありません。あくまで、ここで参照できる資料では、同じベンチマーク、同じ設定、同じ粒度で比較できる数値がそろっていない、という意味です
。
抽象推論系のARC-AGIでは、OpenAIの公開表においてGPT-5.5がClaude Opus 4.7を上回っています。ARC-AGI-1 VerifiedではGPT-5.5が95.0%、Claude Opus 4.7が93.5%。ARC-AGI-2 VerifiedではGPT-5.5が85.0%、Claude Opus 4.7が75.8%です 。
ただし、これは「GPT-5.5があらゆる用途でClaudeより上」という意味ではありません。OpenAIは、この表のGPT評価が推論努力を“xhigh”に設定し、研究環境で実行されたものであり、本番のChatGPTとは出力が多少異なる可能性があると説明しています 。
つまり、ARC-AGIという抽象推論の物差しではGPT-5.5が優勢。ただし、そのまま実運用のすべてに一般化するのは早計です。
Claude Opus 4.7に有利な数字として目立つのがMCP-Atlasです。二次分析では、Claude Opus 4.7が79.1%、GPT-5.5が75.3%と報告されています。この差は、Model Context Protocolを使う複雑なツール呼び出しや、複数ステップのワークフローにおける信頼性と関連づけて説明されています 。
AIエージェントを単体のチャットボットではなく、外部ツール、社内システム、検索、コード実行などを組み合わせる「作業者」として設計する場合、この指標は重く見たほうがよいでしょう。純粋な推論スコアより、ツールを正しく呼び、途中で崩れずに処理をつなげる力のほうが製品価値に直結する場面があるからです。
エージェント型コーディングでは、GPT-5.5がTerminal-Bench 2.0で82.7%と報告されています 。ターミナル操作やコード修正を含む作業をAIに任せる文脈では、これは重要なシグナルです。
ただし、この数字だけで「GPT-5.5がClaude Opus 4.7、DeepSeek V4、Kimi K2.6をすべて上回る」とは言えません。提供資料の範囲では、同じTerminal-Bench 2.0で4モデルをそろえて比較できるスコアがありません。結論としては、GPT-5.5には最も明確な数値シグナルがあるが、完全な勝敗表ではない、という読み方になります 。
DeepSeek V4とKimi K2.6は、プロプライエタリなGPT-5.5やClaude Opus 4.7とは違い、オープンウェイト領域の候補として注目されています。ただし、今回の資料だけでは、ARC-AGI、MCP-Atlas、Terminal-Bench 2.0で4モデルを厳密に比較することはできません
。
DeepSeekについては、Artificial AnalysisがDeepSeek V4の登場によってDeepSeekが主要なオープンウェイトモデル群に戻ってきたと位置づけています 。また、DeepSeek V4 Pro MaxはArtificial Analysis Intelligence Indexで52を記録し、V3.2の42から上昇したと報告されています
。
Kimi K2.6については、Artificial AnalysisにKimi K2.6: The new leading open weights modelという分析が掲載されています 。これは強い位置づけを示す材料ですが、GPT-5.5やClaude Opus 4.7と同じベンチマークで直接比較できる数値が、提供資料内に十分あるわけではありません
。
GPT-5.5のsystem cardでは、CoT-Controlが1万3000件超のタスクからなる評価スイートとして説明されています。これらのタスクはGPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどの既存ベンチマークをもとに構成されています 。
この情報は、推論過程の制御可能性を評価する文脈では重要です。しかし、これだけでGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の安全性を順位づけることはできません 。
さらに、別の二次情報ではGPT-5.5についてサイバーレンジで93%の成功率が報告される一方、6時間のレッドチーミングでユニバーサル・ジェイルブレイクが見つかったともされています 。高いサイバー能力は、必ずしも高い安全性を意味しません。この2つは分けて読む必要があります。
GPT-5.5がARC-AGIでClaude Opus 4.7を上回っているからといって、GPT-5.5が万能の最強モデルだとは言えません 。逆に、Claude Opus 4.7がMCP-Atlasで勝っているからといって、Claudeが全領域で上という結論にもなりません
。
また、DeepSeek V4とKimi K2.6をGPT-5.5やClaude Opus 4.7と並べて総合順位に入れるには、共通ベンチマークが足りません。Artificial Analysis上の情報は、DeepSeek V4とKimi K2.6がオープンウェイト領域で重要な候補であることを示しますが、それだけで全体ランキングは作れません
。
最も正直なまとめはこうです。GPT-5.5は、公開されているARC-AGIではClaude Opus 4.7を上回り、エージェント型コーディングでもTerminal-Bench 2.0の82.7%という強い数値シグナルがあります
。Claude Opus 4.7は、MCP-AtlasでGPT-5.5を上回っており、ツール連携型エージェントでは有力です
。DeepSeek V4とKimi K2.6はオープンウェイト領域の重要候補ですが、今回の資料だけでは2つのプロプライエタリモデルと厳密に順位づけることはできません
。
実際の導入判断では、公開ベンチマークを出発点にしつつ、自社のタスクで検証するのが現実的です。見るべき軸は、推論、ツール呼び出し、コード作業、遅延、コスト、デプロイ制約、そして許容できるリスク水準です。
Comments
0 comments