| 端末操作・エージェント型計算 | GPT-5.5 | Terminal-Bench 2.0で82.7%。Claude Opus 4.7は69.4%、DeepSeek-V4-Pro-Maxは67.9%です |
| OS操作 | GPT-5.5 | OSWorld-Verifiedで78.7%。Claude Opus 4.7の78.0%をわずかに上回ります |
| 高難度数学 | GPT-5.5 | FrontierMath Tiers 1–3で51.7%。Claude Opus 4.7は43.8%です |
| ソフトウェアエンジニアリング | Claude Opus 4.7 | 共通表のSWE-Bench Pro / SWE Proで64.3%。GPT-5.5は58.6%、DeepSeek-V4-Pro-Maxは55.4%です |
| ブラウジング | GPT-5.5 Pro | BrowseCompで90.1%。GPT-5.5は84.4%、DeepSeek-V4-Pro-Maxは83.4%、Claude Opus 4.7は79.3%です |
| MCP型の公開ツールワークフロー | Claude Opus 4.7 | MCP Atlas / MCPAtlas Publicで79.1%。GPT-5.5は75.3%、DeepSeek-V4-Pro-Maxは73.6%です |
| 画像・文書解析 | Claude Opus 4.7 | Vision & Document Arenaで総合1位と報告され、図表、宿題、OCRのサブカテゴリでも勝利しています |
| コスト重視 | DeepSeek V4 | VentureBeatは、DeepSeek V4をOpus 4.7やGPT-5.5のおよそ6分の1のコストで準最先端級の知能を提供するモデルとして報じています。ただし実ワークロードでの検証は必要です |
| 4者比較として最も読みにくい項目 | Kimi K2.6 | Kimi K2.6には有用な個別スコアがありますが、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ主要共通表でそろって比較されているわけではありません |
別々のソースをまたぐ行は、特に慎重に読むべきです。Kimi K2.6のスコアは参考になりますが、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ評価環境で出た数値ほど強い比較材料ではありません。
GPT-5.5の最もはっきりした勝ち筋はTerminal-Bench 2.0です。82.7%というスコアは、Claude Opus 4.7の69.4%、DeepSeek-V4-Pro-Maxの67.9%を大きく上回ります。今回の引用データの中では、差が大きく、実務検証の優先度を上げやすい項目です。
OSWorld-VerifiedでもGPT-5.5は78.7%で、Claude Opus 4.7の78.0%を上回ります。ただし差は0.7ポイントで、方向感として読むのが妥当です。一方、FrontierMath Tiers 1–3ではGPT-5.5が51.7%、Claudeが43.8%で、差はより明確です
。
ツールやブラウジングを使う場面では、GPT-5.5 Proの存在感が増します。Humanity’s Last ExamのツールありではGPT-5.5 Proが57.2%で、Claude Opus 4.7の54.7%、GPT-5.5の52.2%、DeepSeek-V4-Pro-Maxの48.2%を上回ります。BrowseCompでもGPT-5.5 Proは90.1%で、GPT-5.5の84.4%、DeepSeek-V4-Pro-Maxの83.4%、Claude Opus 4.7の79.3%を上回ります
。
ただし、GPT-5.5がすべての推論テストで勝つわけではありません。GPQA DiamondではClaude Opus 4.7が94.2%、GPT-5.5が93.6%で、Claudeが0.6ポイント上です。
別資料には、GPT-5.5単体の領域別スコアとしてHarvey BigLaw Bench 91.7%、社内投資銀行ベンチマーク88.5%、BixBench 80.5%などが報告されています。ただし、同じ抜粋にClaude Opus 4.7、DeepSeek V4、Kimi K2.6の同条件スコアが並んでいるわけではないため、4者比較の勝利とは見なせません
。
Claude Opus 4.7は、主要共通表ではツールなしの推論が強いモデルです。GPQA Diamondで94.2%、Humanity’s Last Examのツールなしで46.9%と、いずれも首位です。SWE-Bench Pro / SWE Proでも64.3%、MCP Atlas / MCPAtlas Publicでも79.1%で、同じ表の中ではClaudeがトップです
。
一方、端末操作系ではGPT-5.5に大きく差をつけられています。Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%です。OSWorld-VerifiedとFrontierMath Tiers 1–3でも、引用データ上はGPT-5.5がClaudeを上回ります
。
マルチモーダル、とくに文書解析のシグナルはClaudeが最も強く見えます。あるソースはClaude Opus 4.7がVision & Document Arenaで総合1位になり、Document ArenaでOpus 4.6から4ポイント改善し、図表、宿題、OCRのサブカテゴリでも勝利したと報告しています。ただし、そのソースにはGPT-5.5、DeepSeek V4、Kimi K2.6の同じ数値が並んでいないため、完全な4者マルチモーダル順位までは言えません
。
DeepSeekについては、ラベルの違いに注意が必要です。主要共通表ではDeepSeek-V4-Pro-Maxが使われ、Artificial Analysisの比較ではDeepSeek V4 Proという表記が使われています。これらを自動的に同一視すると、読み違える可能性があります。
主要共通表では、DeepSeek-V4-Pro-Maxは競争力がありますが、掲載行の首位には立っていません。GPQA Diamondは90.1%、Humanity’s Last Examのツールなしは37.7%、ツールありは48.2%、Terminal-Bench 2.0は67.9%、SWE-Bench Pro / SWE Proは55.4%、BrowseCompは83.4%、MCP Atlas / MCPAtlas Publicは73.6%です。
DeepSeek V4の最大の売りとして引用されているのは、カテゴリ別の首位ではなくコスト性能です。VentureBeatはDeepSeek V4を、Opus 4.7やGPT-5.5のおよそ6分の1のコストで準最先端級の知能を提供するモデルとして報じています。これは、品質を自社で確認できるコスト重視の用途では試す価値がある、という意味で読むべきです。
長文コンテキストの観点では、あるArtificial Analysis比較でDeepSeek V4 ProとClaude Opus 4.7のどちらも100万トークン、つまり1,000kトークンのコンテキストウィンドウとされています。ただし、これはその比較条件における設定の話であり、すべてのDeepSeekやClaudeのモードに広げられる主張ではありません
。
Kimi K2.6は、この比較の中で最も順位を付けにくいモデルです。主な理由は、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと並ぶ主要共通表に含まれていないことです。
Kimiに焦点を当てた比較では、K2.6はSWE-Bench Proで58.6%、SWE-Bench Verifiedで80.2%、Terminal-Bench 2.0で66.7%、Humanity’s Last Examのツールありで54.0%、LiveCodeBench v6で89.6%と報告されています。同ソースは、K2.6の数値がMoonshot AIの公式モデルカードに基づくものだとしていますが、比較対象は主にClaude Opus 4.6とGPT-5.4であり、今回の正確な4者構成とは異なります
。
別のKimi対DeepSeek比較では、Kimi K2.6がAIME 2026で96.4%、APEX Agentsで27.9%、BrowseCompで83.2%と報告されています。同じソースではDeepSeek-V4 ProのBrowseCompが83.4%とされていますが、AIME 2026とAPEX AgentsのDeepSeek側スコアは掲載されていません
。
つまり、Kimi K2.6はコーディング、エージェント、数学、ブラウジング用途で試す価値のある候補です。ただし、GPT-5.5やClaude Opus 4.7に対する包括的な順位付けは、引用データだけでは支えきれません。
これは万能ランキングではありません。ソースにはGPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7、Kimi K2.6といった異なるラベルやモードが混在しています。
また、一部の結果はベンダー報告です。GPT-5.5関連の表では、ベンチマーク値がベンダー報告であることが明記されています。さらにOpenAIは、ARC関連のGPT評価がreasoning effortをxhighに設定した研究環境で実施され、本番のChatGPTとは出力がわずかに異なる場合があると説明しています
。
僅差は方向感として扱うべきです。Claude Opus 4.7のGPQA DiamondでのリードはGPT-5.5に対して0.6ポイント、GPT-5.5のOSWorld-VerifiedでのリードはClaudeに対して0.7ポイントです。一方、Terminal-Bench 2.0でのGPT-5.5のClaudeに対する13ポイント超の差や、FrontierMathでの7.9ポイント差は、より実務検証につなげやすい差です
。
実務上の結論はシンプルです。GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の間に、すべての領域で勝つ単一モデルはありません。自社の仕事に近いベンチマークを選び、実際に使えるモデルだけを同条件で再テストするのが、最も失敗しにくい選び方です。
Comments
0 comments