今回参照できる公開資料の範囲で、4つの対象モデルすべてにスコアが見つかる共有項目はTerminal-Bench 2.0です。公開表に基づく並びは次の通りです。
| モデル | Terminal-Bench 2.0 | 出典 |
|---|---|---|
| GPT-5.5 | 82.7% | OpenAI発表ページ、MLQ.ai要約 |
| Claude Opus 4.7 | 69.4% | OpenAI発表ページ |
| DeepSeek V4-Pro Max | 67.9% | DeepSeek V4-Proモデルカード |
| Kimi K2.6 Thinking | 66.7% | DeepSeek V4-Proモデルカード |
ここから安全に言えるのは、あくまでTerminal-Bench 2.0という単一項目では、GPT-5.5が明確に先行し、Claude Opus 4.7が2番手、DeepSeek V4-Pro MaxとKimi K2.6 Thinkingは近い水準にあるということです。
ただし、この1項目だけで「GPT-5.5がすべての業務で最良」とまでは言えません。ツール権限、コンテキスト長、推論予算、評価ハーネス、失敗時のリカバリー条件が違えば、実務での順位は変わり得ます。
OpenAIのGPT-5.5発表ページには、GPT-5.5とClaude Opus 4.7の複数ベンチマーク比較が掲載されています。その表に載る項目では、GPT-5.5のスコアがClaude Opus 4.7をすべて上回っています。
| ベンチマーク(OpenAI表) | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
この表から導けるのは、OpenAIが列挙した評価項目ではGPT-5.5がClaude Opus 4.7を上回るという限定的な結論です。 OpenAIのシステムカードでも、GPT-5.5はコード作成、オンライン調査、情報分析、文書やスプレッドシート作成、複数ツールをまたぐ作業など、複雑な実務向けのモデルとして位置づけられています。
DeepSeek V4-Proモデルカードには、DS-V4-Pro MaxとK2.6 Thinkingを並べた複数項目の比較が掲載されています。 その表では、DS-V4-Pro Maxが多くの項目でK2.6 Thinkingを上回りますが、Kimi側にも明確な先行項目があります。
| ベンチマーク(DeepSeekモデルカード) | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | 表内での先行 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
この表の堅い読み方は、DeepSeekモデルカードに掲載された多くの項目ではDS-V4-Pro MaxがK2.6 Thinkingを上回るが、Kimi K2.6 ThinkingはGPQA DiamondとSWE Proで先行するというものです。 MMLU-ProやTerminal-Bench 2.0の差は大きくないため、製品選定では「どちらが上か」だけでなく、自分たちのタスクに近い評価項目かどうかを見る必要があります。
最も危ない読み方は、OpenAIの表、DeepSeekの表、Anthropicの機能ドキュメントをそのままつなげて「総合優勝」を決めることです。現時点の公開資料では、それは支えられません。理由は主に3つあります。
したがって、公開ベンチマークは一次スクリーニングには有効ですが、購入判断やアーキテクチャ選定の最終根拠としては不十分です。
製品や社内システムに組み込む前提なら、次のように切り分けるのが現実的です。
長いエージェントループを使う製品なら、Claude Opus 4.7のtask budgets
一方、複雑なコーディング、オンライン調査、文書や表計算ファイルの作成、複数ツールをまたぐ業務に近いなら、GPT-5.5のシステムカードに書かれた想定用途はその領域と直接重なります。 ただし、公開表で強いモデルであっても、自社のコードベース、ツールチェーン、権限境界、エラー復旧設計の中で再検証することは欠かせません。
Comments
0 comments