| Humanity’s Last Exam、ツールなし | 41.4% | 43.1% | 46.9% | 37.7% | — | Claude Opus 4.7 |
| Humanity’s Last Exam、ツールあり | 52.2% | 57.2% | 54.7% | 48.2% | — | GPT-5.5 Pro |
| Terminal-Bench 2.0 | 82.7% | — | 69.4% | 67.9% | — | GPT-5.5 |
| SWE-Bench Pro / SWE Pro | 58.6% | — | 64.3% | 55.4% | 0.59、LLM Stats | Claude Opus 4.7 |
| BrowseComp | 84.4% | 90.1% | 79.3% | 83.4% | 83.2%、DocsBot | GPT-5.5 Pro、VentureBeat表 |
| MCP Atlas / MCPAtlas Public | 75.3% | — | 79.1% | 73.6% | — | Claude Opus 4.7 |
この表から見えるのは、どれか一つのモデルが全領域で勝つわけではない、という点です。Claude Opus 4.7は推論とソフトウェア開発系で強く、GPT-5.5 Proはツール利用とブラウジングで強く、GPT-5.5はTerminal-Bench 2.0で大きくリードします。一方、Kimi K2.6はLLM StatsやDocsBotに個別の数値がありますが、VentureBeatのような同一表で全モデルと横並びに比較されているわけではありません 。
GPQAは、生物・物理・化学などの専門領域を含む難問データセットとして使われる指標です 。VentureBeatの直接比較では、Claude Opus 4.7がGPQA Diamondで94.2%を記録し、GPT-5.5の93.6%、DeepSeek-V4-Pro-Maxの90.1%を上回りました
。GPT-5.5との差は小さいものの、この表ではClaude Opus 4.7が首位です
。
Humanity’s Last Examのツールなし設定でも、Claude Opus 4.7は46.9%で、GPT-5.5 Proの43.1%、GPT-5.5の41.4%、DeepSeek-V4-Pro-Maxの37.7%を上回っています 。外部ツールに頼らない難問推論、科学的な設問、知識集約型のタスクを重視するなら、引用データ上はClaude Opus 4.7が第一候補になります
。
Kimi K2.6については、LLM StatsがGPQAで0.91を掲載しており、同じリーダーボードではClaude Opus 4.7とGPT-5.5が丸め値で0.94とされています 。ただし、これはVentureBeatのGPQA Diamond直接比較表と同一条件の表ではないため、絶対的な順位づけではなく参考データとして読むべきです
。
ツール利用を許すと、順位ははっきり変わります。Humanity’s Last Examのツールあり設定では、GPT-5.5 Proが57.2%で首位に立ち、Claude Opus 4.7の54.7%、GPT-5.5の52.2%、DeepSeek-V4-Pro-Maxの48.2%を上回りました 。
BrowseCompでも、VentureBeatの表ではGPT-5.5 Proが90.1%で最も高く、GPT-5.5が84.4%、DeepSeek-V4-Pro-Maxが83.4%、Claude Opus 4.7が79.3%です 。DocsBotはKimi K2.6のBrowseCompを83.2%と掲載していますが、この数値はKimi K2.6とDeepSeek-V4 Proを比べる別ページのデータであり、GPT-5.5 ProやClaude Opus 4.7を含む完全な同一表ではありません
。
Terminal-Bench 2.0は、単に質問に答える能力ではなく、実際のCLIワークフローをこなす力を見るベンチマークです。ファイル操作、スクリプト実行、デバッグ、ツール連携などの多段タスクが含まれると説明されています 。
VentureBeatの表では、GPT-5.5がTerminal-Bench 2.0で82.7%を記録し、Claude Opus 4.7の69.4%、DeepSeek-V4-Pro-Maxの67.9%を大きく上回っています 。シェル上での修正、リポジトリ操作、コマンド実行を伴う自動化、CLIベースのエージェント運用を重視する場合、この項目ではGPT-5.5の優位が最も明確です
。
VentureBeatの表では、Claude Opus 4.7がSWE-Bench Pro / SWE Proで64.3%を記録し、GPT-5.5の58.6%、DeepSeek-V4-Pro-Maxの55.4%を上回りました 。LLM Statsでも、Claude Opus 4.7は0.64、GPT-5.5は0.59、Kimi K2.6は0.59、DeepSeek-V4-Pro-Maxは0.55と掲載されています
。
表記方法は異なりますが、読み取れる方向性は同じです。SWE-Bench ProではClaude Opus 4.7がこのグループをリードし、LLM Stats上ではGPT-5.5とKimi K2.6が同水準、DeepSeek-V4-Pro-Maxがやや下に位置します 。
DeepSeek-V4-Pro-Maxは、VentureBeatの直接比較表では首位の項目を持っていません。GPQA Diamondは90.1%、Humanity’s Last Examのツールなしは37.7%、ツールありは48.2%、Terminal-Bench 2.0は67.9%、SWE-Bench Proは55.4%、BrowseCompは83.4%、MCP Atlasは73.6%です 。
一方で、DeepSeek V4の魅力はコスト効率です。VentureBeatはDeepSeek-V4について、Opus 4.7やGPT-5.5の約6分の1のコストで、ほぼ最先端に近い性能を持つと説明しています 。コスト制約が厳しい大量処理や、性能と単価のバランスを重視する用途では検討対象になり得ます
。
ただし、信頼性の評価では注意が必要です。Artificial Analysisは、DeepSeek V4 Pro MaxがAA-Omniscienceで-10を記録し、V3.2 Reasoningの-21から11ポイント改善した一方、V4 ProとV4 Flashのハルシネーション率がそれぞれ94%と96%と非常に高いと報告しています 。もっとも、引用元はGPT-5.5、Claude Opus 4.7、Kimi K2.6について同じハルシネーション指標を横並びで提示しているわけではありません
。結論としては、DeepSeek V4はコスト重視なら有力候補ですが、実データでのハルシネーション検証とガードレール設計を前提にすべきです
。
Kimi K2.6は、この比較で最も順位づけしにくいモデルです。理由は、GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ完全なベンチマーク表に並んでいるデータが不足しているためです 。
それでも、個別には注目すべきスコアがあります。LLM StatsはKimi K2.6をGPQAで0.91、SWE-Bench Proで0.59と掲載しています 。DocsBotは、Kimi K2.6についてAIME 2026のthinking modeで96.4%、APEX Agentsで27.9%、BrowseCompで83.2%を掲載しており、同じページではDeepSeek-V4 ProのBrowseCompを83.4%としています
。
ただし、これらはソースや比較条件が異なるため、Kimi K2.6が全体で勝つ、または劣ると断定する材料にはなりません。Kimi K2.6は、個別ベンチマークが自分の用途に近い場合に試す価値のある候補と見なし、実運用に近い社内評価で確認するのが現実的です 。
第二に、Kimi K2.6のデータは主にLLM StatsとDocsBotからの個別スコアであり、GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxを含む完全な同一比較表ではありません 。
第三に、OpenAIのGPT-5.5 system cardには、CoT-Controlという評価スイートの記述があります。これはGPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどをもとにした13,000件超のタスクを含むとされています 。これはGPT-5.5の評価設計を理解するうえで有用ですが、Claude Opus 4.7、DeepSeek V4、Kimi K2.6について同等のCoT-Control結果が引用元にあるわけではないため、この指標だけで横並びの順位づけはできません
。
Comments
0 comments