ARC-AGIは抽象的なパターン認識や視覚的推論、HLEは難度の高い総合問題、Terminal-Benchはターミナル操作を伴うエージェント作業、SWE-Bench系はソフトウェアエンジニアリング寄りの評価として読むと分かりやすいでしょう。
—は、提供されたソース断片に同条件の数値がないことを示します。
理由は単純で、比較条件がそろっていないからです。Artificial AnalysisはGPT-5.5 medium、Kimi K2.6、Claude Opus 4.7 non-reasoning highを並べています。 AkitaOnRailsはGPT-5.5 xHigh/Codex、DeepSeek V4 Flash、DeepSeek V4 Proなど、別の実行条件を含みます。
VentureBeatもGPT-5.5とGPT-5.5 Proを別行で示しています。
GPT-5.5とClaude Opus 4.7だけを見ても、結論は用途依存です。LLM Statsは、両プロバイダーが報告する10ベンチマークで、Opus 4.7が6勝、GPT-5.5が4勝とまとめています。Claudeの優位はGPQA、HLE、SWE-Bench Proなどreasoning-heavyやreview-gradeのテストに寄り、GPT-5.5の優位はTerminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGymなど長時間のtool-useやshell-drivenな作業に寄っています。
GPT-5.5の最も分かりやすい強みは、ARCとTerminal-Benchです。ARC-AGI-2では85%でClaude Opus 4.7の75.8%を上回り、ARC-AGI-1でも95%対93.5%で上回ります。 Terminal-Bench 2.0では82.7%で、Claude Opus 4.7の69.4%、DeepSeekの67.9%を大きく上回ります。
Artificial Analysisでも、GPT-5.5 mediumは57で、Kimi K2.6の54、Claude Opus 4.7 non-reasoning highの52を上回ります。 ただし、これは全モードの総合ランキングではありません。Claude Opus 4.7がreasoningやソフトウェアエンジニアリング系の一部テストでGPT-5.5を上回る、という別の整理もあります。
Claude Opus 4.7は、重い推論やコードレビュー寄りの評価で存在感があります。VentureBeatのHumanity’s Last Examでは、ツールなしでClaudeが46.9%、GPT-5.5が41.4%、DeepSeekが37.7%。ツールありではClaudeが54.7%、GPT-5.5が52.2%、DeepSeekが48.2%です。
SWE-Bench Proでは、DataCampがClaude Opus 4.7を64.3%、GPT-5.5を58.6%、DeepSeek V4 Proを55.4%としています。 LLM Statsの整理でも、ClaudeはGPQA、HLEツールなし、HLEツールあり、SWE-Bench Pro、MCP Atlas、FinanceAgent v1.1でGPT-5.5を上回るとされています。
Kimi K2.6は、4モデルが同条件でそろう表が少ないため、単純な総合順位よりも「coding/agentic用途で使えるか」「open-weightで運用できるか」を見るべきモデルです。
Artificial AnalysisではKimi K2.6が54で、GPT-5.5 mediumの57を下回り、Claude Opus 4.7 non-reasoning highの52を上回ります。 AkitaOnRailsのcodingベンチマークでは87で、Claude Opus 4.7の97、GPT-5.5 xHigh/Codexの96を下回る一方、DeepSeek V4 Flashの78、DeepSeek V4 Proの69を上回ります。
VerdentのSWE-Bench Verified比較では、Claude Opus 4.7が87.6%、Kimi K2.6が80.2%です。
Kimiの実務上の違いは、open-weightのルートがあることです。Verdentは、K2.6のweightsがHugging Faceにあり、vLLM、SGLang、KTransformersで動かせるとしています。同じソースは、コンテキストを縮小したINT4版でも最小構成として4×H100を挙げています。
Hugging FaceのREADMEには、Kimi K2.6のagentic指標として、HLE-Full with tools 54.0、BrowseComp 83.2、DeepSearchQA f1-score 92.5、Toolathlon 50.0、MCPMark 55.9なども載っています。ただし、この表の主な比較対象はGPT-5.4、Claude Opus 4.6、Gemini 3.1 Proであり、本稿の4モデルを完全に横並びにしたものではありません。
今回のソース群では、DeepSeek V4は最高スコアの勝者というより、valueモデルとして読むのが自然です。VentureBeatでは、DeepSeekはHLEツールなし、HLEツールあり、Terminal-Bench 2.0でGPT-5.5やClaude Opus 4.7を下回ります。 DataCampのSWE-Bench Proでも、DeepSeek V4 Proは55.4%で、GPT-5.5の58.6%、Claude Opus 4.7の64.3%を下回ります。
AkitaOnRailsでも、DeepSeek V4 Flashは78、DeepSeek V4 Proは69で、Kimi K2.6、GPT-5.5 xHigh/Codex、Claude Opus 4.7を下回ります。
一方で、価格は大きな材料です。MashableはDeepSeek V4を100万入力トークンあたり$1.74、100万出力トークンあたり$3.48とし、GPT-5.5の$5/$30、Claude Opus 4.7の$5/$25より安いとしています。 最高精度が必要な本番タスクでは慎重な検証が必要ですが、大量の下書き生成、低リスクな社内処理、自社evalを安く回す用途では、最初に試す候補になり得ます。
ベンチマークだけで見る上位争いは、GPT-5.5とClaude Opus 4.7の二強です。ただし、強い場所が違います。GPT-5.5はARCとTerminal-Benchで目立ち、Claude Opus 4.7はHLEとSWE-Bench Proで強い結果を示しています。
Kimi K2.6は、直接比較の数こそ少ないものの、coding/agentic用途とopen-weight運用の選択肢として重要です。 DeepSeek V4は最高スコアでは一歩譲る行が多い一方、API価格の安さが大きな武器です。
つまり、選ぶべきモデルはランキング表の1位ではなく、自分のワークロード、予算、運用条件で決まります。
Comments
0 comments