| 低 |
SWE-benchは、実際のソフトウェアエンジニアリング課題を解く能力を見るベンチマークとして説明されている 。一方、SWE-bench Proは、より難しい長期ホライズンのソフトウェアタスクを対象にした派生ベンチマークとして提示されている
。したがって、SWE-bench、SWE-bench Verified、SWE-bench Proを同じ数字のように扱うべきではありません。
GPQA Diamondも便利ですが、フロンティアモデルの比較では差が詰まりすぎています。TNWは、Opus 4.7、GPT-5.4 Pro、Gemini 3.1 ProなどがGPQA Diamondで非常に近く、差は測定ノイズの範囲に入ると指摘している 。MMLUはさらに注意が必要です。Nanonetsは、2026年には上位モデルがMMLUで88%を超えており、リーダー同士を細かく分けるには飽和していると説明している
。
もう一つ重要なのは、数字の出どころです。公式発表、独立リーダーボード、集約サイト、コミュニティ投稿、技術ブログは同じ重みではありません。BenchLMは、Claude Opus 4.7のプロフィールについて、十分な非生成の公開ベンチマーク行がまだないため公開リーダーボードから除外していると説明している 。このような注記も、スコアと同じくらい重要です。
Claude Opus 4.7は、この比較で最も根拠を組み立てやすいモデルです。Anthropicは、Opus 4.7が同社の研究エージェント内部ベンチマークで6モジュール全体の最高スコアに並ぶ0.715を記録し、試験したモデルの中で最も一貫したlong-context性能を示したと述べている 。内部評価なので独立ベンチマークとは分けて読むべきですが、複数ステップ作業を重視したモデルであることは読み取れます。
外部指標で最も目立つのはSWE-benchです。Vals AIは、2026年4月24日更新のSWE-benchでClaude Opus 4.7を82.00%の首位としている 。VellumはSWE-bench Verifiedで87.6%、SWE-bench Proで64.3%を報告している
。LMCouncilはSWE-bench Verifiedで83.5% ± 1.7を示している
。
ここで大事なのは、どれか一つの数値だけを正解扱いしないことです。SWE-bench、SWE-bench Verified、SWE-bench Proは同じテストではなく、出典、時点、設定、サブセットの違いで数値が変わり得ます 。それでも、ソフトウェアエンジニアリング領域でClaude Opus 4.7が上位、または首位圏にいるという読みはかなり強いと言えます。
GPT-5.5は、確認できる推論系データでは非常に強い位置にあります。O-Megaは、GPT-5.5についてMMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0%を報告している 。VellumもGPQA DiamondでGPT-5.5を93.6%としている
。BenchLMはGPT-5.5を暫定リーダーボードで89/100、検証済みリーダーボードで16モデル中2位としている
。
注意点は、今回の材料ではOpenAI自身による包括的な公式ベンチマークカードが確認できていないことです。Appwriteは2026年4月24日の記事でGPT-5.5の登場を扱い、Vals AIもopenai/gpt-5.5を2026年4月23日リリース、Vals Index 67.76% ± 1.79としているが、これらはAnthropicのClaude Opus 4.7公式情報と同じ種類の一次資料ではありません 。
DeepSeekは、今回の比較で最もモデル名の扱いが難しいケースです。出典によってDeepSeek V4、DeepSeek V4 Pro、DeepSeek V4 Pro Highが混在しており、ある派生の数値を別の派生にそのまま移すのは避けるべきです 。
Hugging Faceでは、DeepSeek-V4-ProについてGPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0などのコミュニティ評価結果を追加する議論が確認できる 。BenchLMはDeepSeek V4 Pro Highについて、Agentic 83.8/100、Coding 88.8/100、Knowledge 72.1/100を報告している
。NxCodeはDeepSeek V4についてSWE-bench 81%、1MトークンのNeedle-in-a-Haystackで97%とするが、97%の読みは独立検証が前提になると説明している
。
純粋なcoding能力では、RedreamalityがDeepSeek V4についてLiveCodeBench 93.5、Codeforces 3206を報告している 。ただし同じ出典は、SWE-bench ProやTerminal-Bench 2.0のような長期ホライズンのエージェント型作業では、クローズドなフロンティアモデルがなお先行しているともまとめている
。
実務的には、DeepSeek V4/V4 Proは社内検証に入れる価値があります。特に、オープンウェイト系の検証、技術的コントロール、コスト、ローカル運用の可能性を重視する場合は候補になります。ただし、公開ベンチマークの堅さという点では、Claude Opus 4.7と同列には置きにくいのが現時点の見方です 。
Kimi K2.6は無視すべきモデルではありませんが、Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Proと同じ密度で比較するには材料が足りません。LLM StatsはKimi K2.6をGPQA 0.91としており、WhatLLMはQuality Indexのトップ10にKimi K2.6を入れている 。これはベンチマーク上の存在感を示すシグナルではありますが、multi-benchmarkの比較としては不十分です。
また、Kimi K2.5の結果でKimi K2.6を代用するのも避けるべきです。Simon Willisonは2026年2月のSWE-bench Verified更新でKimi K2.5の結果を取り上げているが、それはKimi K2.6とは別バージョンです 。厳密に扱うなら、Kimi K2.6は現時点では比較可能な根拠が不足、または追加検証待ちと位置づけるのが安全です。
社内資料や意思決定資料に落とすなら、性能と根拠の強さを分けて見せるのが最も安全です。1枚目は用途別の推奨、2枚目はベンチマーク表、3枚目は方法論上の注意、という構成が扱いやすいでしょう。
メッセージは明確です。Claude Opus 4.7は、codingとエージェント型作業で最も根拠が厚い。GPT-5.5は、一般推論で最も強い対抗馬。DeepSeek V4/V4 Proは、技術検証の価値が高いが自前の検証が必要。Kimi K2.6は、現時点では比較材料不足です。
最後に、必ず三つの注記を入れるべきです。第一に、SWE-bench、SWE-bench Verified、SWE-bench Proを同じテストとして扱わないこと。SWE-bench Proは、より難しい長期ホライズンのソフトウェアタスク向けに設計されている 。第二に、MMLUだけで判断しないこと。2026年時点では上位モデルが88%超に集まり、差別化力が落ちている
。第三に、それぞれの数字に公式、リーダーボード、集約サイト、コミュニティ、主張という出典ラベルを付けることです。
公開根拠を重視してモデルを選ぶなら、Claude Opus 4.7を先頭に置くのが最も防御しやすい判断です。Anthropicの公式情報、Vals AIのSWE-bench首位、Vellumなど第三者のSWE-bench系結果がそろっているためです 。
DeepSeek V4/V4 Proは、特に技術検証やオープンウェイト系の選択肢として試す価値がありますが、派生名の混在と独立検証の不足を踏まえると、リーダー認定ではなく検証候補と呼ぶべきです 。Kimi K2.6は、GPQAなどの断片的なシグナルはあるものの、広い比較に使うにはまだ証拠が足りません
。
Comments
0 comments