4モデルを一つの総合順位に押し込むと、かなり誤解が出ます。Claude Opus 4.7は公式情報と外部リーダーボードの両方が比較的そろっています。GPT-5.5は推論で強い数字が出ていますが、今回確認できる範囲では二次情報や集約サイトの比重が高い。DeepSeek V4/V4 Proは有望な一方で、モデルの派生名が混在します。Kimi K2.6はまだ比較材料が薄い、というのが出発点です。
まず結論:勝者は用途で変わる
| モデル | いま最も無理のない読み方 | 根拠の強さ |
|---|---|---|
| Claude Opus 4.7 | 公開情報ベースでは、coding、エージェント型タスク、複数ステップの作業で最も説明しやすい。Anthropicは研究エージェント内部ベンチマークで0.715、Vals AIはSWE-benchで82.00%と報告している [ | 高〜中 |
| GPT-5.5 | 一般推論では非常に強い。O-MegaはMMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0%を報告している [ | 中 |
| DeepSeek V4 / V4 Pro | codingや技術検証の候補として有望。ただし、V4、V4 Pro、V4 Pro Highの結果をそのまま同一視しないほうがよい [ | 中〜低 |
| Kimi K2.6 | LLM StatsのGPQA 0.91、WhatLLMのQuality Indexトップ10入りなどのシグナルはあるが、広いベンチマーク比較には不足している [ | 低 |
比較できるベンチマーク一覧
| ベンチマーク / 指標 | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | 読み方 |
|---|---|---|---|---|---|
| SWE-bench | Vals AIで82.00%。2026年4月24日更新 [ | 比較可能な数値は確認できず | NxCodeがDeepSeek V4で81%と主張 [ | 比較可能な数値は確認できず | 最も素直に読むならClaude優勢。 |
| SWE-bench Verified | Vellumで87.6%、LMCouncilで83.5% ± 1.7 [ | 比較可能な数値は確認できず | Hugging Faceのコミュニティ評価に項目はあるが、取得した要約では数値は見えない [ | 比較可能な数値は確認できず | 数値差は、出典、設定、サブセットの違いを考慮する必要がある。 |
| SWE-bench Pro | Vellumで64.3% [ | 比較可能な数値は確認できず | Hugging Faceのコミュニティ評価に項目はあるが、取得した要約では数値は見えない [ | 比較可能な数値は確認できず | 長い工程を伴うソフトウェアエージェント評価として重要。 |
| GPQA Diamond | 94.2%。O-Mega、Vellum、TNWが報告 [ | 93.6%。O-MegaとVellumが報告 [ | コミュニティ評価スイートで言及されるが、比較可能な数値は確認できず [ | LLM Statsで0.91 [ | ClaudeとGPT-5.5の差は小さく、GPQAだけで勝敗を決めるのは危うい。 |
| MMLU | 比較可能な数値は確認できず | O-Megaで92.4% [ | MMLU-Proがコミュニティ評価に登場するが、数値は確認できず [ | 比較可能な数値は確認できず | 2026年時点では上位モデルで飽和気味。重みづけは低めでよい。 |
| ARC-AGI | 比較可能な数値は確認できず | ARC-AGI-2 85.0%、ARC-AGI-1 95.0%。O-Megaが報告 [ | 比較可能な数値は確認できず | 比較可能な数値は確認できず | GPT-5.5の一般推論の強さを示す材料。ただし出典には注意。 |
| 研究エージェント / 複数ステップ作業 | Anthropicの内部ベンチマークで0.715 [ | 比較可能な数値は確認できず | BenchLMがDeepSeek V4 Pro HighのAgenticを83.8/100と報告 [ | 比較可能な数値は確認できず | 方向性は見えるが、同じ物差しではない。 |
| 長文コンテキスト / Needle-in-a-Haystack | Anthropicは、試験したモデルの中で最も一貫したlong-context性能だったと述べている [ | 比較可能な数値は確認できず | NxCodeが1Mトークンで97%と報告。ただし独立検証が条件になる [ | 比較可能な数値は確認できず | DeepSeekの主張は強いが、結論には追加検証が必要。 |
| LiveCodeBench / Codeforces | 比較可能な数値は確認できず | 比較可能な数値は確認できず | RedreamalityがDeepSeek V4でLiveCodeBench 93.5、Codeforces 3206と報告 [ | 比較可能な数値は確認できず | 純粋なcoding能力の前向きなシグナル。ただしagentic codingの結論とは別。 |
ベンチマークは同じ土俵ではない
SWE-benchは、実際のソフトウェアエンジニアリング課題を解く能力を見るベンチマークとして説明されている [17]。一方、SWE-bench Proは、より難しい長期ホライズンのソフトウェアタスクを対象にした派生ベンチマークとして提示されている [
38]。したがって、SWE-bench、SWE-bench Verified、SWE-bench Proを同じ数字のように扱うべきではありません。
GPQA Diamondも便利ですが、フロンティアモデルの比較では差が詰まりすぎています。TNWは、Opus 4.7、GPT-5.4 Pro、Gemini 3.1 ProなどがGPQA Diamondで非常に近く、差は測定ノイズの範囲に入ると指摘している [15]。MMLUはさらに注意が必要です。Nanonetsは、2026年には上位モデルがMMLUで88%を超えており、リーダー同士を細かく分けるには飽和していると説明している [
1]。
もう一つ重要なのは、数字の出どころです。公式発表、独立リーダーボード、集約サイト、コミュニティ投稿、技術ブログは同じ重みではありません。BenchLMは、Claude Opus 4.7のプロフィールについて、十分な非生成の公開ベンチマーク行がまだないため公開リーダーボードから除外していると説明している [14]。このような注記も、スコアと同じくらい重要です。
Claude Opus 4.7:codingとエージェント型作業で最も堅い候補
Claude Opus 4.7は、この比較で最も根拠を組み立てやすいモデルです。Anthropicは、Opus 4.7が同社の研究エージェント内部ベンチマークで6モジュール全体の最高スコアに並ぶ0.715を記録し、試験したモデルの中で最も一貫したlong-context性能を示したと述べている [16]。内部評価なので独立ベンチマークとは分けて読むべきですが、複数ステップ作業を重視したモデルであることは読み取れます。
外部指標で最も目立つのはSWE-benchです。Vals AIは、2026年4月24日更新のSWE-benchでClaude Opus 4.7を82.00%の首位としている [17]。VellumはSWE-bench Verifiedで87.6%、SWE-bench Proで64.3%を報告している [
20]。LMCouncilはSWE-bench Verifiedで83.5% ± 1.7を示している [
9]。
ここで大事なのは、どれか一つの数値だけを正解扱いしないことです。SWE-bench、SWE-bench Verified、SWE-bench Proは同じテストではなく、出典、時点、設定、サブセットの違いで数値が変わり得ます [17][
20][
38]。それでも、ソフトウェアエンジニアリング領域でClaude Opus 4.7が上位、または首位圏にいるという読みはかなり強いと言えます。
推論面でも、Claude Opus 4.7はGPQA Diamondで94.2%と報告されている [3][
12][
15]。ただし、GPQAは上位モデルが密集しているため、これだけで総合勝者を決めるのは避けるべきです [
15]。
GPT-5.5:推論は強いが、公式トレーサビリティは薄め
GPT-5.5は、確認できる推論系データでは非常に強い位置にあります。O-Megaは、GPT-5.5についてMMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0%を報告している [3]。VellumもGPQA DiamondでGPT-5.5を93.6%としている [
12]。BenchLMはGPT-5.5を暫定リーダーボードで89/100、検証済みリーダーボードで16モデル中2位としている [
6]。
注意点は、今回の材料ではOpenAI自身による包括的な公式ベンチマークカードが確認できていないことです。Appwriteは2026年4月24日の記事でGPT-5.5の登場を扱い、Vals AIもopenai/gpt-5.5を2026年4月23日リリース、Vals Index 67.76% ± 1.79としているが、これらはAnthropicのClaude Opus 4.7公式情報と同じ種類の一次資料ではありません [2][
11]。
したがって、GPT-5.5は一般推論の最有力候補として扱うのが自然です。一方で、全モデルに同じ厚さの公開根拠を求めるなら、総合勝者と断言するには慎重さが必要です [3][
6][
12]。
DeepSeek V4 / V4 Pro:試す価値は大きいが、派生名の混在に注意
DeepSeekは、今回の比較で最もモデル名の扱いが難しいケースです。出典によってDeepSeek V4、DeepSeek V4 Pro、DeepSeek V4 Pro Highが混在しており、ある派生の数値を別の派生にそのまま移すのは避けるべきです [25][
26][
27]。
Hugging Faceでは、DeepSeek-V4-ProについてGPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0などのコミュニティ評価結果を追加する議論が確認できる [25]。BenchLMはDeepSeek V4 Pro Highについて、Agentic 83.8/100、Coding 88.8/100、Knowledge 72.1/100を報告している [
27]。NxCodeはDeepSeek V4についてSWE-bench 81%、1MトークンのNeedle-in-a-Haystackで97%とするが、97%の読みは独立検証が前提になると説明している [
26]。
純粋なcoding能力では、RedreamalityがDeepSeek V4についてLiveCodeBench 93.5、Codeforces 3206を報告している [30]。ただし同じ出典は、SWE-bench ProやTerminal-Bench 2.0のような長期ホライズンのエージェント型作業では、クローズドなフロンティアモデルがなお先行しているともまとめている [
30]。
実務的には、DeepSeek V4/V4 Proは社内検証に入れる価値があります。特に、オープンウェイト系の検証、技術的コントロール、コスト、ローカル運用の可能性を重視する場合は候補になります。ただし、公開ベンチマークの堅さという点では、Claude Opus 4.7と同列には置きにくいのが現時点の見方です [16][
17][
25][
27]。
Kimi K2.6:名前は出るが、比較表の主役にはまだ早い
Kimi K2.6は無視すべきモデルではありませんが、Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Proと同じ密度で比較するには材料が足りません。LLM StatsはKimi K2.6をGPQA 0.91としており、WhatLLMはQuality Indexのトップ10にKimi K2.6を入れている [7][
21]。これはベンチマーク上の存在感を示すシグナルではありますが、multi-benchmarkの比較としては不十分です。
また、Kimi K2.5の結果でKimi K2.6を代用するのも避けるべきです。Simon Willisonは2026年2月のSWE-bench Verified更新でKimi K2.5の結果を取り上げているが、それはKimi K2.6とは別バージョンです [8]。厳密に扱うなら、Kimi K2.6は現時点では比較可能な根拠が不足、または追加検証待ちと位置づけるのが安全です。
用途別ランキング
| 用途 | 推奨モデル | 確信度 | 理由 |
|---|---|---|---|
| 実際のissue解決、coding agent | Claude Opus 4.7 | 高〜中 | Vals AIのSWE-benchで82.00%の首位。VellumでもSWE-bench VerifiedとSWE-bench Proで強い [ |
| 複数ステップの調査、研究エージェント | Claude Opus 4.7 | 中 | Anthropicが内部研究エージェントベンチマークで0.715、long-context性能の一貫性を報告している [ |
| 科学推論、GPQA系 | Claude Opus 4.7またはGPT-5.5 | 中 | Claudeは94.2%、GPT-5.5は93.6%。差は小さく、GPQA自体も上位モデルでは詰まっている [ |
| 広い一般推論 | GPT-5.5 | 中〜低 | MMLU、GPQA、ARC-AGIの数字は強いが、主な根拠はO-Mega、Vellum、BenchLMなどの二次情報・集約情報 [ |
| オープンウェイト系や技術検証 | DeepSeek V4 / V4 Pro | 中〜低 | Hugging Face、BenchLM、NxCode、Redreamalityにシグナルはあるが、派生名が混在し、独立検証が必要 [ |
| 定量ランキングへの正式採用 | Kimi K2.6は慎重に扱う | 低 | LLM StatsのGPQA 0.91などはあるが、比較可能なmulti-benchmarkの材料が足りない [ |
プレゼンで過剰に言い切らないために
社内資料や意思決定資料に落とすなら、性能と根拠の強さを分けて見せるのが最も安全です。1枚目は用途別の推奨、2枚目はベンチマーク表、3枚目は方法論上の注意、という構成が扱いやすいでしょう。
メッセージは明確です。Claude Opus 4.7は、codingとエージェント型作業で最も根拠が厚い。GPT-5.5は、一般推論で最も強い対抗馬。DeepSeek V4/V4 Proは、技術検証の価値が高いが自前の検証が必要。Kimi K2.6は、現時点では比較材料不足です。
最後に、必ず三つの注記を入れるべきです。第一に、SWE-bench、SWE-bench Verified、SWE-bench Proを同じテストとして扱わないこと。SWE-bench Proは、より難しい長期ホライズンのソフトウェアタスク向けに設計されている [38]。第二に、MMLUだけで判断しないこと。2026年時点では上位モデルが88%超に集まり、差別化力が落ちている [
1]。第三に、それぞれの数字に公式、リーダーボード、集約サイト、コミュニティ、主張という出典ラベルを付けることです。
結論
公開根拠を重視してモデルを選ぶなら、Claude Opus 4.7を先頭に置くのが最も防御しやすい判断です。Anthropicの公式情報、Vals AIのSWE-bench首位、Vellumなど第三者のSWE-bench系結果がそろっているためです [16][
17][
20]。
GPT-5.5は、推論系では同等以上に強い可能性があります。ただし、今回確認できる数値は主に二次情報や集約サイト由来なので、総合優勝と断言するより、推論の最有力対抗馬と位置づけるのが妥当です [3][
6][
12]。
DeepSeek V4/V4 Proは、特に技術検証やオープンウェイト系の選択肢として試す価値がありますが、派生名の混在と独立検証の不足を踏まえると、リーダー認定ではなく検証候補と呼ぶべきです [25][
26][
27][
30]。Kimi K2.6は、GPQAなどの断片的なシグナルはあるものの、広い比較に使うにはまだ証拠が足りません [
7][
21]。




