studioglobal
トレンドを発見する
レポート公開済み20 ソース

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6:2026年ベンチマーク比較

公開根拠の厚さまで含めると、codingとエージェント型タスクではClaude Opus 4.7が最も説明しやすい。Anthropicは研究エージェント内部ベンチマークで0.715、Vals AIはSWE benchで82.00%と報告している [16][17]。 GPT 5.5は推論系の数値が強い。O MegaはMMLU 92.4%、GPQA Diamond 93.6%、ARC AGI 2 85.0%、ARC AGI 1 95.0%を報告しているが、根拠は主に二次情報や集約サイトに寄る [3]。

3.0K0
Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6
Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026Comparativa editorial de cuatro modelos frontier y emergentes según benchmarks públicos disponibles.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026. Article summary: La lectura más defendible es que Claude Opus 4.7 tiene la mejor evidencia pública: Vals AI lo sitúa en 82.00% en SWE bench, actualizado el 24/04/2026, y Anthropic reporta 0.715 en su benchmark interno de research agen.... Topic tags: ai, ai benchmarks, llm, claude, openai. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs Claude vs GPT-5.5. Claude Opus 4.6 is no longer Anthropic's flagship — Opus 4.7 shipped on April 16, 2026, at the same $5/$25 price. If you're evaluating "best Ant" source context "DeepSeek V4 vs Claude vs GPT-5.5 - Verdent AI" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90

openai.com

4モデルを一つの総合順位に押し込むと、かなり誤解が出ます。Claude Opus 4.7は公式情報と外部リーダーボードの両方が比較的そろっています。GPT-5.5は推論で強い数字が出ていますが、今回確認できる範囲では二次情報や集約サイトの比重が高い。DeepSeek V4/V4 Proは有望な一方で、モデルの派生名が混在します。Kimi K2.6はまだ比較材料が薄い、というのが出発点です。

まず結論:勝者は用途で変わる

モデルいま最も無理のない読み方根拠の強さ
Claude Opus 4.7公開情報ベースでは、coding、エージェント型タスク、複数ステップの作業で最も説明しやすい。Anthropicは研究エージェント内部ベンチマークで0.715、Vals AIはSWE-benchで82.00%と報告している [16][17]高〜中
GPT-5.5一般推論では非常に強い。O-MegaはMMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0%を報告している [3]
DeepSeek V4 / V4 Procodingや技術検証の候補として有望。ただし、V4、V4 Pro、V4 Pro Highの結果をそのまま同一視しないほうがよい [25][27]中〜低
Kimi K2.6LLM StatsのGPQA 0.91、WhatLLMのQuality Indexトップ10入りなどのシグナルはあるが、広いベンチマーク比較には不足している [7][21]

比較できるベンチマーク一覧

ベンチマーク / 指標Claude Opus 4.7GPT-5.5DeepSeek V4 / V4 ProKimi K2.6読み方
SWE-benchVals AIで82.00%。2026年4月24日更新 [17]比較可能な数値は確認できずNxCodeがDeepSeek V4で81%と主張 [26]比較可能な数値は確認できず最も素直に読むならClaude優勢。
SWE-bench VerifiedVellumで87.6%、LMCouncilで83.5% ± 1.7 [20][9]比較可能な数値は確認できずHugging Faceのコミュニティ評価に項目はあるが、取得した要約では数値は見えない [25]比較可能な数値は確認できず数値差は、出典、設定、サブセットの違いを考慮する必要がある。
SWE-bench ProVellumで64.3% [20]比較可能な数値は確認できずHugging Faceのコミュニティ評価に項目はあるが、取得した要約では数値は見えない [25]比較可能な数値は確認できず長い工程を伴うソフトウェアエージェント評価として重要。
GPQA Diamond94.2%。O-Mega、Vellum、TNWが報告 [3][12][15]93.6%。O-MegaとVellumが報告 [3][12]コミュニティ評価スイートで言及されるが、比較可能な数値は確認できず [25]LLM Statsで0.91 [7]ClaudeとGPT-5.5の差は小さく、GPQAだけで勝敗を決めるのは危うい。
MMLU比較可能な数値は確認できずO-Megaで92.4% [3]MMLU-Proがコミュニティ評価に登場するが、数値は確認できず [25]比較可能な数値は確認できず2026年時点では上位モデルで飽和気味。重みづけは低めでよい。
ARC-AGI比較可能な数値は確認できずARC-AGI-2 85.0%、ARC-AGI-1 95.0%。O-Megaが報告 [3]比較可能な数値は確認できず比較可能な数値は確認できずGPT-5.5の一般推論の強さを示す材料。ただし出典には注意。
研究エージェント / 複数ステップ作業Anthropicの内部ベンチマークで0.715 [16]比較可能な数値は確認できずBenchLMがDeepSeek V4 Pro HighのAgenticを83.8/100と報告 [27]比較可能な数値は確認できず方向性は見えるが、同じ物差しではない。
長文コンテキスト / Needle-in-a-HaystackAnthropicは、試験したモデルの中で最も一貫したlong-context性能だったと述べている [16]比較可能な数値は確認できずNxCodeが1Mトークンで97%と報告。ただし独立検証が条件になる [26]比較可能な数値は確認できずDeepSeekの主張は強いが、結論には追加検証が必要。
LiveCodeBench / Codeforces比較可能な数値は確認できず比較可能な数値は確認できずRedreamalityがDeepSeek V4でLiveCodeBench 93.5、Codeforces 3206と報告 [30]比較可能な数値は確認できず純粋なcoding能力の前向きなシグナル。ただしagentic codingの結論とは別。

ベンチマークは同じ土俵ではない

SWE-benchは、実際のソフトウェアエンジニアリング課題を解く能力を見るベンチマークとして説明されている [17]。一方、SWE-bench Proは、より難しい長期ホライズンのソフトウェアタスクを対象にした派生ベンチマークとして提示されている [38]。したがって、SWE-bench、SWE-bench Verified、SWE-bench Proを同じ数字のように扱うべきではありません。

GPQA Diamondも便利ですが、フロンティアモデルの比較では差が詰まりすぎています。TNWは、Opus 4.7、GPT-5.4 Pro、Gemini 3.1 ProなどがGPQA Diamondで非常に近く、差は測定ノイズの範囲に入ると指摘している [15]。MMLUはさらに注意が必要です。Nanonetsは、2026年には上位モデルがMMLUで88%を超えており、リーダー同士を細かく分けるには飽和していると説明している [1]

もう一つ重要なのは、数字の出どころです。公式発表、独立リーダーボード、集約サイト、コミュニティ投稿、技術ブログは同じ重みではありません。BenchLMは、Claude Opus 4.7のプロフィールについて、十分な非生成の公開ベンチマーク行がまだないため公開リーダーボードから除外していると説明している [14]。このような注記も、スコアと同じくらい重要です。

Claude Opus 4.7:codingとエージェント型作業で最も堅い候補

Claude Opus 4.7は、この比較で最も根拠を組み立てやすいモデルです。Anthropicは、Opus 4.7が同社の研究エージェント内部ベンチマークで6モジュール全体の最高スコアに並ぶ0.715を記録し、試験したモデルの中で最も一貫したlong-context性能を示したと述べている [16]。内部評価なので独立ベンチマークとは分けて読むべきですが、複数ステップ作業を重視したモデルであることは読み取れます。

外部指標で最も目立つのはSWE-benchです。Vals AIは、2026年4月24日更新のSWE-benchでClaude Opus 4.7を82.00%の首位としている [17]。VellumはSWE-bench Verifiedで87.6%、SWE-bench Proで64.3%を報告している [20]。LMCouncilはSWE-bench Verifiedで83.5% ± 1.7を示している [9]

ここで大事なのは、どれか一つの数値だけを正解扱いしないことです。SWE-bench、SWE-bench Verified、SWE-bench Proは同じテストではなく、出典、時点、設定、サブセットの違いで数値が変わり得ます [17][20][38]。それでも、ソフトウェアエンジニアリング領域でClaude Opus 4.7が上位、または首位圏にいるという読みはかなり強いと言えます。

推論面でも、Claude Opus 4.7はGPQA Diamondで94.2%と報告されている [3][12][15]。ただし、GPQAは上位モデルが密集しているため、これだけで総合勝者を決めるのは避けるべきです [15]

GPT-5.5:推論は強いが、公式トレーサビリティは薄め

GPT-5.5は、確認できる推論系データでは非常に強い位置にあります。O-Megaは、GPT-5.5についてMMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0%を報告している [3]。VellumもGPQA DiamondでGPT-5.5を93.6%としている [12]。BenchLMはGPT-5.5を暫定リーダーボードで89/100、検証済みリーダーボードで16モデル中2位としている [6]

注意点は、今回の材料ではOpenAI自身による包括的な公式ベンチマークカードが確認できていないことです。Appwriteは2026年4月24日の記事でGPT-5.5の登場を扱い、Vals AIもopenai/gpt-5.5を2026年4月23日リリース、Vals Index 67.76% ± 1.79としているが、これらはAnthropicのClaude Opus 4.7公式情報と同じ種類の一次資料ではありません [2][11]

したがって、GPT-5.5は一般推論の最有力候補として扱うのが自然です。一方で、全モデルに同じ厚さの公開根拠を求めるなら、総合勝者と断言するには慎重さが必要です [3][6][12]

DeepSeek V4 / V4 Pro:試す価値は大きいが、派生名の混在に注意

DeepSeekは、今回の比較で最もモデル名の扱いが難しいケースです。出典によってDeepSeek V4、DeepSeek V4 Pro、DeepSeek V4 Pro Highが混在しており、ある派生の数値を別の派生にそのまま移すのは避けるべきです [25][26][27]

Hugging Faceでは、DeepSeek-V4-ProについてGPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0などのコミュニティ評価結果を追加する議論が確認できる [25]。BenchLMはDeepSeek V4 Pro Highについて、Agentic 83.8/100、Coding 88.8/100、Knowledge 72.1/100を報告している [27]。NxCodeはDeepSeek V4についてSWE-bench 81%、1MトークンのNeedle-in-a-Haystackで97%とするが、97%の読みは独立検証が前提になると説明している [26]

純粋なcoding能力では、RedreamalityがDeepSeek V4についてLiveCodeBench 93.5、Codeforces 3206を報告している [30]。ただし同じ出典は、SWE-bench ProやTerminal-Bench 2.0のような長期ホライズンのエージェント型作業では、クローズドなフロンティアモデルがなお先行しているともまとめている [30]

実務的には、DeepSeek V4/V4 Proは社内検証に入れる価値があります。特に、オープンウェイト系の検証、技術的コントロール、コスト、ローカル運用の可能性を重視する場合は候補になります。ただし、公開ベンチマークの堅さという点では、Claude Opus 4.7と同列には置きにくいのが現時点の見方です [16][17][25][27]

Kimi K2.6:名前は出るが、比較表の主役にはまだ早い

Kimi K2.6は無視すべきモデルではありませんが、Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Proと同じ密度で比較するには材料が足りません。LLM StatsはKimi K2.6をGPQA 0.91としており、WhatLLMはQuality Indexのトップ10にKimi K2.6を入れている [7][21]。これはベンチマーク上の存在感を示すシグナルではありますが、multi-benchmarkの比較としては不十分です。

また、Kimi K2.5の結果でKimi K2.6を代用するのも避けるべきです。Simon Willisonは2026年2月のSWE-bench Verified更新でKimi K2.5の結果を取り上げているが、それはKimi K2.6とは別バージョンです [8]。厳密に扱うなら、Kimi K2.6は現時点では比較可能な根拠が不足、または追加検証待ちと位置づけるのが安全です。

用途別ランキング

用途推奨モデル確信度理由
実際のissue解決、coding agentClaude Opus 4.7高〜中Vals AIのSWE-benchで82.00%の首位。VellumでもSWE-bench VerifiedとSWE-bench Proで強い [17][20]
複数ステップの調査、研究エージェントClaude Opus 4.7Anthropicが内部研究エージェントベンチマークで0.715、long-context性能の一貫性を報告している [16]
科学推論、GPQA系Claude Opus 4.7またはGPT-5.5Claudeは94.2%、GPT-5.5は93.6%。差は小さく、GPQA自体も上位モデルでは詰まっている [3][12][15]
広い一般推論GPT-5.5中〜低MMLU、GPQA、ARC-AGIの数字は強いが、主な根拠はO-Mega、Vellum、BenchLMなどの二次情報・集約情報 [3][6][12]
オープンウェイト系や技術検証DeepSeek V4 / V4 Pro中〜低Hugging Face、BenchLM、NxCode、Redreamalityにシグナルはあるが、派生名が混在し、独立検証が必要 [25][26][27][30]
定量ランキングへの正式採用Kimi K2.6は慎重に扱うLLM StatsのGPQA 0.91などはあるが、比較可能なmulti-benchmarkの材料が足りない [7][21]

プレゼンで過剰に言い切らないために

社内資料や意思決定資料に落とすなら、性能と根拠の強さを分けて見せるのが最も安全です。1枚目は用途別の推奨、2枚目はベンチマーク表、3枚目は方法論上の注意、という構成が扱いやすいでしょう。

メッセージは明確です。Claude Opus 4.7は、codingとエージェント型作業で最も根拠が厚い。GPT-5.5は、一般推論で最も強い対抗馬。DeepSeek V4/V4 Proは、技術検証の価値が高いが自前の検証が必要。Kimi K2.6は、現時点では比較材料不足です。

最後に、必ず三つの注記を入れるべきです。第一に、SWE-bench、SWE-bench Verified、SWE-bench Proを同じテストとして扱わないこと。SWE-bench Proは、より難しい長期ホライズンのソフトウェアタスク向けに設計されている [38]。第二に、MMLUだけで判断しないこと。2026年時点では上位モデルが88%超に集まり、差別化力が落ちている [1]。第三に、それぞれの数字に公式、リーダーボード、集約サイト、コミュニティ、主張という出典ラベルを付けることです。

結論

公開根拠を重視してモデルを選ぶなら、Claude Opus 4.7を先頭に置くのが最も防御しやすい判断です。Anthropicの公式情報、Vals AIのSWE-bench首位、Vellumなど第三者のSWE-bench系結果がそろっているためです [16][17][20]

GPT-5.5は、推論系では同等以上に強い可能性があります。ただし、今回確認できる数値は主に二次情報や集約サイト由来なので、総合優勝と断言するより、推論の最有力対抗馬と位置づけるのが妥当です [3][6][12]

DeepSeek V4/V4 Proは、特に技術検証やオープンウェイト系の選択肢として試す価値がありますが、派生名の混在と独立検証の不足を踏まえると、リーダー認定ではなく検証候補と呼ぶべきです [25][26][27][30]。Kimi K2.6は、GPQAなどの断片的なシグナルはあるものの、広い比較に使うにはまだ証拠が足りません [7][21]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 公開根拠の厚さまで含めると、codingとエージェント型タスクではClaude Opus 4.7が最も説明しやすい。Anthropicは研究エージェント内部ベンチマークで0.715、Vals AIはSWE benchで82.00%と報告している [16][17]。
  • GPT 5.5は推論系の数値が強い。O MegaはMMLU 92.4%、GPQA Diamond 93.6%、ARC AGI 2 85.0%、ARC AGI 1 95.0%を報告しているが、根拠は主に二次情報や集約サイトに寄る [3]。
  • DeepSeek V4/V4 Proは技術検証の候補として有望だが、V4、V4 Pro、V4 Pro Highの数値が混在する。Kimi K2.6はGPQA 0.91などの断片的なシグナルはあるものの、広い比較にはまだ足りない [7][25][27]。

人々も尋ねます

「Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6:2026年ベンチマーク比較」の短い答えは何ですか?

公開根拠の厚さまで含めると、codingとエージェント型タスクではClaude Opus 4.7が最も説明しやすい。Anthropicは研究エージェント内部ベンチマークで0.715、Vals AIはSWE benchで82.00%と報告している [16][17]。

最初に検証する重要なポイントは何ですか?

公開根拠の厚さまで含めると、codingとエージェント型タスクではClaude Opus 4.7が最も説明しやすい。Anthropicは研究エージェント内部ベンチマークで0.715、Vals AIはSWE benchで82.00%と報告している [16][17]。 GPT 5.5は推論系の数値が強い。O MegaはMMLU 92.4%、GPQA Diamond 93.6%、ARC AGI 2 85.0%、ARC AGI 1 95.0%を報告しているが、根拠は主に二次情報や集約サイトに寄る [3]。

次の実践では何をすればいいでしょうか?

DeepSeek V4/V4 Proは技術検証の候補として有望だが、V4、V4 Pro、V4 Pro Highの数値が混在する。Kimi K2.6はGPQA 0.91などの断片的なシグナルはあるものの、広い比較にはまだ足りない [7][25][27]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「Northwest Timber と Southeast Timber:なぜ答えは「larger; larger」なのか」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

Investiga los benchmarks de Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6, y compáralos de la forma más completa posible en formato de informe de investigación para su presentación.

Studio Global AI40 ソース

引用された回答

La comparación más honesta es parcial: Claude Opus 4.7 es el modelo con mejor soporte público para benchmarks de coding y agente, GPT-5.5 aparece fuerte en razonamiento según fuentes secundarias, DeepSeek V4/V4 Pro muestra señales competitivas pero con evidencia más comunitaria/provisional, y para Kimi K2.6 no encontré evidencia citable suficiente. Para una presentación ejecutiva, recomiendo mostrar a Claude como el líder mejor respaldado en SWE-bench, a GPT-5.5 como competidor fuerte pero menos verificable públicamente, a DeepSeek como alternativa abierta/prometedora pendiente de validación, y a Kimi K2.6 como “Insufficient evidence”.

Key findings

  • Claude Opus 4.7 tiene la evidencia más sólida del conjunto porque aparece en una fuente oficial de Anthropic con un benchmark interno de research-agent y en fuentes externas de coding como SWE-bench/Vals AI [1][2].

  • En SWE-bench, Vals AI reporta que Claude Opus 4.7 lidera con 82.00% en una página actualizada el 24 de abril de 2026 [2].

  • Hay conflicto entre fuentes sobre el rendimiento de Claude en SWE-bench: Vals AI reporta 82.00%, mientras que Vellum reporta 87.6% en SWE-bench Verified y 64.3% en SWE-bench Pro [2][15].

  • En GPQA Diamond, TNW reporta 94.2% para Claude Opus 4.7 y señala que las diferencias entre modelos frontier en ese benchmark están dentro del ruido de medición [3].

  • GPT-5.5 tiene métricas fuertes en fuentes secundarias: O-Mega reporta MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% [4].

  • No encontré una fuente oficial de OpenAI en el corpus recuperado para validar los benchmarks de GPT-5.5, por lo que sus resultados deben presentarse como “provisionales / secundarios”.

  • DeepSeek aparece principalmente como DeepSeek V4 Pro o V4 Pro High en las fuentes recuperadas, no siempre como “DeepSeek V4” base [6][8].

  • Para DeepSeek V4/V4 Pro, la evidencia combina discusión comunitaria de Hugging Face, agregadores y blogs técnicos, por lo que su comparabilidad con Claude y GPT-5.5 es menor [6][7][8][9].

  • Kimi K2.6 no cuenta con evidencia suficiente en las fuentes recuperadas; no recomiendo incluirlo en una tabla de ranking como si tuviera benchmarks verificados.

Metodología de lectura

  • Prioricé fuentes oficiales, leaderboards especializados, discusiones técnicas con trazabilidad y fuentes académicas sobre benchmarks [1][2][6][10][11].

  • Clasifiqué la evidencia en cuatro niveles: oficial, benchmark independiente, agregador/comunidad y blog o análisis secundario [1][2][4][6][8].

  • No traté como equivalentes los resultados de SWE-bench, SWE-bench Verified y SWE-bench Pro, porque SWE-bench Pro se define como una variante más desafiante y orientada a tareas de ingeniería de software de largo horizonte [10].

  • Consideré MMLU como métrica de bajo poder discriminativo para modelos frontier, ya que una fuente de explicación de benchmarks indica que en 2026 los modelos top superan el 88% y el benchmark está muy saturado [12].

Matriz comparativa ejecutiva

ModeloEstado de evidenciaBenchmarks más relevantes recuperadosLectura ejecutiva
Claude Opus 4.7Alta-mediaResearch-agent interno 0.715 y fuerte rendimiento de long-context según Anthropic; SWE-bench 82.00% según Vals AI; GPQA Diamond 94.2% según TNW [1][2][3]Mejor candidato para presentarlo como líder respaldado en coding/agente, con cautela por diferencias entre fuentes [2][15]
GPT-5.5Media-bajaMMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% según O-Mega [4]Muy fuerte en razonamiento según fuentes secundarias, pero falta validación oficial en el corpus recuperado [4][5]
DeepSeek V4 / V4 ProMedia-bajaBenchLM reporta DeepSeek V4 Pro High con Agentic 83.8/100 y Coding 88.8/100; NxCode habla de 81% en SWE-bench y 97% en Needle-in-a-Haystack a 1M tokens como resultado reclamado [7][8]Alternativa competitiva, especialmente si se valora ecosistema abierto/local, pero requiere validación independiente antes de una decisión ejecutiva [6][8][9]
Kimi K2.6Insufficient evidenceNo hay benchmark citable suficiente en las fuentes recuperadasNo incluir como comparable verificado; pedir fuente oficial o leaderboard antes de presentarlo

Benchmarks numéricos recuperados

Benchmark / métricaClaude Opus 4.7GPT-5.5DeepSeek V4 / V4 ProKimi K2.6
SWE-bench82.00% según Vals AI [2]No recuperado en fuente suficientemente comparable81% reclamado en una fuente secundaria sobre DeepSeek V4 [7]Insufficient evidence
SWE-bench Verified87.6% según Vellum [15]No recuperadoIncluido como benchmark evaluado en discusión comunitaria de DeepSeek-V4-Pro, sin cifra visible en el resumen recuperado [6]Insufficient evidence
SWE-bench Pro64.3% según Vellum [15]No recuperadoIncluido en la discusión comunitaria de DeepSeek-V4-Pro, sin cifra visible en el resumen recuperado [6]Insufficient evidence
GPQA Diamond94.2% según TNW y O-Mega [3][4]93.6% según O-Mega [4]Mencionado dentro de suites comunitarias, sin cifra visible en el resumen recuperado [6][9]Insufficient evidence
MMLUNo recuperado con cifra comparable92.4% según O-Mega [4]MMLU-Pro aparece como evaluación comunitaria, sin cifra visible en el resumen recuperado [6]Insufficient evidence
ARC-AGI-2No recuperado85.0% según O-Mega [4]No recuperadoInsufficient evidence
ARC-AGI-1No recuperado95.0% según O-Mega [4]No recuperadoInsufficient evidence
Research-agent / tareas multi-step0.715 en benchmark interno de Anthropic [1]No recuperadoBenchLM reporta categoría Agentic 83.8/100 para DeepSeek V4 Pro High [8]Insufficient evidence
Long-context / Needle-in-a-HaystackAnthropic afirma rendimiento long-context muy consistente [1]No recuperadoNxCode reporta 97% a 1M tokens como resultado reclamado, condicionado a validación independiente [7]Insufficient evidence
LiveCodeBench / CodeforcesNo recuperadoNo recuperadoRedreamality reporta LiveCodeBench 93.5 y Codeforces 3206 para DeepSeek V4 [9]Insufficient evidence

Análisis por modelo

Claude Opus 4.7

Claude Opus 4.7 es el modelo mejor respaldado del conjunto porque tiene una página oficial de Anthropic y resultados externos de SWE-bench [1][2].

Anthropic afirma que Opus 4.7 empató el mejor resultado global en su benchmark interno de research-agent con 0.715 y que mostró el rendimiento long-context más consistente entre los modelos evaluados [1].

Vals AI reporta que Claude Opus 4.7 lidera SWE-bench con 82.00% en una página actualizada el 24 de abril de 2026 [2].

Vellum reporta cifras más altas para Claude, con 87.6% en SWE-bench Verified y 64.3% en SWE-bench Pro [15].

La diferencia entre 82.00% y 87.6% debe tratarse como una discrepancia de metodología, subconjunto o configuración, no como una mejora confirmada única [2][15].

En razonamiento científico, TNW reporta 94.2% en GPQA Diamond para Claude Opus 4.7 y contextualiza que los modelos frontier están muy cerca entre sí en ese benchmark [3].

GPT-5.5

GPT-5.5 aparece muy fuerte en razonamiento general según O-Mega, que reporta MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% [4].

Appwrite publicó un artículo titulado “GPT-5.5 is here” con foco en benchmarks, pricing y cambios para desarrolladores el 24 de abril de 2026, pero se trata de una fuente secundaria y no de una ficha oficial de OpenAI [5].

La evidencia recuperada no permite confirmar con una fuente oficial de OpenAI los benchmarks de GPT-5.5, por lo que sus puntuaciones deben etiquetarse como “terceros / no verificadas oficialmente”.

Para una presentación, GPT-5.5 puede colocarse como competidor muy fuerte en razonamiento, pero no como ganador global si se exige trazabilidad oficial comparable a la de Claude [1][4][5].

DeepSeek V4 / V4 Pro

La evidencia recuperada para DeepSeek se concentra en variantes como DeepSeek V4 Pro y DeepSeek V4 Pro High, lo que impide asumir automáticamente que las cifras representan al modelo base DeepSeek V4 [6][8].

Hugging Face muestra una discusión comunitaria para DeepSeek-V4-Pro con evaluaciones en GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified y Terminal-Bench 2.0 [6].

BenchLM reporta para DeepSeek V4 Pro High una categoría Agentic de 83.8/100 y una categoría Coding de 88.8/100 [8].

NxCode presenta DeepSeek V4 como un modelo de 1T parámetros con 81% en SWE-bench y 97% en Needle-in-a-Haystack a 1M tokens, pero el propio resumen indica que la cifra de 97% debe sostenerse bajo pruebas independientes para ser concluyente [7].

Redreamality reporta que DeepSeek V4 alcanza LiveCodeBench 93.5 y Codeforces 3206, y al mismo tiempo afirma que los modelos cerrados siguen liderando en tareas agentic de largo horizonte [9].

Para una presentación, DeepSeek debe mostrarse como “competidor técnico prometedor” y no como líder validado, salvo que el equipo disponga de benchmarks internos reproducibles [6][7][8][9].

Kimi K2.6

No encontré benchmarks citables suficientes para Kimi K2.6 en las fuentes recuperadas.

No recomiendo sustituir Kimi K2.6 por Kimi K2.5 u otra variante, porque eso mezclaría modelos diferentes y degradaría la validez de la comparación.

La forma más segura de presentarlo es como “pendiente de validación” o “Insufficient evidence”.

Ranking por escenario de uso

EscenarioModelo recomendadoJustificación
Coding y resolución de issues realesClaude Opus 4.7Vals AI lo reporta como líder en SWE-bench con 82.00%, y Vellum también lo ubica fuerte en SWE-bench Verified y SWE-bench Pro [2][15]
Razonamiento general / cienciaClaude Opus 4.7 o GPT-5.5Claude aparece con 94.2% en GPQA Diamond, mientras GPT-5.5 aparece con 93.6% en O-Mega; la diferencia es pequeña y debe leerse con cautela [3][4]
Agentes y tareas multi-stepClaude Opus 4.7Anthropic reporta 0.715 en su benchmark interno de research-agent y fuerte consistencia long-context [1]
Alternativa abierta / ecosistema técnicoDeepSeek V4 ProBenchLM y Hugging Face muestran suites de evaluación amplias para DeepSeek V4 Pro, aunque la evidencia es menos oficial que la de Claude [6][8]
Presentación con evidencia verificableClaude Opus 4.7Es el único del conjunto con fuente oficial clara y señales externas de benchmark en el corpus recuperado [1][2]
Inclusión de Kimi K2.6No recomendadoInsufficient evidence

Evidence notes

  • La fuente más fuerte para Claude es oficial, pero su benchmark de research-agent es interno y no necesariamente reproducible por terceros [1].

  • Vals AI es la fuente más limpia para una comparación de SWE-bench porque reporta directamente un leaderboard de SWE-bench actualizado el 24 de abril de 2026 [2].

  • Vellum aporta más detalle para SWE-bench Verified y SWE-bench Pro, pero sus cifras no coinciden con Vals AI y deben presentarse como una fuente alternativa [15].

  • O-Mega aporta varias cifras útiles para GPT-5.5, pero debe tratarse como fuente secundaria hasta que exista una ficha oficial o un leaderboard independiente reproducible [4].

  • La discusión de Hugging Face para DeepSeek-V4-Pro demuestra actividad comunitaria de evaluación, pero no equivale por sí sola a una publicación oficial o a un benchmark auditado [6].

  • SWE-bench Pro es especialmente relevante para comparar agentes de software porque evalúa tareas más difíciles y de mayor horizonte que benchmarks de coding más simples [10].

  • MMLU debe tener menor peso en la decisión porque fuentes de explicación de benchmarks indican saturación entre modelos top en 2026 [12].

Limitations / uncertainty

  • Insufficient evidence para Kimi K2.6.

  • No recuperé una fuente oficial de OpenAI con benchmark card de GPT-5.5, por lo que cualquier cifra de GPT-5.5 en este informe debe etiquetarse como secundaria.

  • No recuperé una fuente oficial de DeepSeek que consolide los r

情報源

  • [1] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com

    How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...

  • [2] GPT-5.5 is here: benchmarks, pricing, and what changes ... - Appwriteappwrite.io

    Star on GitHub 55.8KGo to Console Start building for free Sign upGo to Console Start building for free Products Docs Pricing Customers Blog Changelog Star on GitHub 55.8K Blog/GPT-5.5 is here: benchmarks, pricing, and what changes for developers Apr 24, 202...

  • [3] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...

  • [6] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [7] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [8] SWE-bench February 2026 leaderboard updatesimonwillison.net

    Here's how the top ten models performed: Image 1: Bar chart showing "% Resolved" by "Model". Bars in descending order: Claude 4.5 Opus (high reasoning) 76.8%, Gemini 3 Flash (high reasoning) 75.8%, MiniMax M2.5 (high reasoning) 75.8%, Claude Opus 4.6 75.6%,...

  • [9] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [11] GPT 5.5 - Vals AIvals.ai

    2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...

  • [12] LLM Leaderboard 2026 — Compare Top AI Models - Vellumvellum.ai

    93.6% GPT-5.5 92.4% GPT 5.2 91.9% Gemini 3 Pro Best in Reasoning (GPQA Diamond) Model Score --- Claude 3 Opus 95.4% Claude Opus 4.7 94.2% GPT-5.5 93.6% GPT 5.2 92.4% Gemini 3 Pro 91.9% Best in High School Math (AIME 2025) 100%96%93%89%86% 100% Gemini 3 Pro...

  • [14] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performance | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 BenchLM is tracking Claude Opus 4.7, but this profile is currently excluded from the public leaderboard because it still lacks enough non-generated benchmark cov...

  • [15] Claude Opus 4.7 leads on SWE-bench and agentic ... - TNWthenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [16] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [17] SWE-bench - Vals AIvals.ai

    Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Coding SWE-bench SWE-bench Updated: 4/24/2026 Solving production software engineering tasks Key Takeaways Claude Opus 4.7 leads with a...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Coding is the clear headline. SWE-bench Verified jumps from 80.8% to 87.6%, a nearly 7-point gain that puts Opus 4.7 ahead of Gemini 3.1 Pro (80.6%). On SWE-bench Pro, the harder multi-language variant, Opus 4.7 goes from 53.4% to 64.3%, leapfrogging both G...

  • [21] WhatLLM.org: Compare LLMs by Benchmarks, Price & Speed — Live Rankingswhatllm.org

    whatllm? whatllm.org WhatLLM.org - LLM Comparison Tool The ultimate LLM comparison tool Compare price, performance, and speed across the entire AI ecosystem. Updated daily with the latest benchmarks. Top 10 Models Ranked by Quality Index across all benchmar...

  • [25] Add community evaluation results for GPQA, GSM8K, HLE, MMLU ...huggingface.co

    deepseek-ai/DeepSeek-V4-Pro · Add community evaluation results for GPQA, GSM8K, HLE, MMLU-PRO, SWE-BENCH PRO, SWE-BENCH VERIFIED, TERMINAL-BENCH-2.0 Image 1: Hugging Face's logoHugging Face Models Datasets Spaces Buckets new Docs Enterprise Pricing Log In S...

  • [26] DeepSeek V4 (2026): 1T Parameters, 81% SWE-bench ... - NxCodenxcode.io

    The claimed results: Metric Standard Attention Engram (DeepSeek V4) --- Needle-in-a-Haystack (1M tokens) 84.2% accuracy 97% accuracy Context Length Supported Varies (128K typical) 1M tokens If the 97% figure holds up under independent testing, this represen...

  • [27] DeepSeek V4 Pro (High) Benchmarks 2026 - BenchLM.aibenchlm.ai

    Category Performance PNG Embed Share Scores across all benchmark categories (0-100 scale) Category Breakdown Agentic 83.8/ 100 Weight: 22%5 benchmark s Terminal-Bench 2.0 BrowseComp OSWorld-Verified GAIA TAU-bench WebArena Coding 7 88.8/ 100 Weight: 20%6 be...

  • [30] Mapping the DeepSeek V4 Evaluation Suite: A Field Guide to 2026 ...redreamality.com

    The Takeaway The V4 scorecard confirms a pattern: for pure coding, open weights have caught up (LiveCodeBench 93.5, Codeforces 3206). For long-horizon agentic work (SWE-bench Pro, Terminal-Bench 2.0), closed frontier still leads. For frontier reasoning (HLE...

  • [38] Swe-bench pro: Can ai agents solve long-horizon software engineering tasks?arxiv.org

    … PRO, a substantially more challenging benchmark that builds … In our evaluation of widely used coding models, under a unified … Towards this end, this paper is motivated to (1) mitigate … 2025