studioglobal
熱門發現
報告已發布20 來源

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6:2026 Benchmark 實證比較

最穩陣嘅讀法係:Claude Opus 4.7 在 coding、agentic software work 同 multi step 工作上證據最完整;Anthropic 報告 research agent 內部 benchmark 0.715,Vals AI 則列出 SWE bench 82.00% [16][17]。 GPT 5.5 在通用推理好有競爭力:O Mega 報告 MMLU 92.4%、GPQA Diamond 93.6%、ARC AGI 2 85.0%、ARC AGI 1 95.0%,但主要來自第三方或聚合資料 [3]。

3.8K0
Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6
Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026Comparativa editorial de cuatro modelos frontier y emergentes según benchmarks públicos disponibles.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026. Article summary: La lectura más defendible es que Claude Opus 4.7 tiene la mejor evidencia pública: Vals AI lo sitúa en 82.00% en SWE bench, actualizado el 24/04/2026, y Anthropic reporta 0.715 en su benchmark interno de research agen.... Topic tags: ai, ai benchmarks, llm, claude, openai. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs Claude vs GPT-5.5. Claude Opus 4.6 is no longer Anthropic's flagship — Opus 4.7 shipped on April 16, 2026, at the same $5/$25 price. If you're evaluating "best Ant" source context "DeepSeek V4 vs Claude vs GPT-5.5 - Verdent AI" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90

openai.com

如果你想搵一個「四大模型總冠軍」,答案其實係:暫時唔應該咁睇。Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Pro 同 Kimi K2.6 目前可見嘅公開資料深淺唔一樣;有啲有官方資料加外部 leaderboard,有啲主要靠聚合器、社群評測或者技術 blog。將佢哋硬塞入同一張總榜,反而容易誤導。

更實際嘅做法係分兩條線睇:模型表現證據可信度。以下係截至現有資料,較可 defend 嘅比較。

先講結論:邊個場景揀邊個?

模型較穩陣解讀證據信心
Claude Opus 4.7目前公開證據最支持佢做 coding、agentic software work、多步驟任務。Anthropic 報告 research-agent 內部 benchmark 0.715;Vals AI 在 2026年4月24日更新嘅 SWE-bench 頁面列 Claude Opus 4.7 以 82.00% 排第一 [16][17]高至中
GPT-5.5通用推理非常強。O-Mega 報告 MMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0% [3]
DeepSeek V4 / V4 Procoding 同技術探索有吸引力,但公開資料混合 V4、V4 Pro、V4 Pro High 多個變體,唔適合直接互換分數 [25][27]中至低
Kimi K2.6有局部 benchmark 訊號,例如 LLM Stats 列 GPQA 0.91,WhatLLM 將 Kimi K2.6 放入 Quality Index top 10;但多 benchmark 覆蓋仍然唔夠 [7][21]

可比 benchmark 一覽

Benchmark / 指標Claude Opus 4.7GPT-5.5DeepSeek V4 / V4 ProKimi K2.6點樣解讀
SWE-benchVals AI:82.00%,2026年4月24日更新 [17]未見可直接對照數字NxCode 稱 DeepSeek V4 達 81% [26]未見可直接對照數字最清晰公開訊號偏向 Claude。
SWE-bench VerifiedVellum:87.6%;LMCouncil:83.5% ± 1.7 [20][9]未見可直接對照數字Hugging Face 社群評測列出有跑 SWE-bench Verified,但可見摘要未有可直接對照數字 [25]未見可直接對照數字數字會因來源、配置、子集而變。
SWE-bench ProVellum:64.3% [20]未見可直接對照數字Hugging Face 社群評測列出有跑 SWE-bench Pro,但可見摘要未有可直接對照數字 [25]未見可直接對照數字更貼近長周期 software agent 任務。
GPQA DiamondO-Mega、Vellum、TNW:94.2% [3][12][15]O-Mega、Vellum:93.6% [3][12]社群 suite 有提及,但可見摘要未有可直接對照數字 [25]LLM Stats:0.91 [7]Claude 同 GPT-5.5 差距太細,唔應只靠 GPQA 定勝負。
MMLU未見可直接對照數字O-Mega:92.4% [3]MMLU-Pro 出現在社群評測項目,但可見摘要未有數字 [25]未見可直接對照數字MMLU 對 frontier models 已偏飽和,分辨力有限。
ARC-AGI未見可直接對照數字ARC-AGI-2:85.0%;ARC-AGI-1:95.0%,O-Mega 報告 [3]未見可直接對照數字未見可直接對照數字支持 GPT-5.5 推理能力強,但仍要留意來源。
Research-agent / multi-step workAnthropic 內部 benchmark:0.715 [16]未見可直接對照數字BenchLM:DeepSeek V4 Pro High Agentic 83.8/100 [27]未見可直接對照數字有方向性參考,但兩者唔係同一把尺。
Long context / Needle-in-a-HaystackAnthropic 稱 Opus 4.7 在其測試模型之中 long-context 表現最一致 [16]未見可直接對照數字NxCode 報告 1M tokens Needle-in-a-Haystack 97%,但同時要等獨立驗證先可作結論 [26]未見可直接對照數字DeepSeek claim 幾強,但未係定案。
LiveCodeBench / Codeforces未見可直接對照數字未見可直接對照數字Redreamality:DeepSeek V4 LiveCodeBench 93.5、Codeforces 3206 [30]未見可直接對照數字對純 coding 係正面訊號,但唔等於 agentic coding 全面勝出。

點解唔可以「一個分數定生死」?

首先,benchmark 本身唔係同一樣嘢。SWE-bench 著眼於實際 software engineering 任務;Vals AI 將佢描述為解決 production software engineering tasks 嘅 benchmark [17]。但 SWE-bench Pro 又要另外睇,因為相關 paper 將佢定位為更困難、面向長周期 software engineering 任務嘅 benchmark [38]

其次,GPQA Diamond 雖然常用嚟睇科學推理,但對頂尖模型嘅分辨力開始有限。TNW 指出,在 GPQA Diamond 上,Opus 4.7、GPT-5.4 Pro、Gemini 3.1 Pro 等 frontier models 已經非常接近,差距落入 measurement noise 之內 [15]。MMLU 更加要小心:Nanonets 指 2026 年 top models 已普遍高過 88%,令 MMLU 太飽和,難以細分最前列模型 [1]

第三,來源重量唔同。官方 benchmark、獨立 leaderboard、聚合器、社群討論、技術 blog,可信度唔可以一視同仁。例如 BenchLM 表示,Claude Opus 4.7 相關 profile 仍未放入公開 leaderboard,原因係未有足夠非生成、公開 benchmark 覆蓋去安全排名 [14]。呢類註腳好重要,因為佢提醒你:即使模型好強,公開證據仍可能未完全齊。

Claude Opus 4.7:coding 同 agentic 任務證據最硬

Claude Opus 4.7 係今次四個模型入面,公開證據最完整嘅一個。Anthropic 官方表示,Opus 4.7 在其內部 research-agent benchmark 六個模組中以 0.715 並列整體最高,並且係其測試模型之中 long-context 表現最一致 [16]。由於呢個係內部 benchmark,唔應該當成獨立第三方測試;但作為官方能力方向訊號,佢相當清楚。

外部訊號方面,SWE-bench 最關鍵。Vals AI 在 2026年4月24日更新嘅 SWE-bench 頁面列 Claude Opus 4.7 以 82.00% 排第一 [17]。Vellum 另外報告 Claude Opus 4.7 在 SWE-bench Verified 達 87.6%,SWE-bench Pro 達 64.3% [20]。LMCouncil 則列出 Claude Opus 4.7 在 SWE-bench Verified 為 83.5% ± 1.7 [9]

正確讀法唔係揀最高一個數字,然後話其他錯。更穩陣係話:Claude 在多個 software engineering 相關來源都處於領先或高位;但 SWE-bench、SWE-bench Verified、SWE-bench Pro 唔係同一個 test,結果亦可能受日期、配置、子集同方法影響 [17][20][38]

在科學推理上,Claude Opus 4.7 在 O-Mega、Vellum、TNW 都見到 GPQA Diamond 94.2% [3][12][15]。不過,正如上面所講,GPQA 對 frontier models 已經好擠,單靠呢個分數唔足以宣佈總冠軍 [15]

GPT-5.5:推理數字靚,但官方可追溯性較弱

GPT-5.5 最突出係推理。O-Mega 報告 GPT-5.5 在 MMLU 有 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0% [3]。Vellum 亦列出 GPT-5.5 在 GPQA Diamond 為 93.6%,喺該表低過 Claude Opus 4.7 [12]。BenchLM 則將 GPT-5.5 放在高階模型位置:provisional leaderboard 89/100,在 verified leaderboard 排 16 個模型之中第 2 [6]

主要保留係可追溯性。今次可用資料入面,GPT-5.5 多數出現在文章、聚合器同 benchmark 頁面;未見到一張 OpenAI 官方 benchmark card,可以同 Anthropic 對 Claude Opus 4.7 嘅官方材料作同級對照。Appwrite 指 GPT-5.5 相關發布文章日期為 2026年4月24日,並寫到 OpenAI 在 2026年4月23日 shipped GPT-5.5;Vals AI 亦列 openai/gpt-5.5 release date 為 4/23/2026,Vals Index 為 67.76% ± 1.79 [2][11]。但呢啲仍然唔等於一份官方 benchmark card。

所以,如果做 executive summary,GPT-5.5 應該被定位為「通用推理一線競爭者」,尤其因為 GPQA 同 ARC-AGI 數字好強;但如果你要求四個模型都有同質、公開、可追溯證據,就唔應該直接封佢做總冠軍 [3][6][12]

DeepSeek V4 / V4 Pro:值得試,但要分清版本

DeepSeek 最大問題唔係冇亮點,而係版本有啲亂。現有資料有時講 DeepSeek V4,有時講 DeepSeek V4 Pro,有時又係 DeepSeek V4 Pro High。呢幾個唔應該自動當成同一個模型,亦唔應該將一個變體嘅分數搬去另一個變體 [25][26][27]

Hugging Face 上 DeepSeek-V4-Pro 社群討論列出多個評測項目,包括 GPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0 [25]。BenchLM 則報告 DeepSeek V4 Pro High 在 Agentic 類別有 83.8/100,Coding 類別有 88.8/100,Knowledge 類別有 72.1/100 [27]

NxCode 對 DeepSeek V4 有更進取嘅說法:SWE-bench 81%,以及 1M tokens Needle-in-a-Haystack 97%;但佢同時以「如果 97% 在獨立測試站得住」作前提,意味呢個 long-context claim 未可直接當成定論 [26]

Redreamality 亦提供另一個正面訊號:DeepSeek V4 在 LiveCodeBench 93.5、Codeforces 3206 [30]。不過同一篇分析亦總結,對於 SWE-bench Pro、Terminal-Bench 2.0 呢類長周期 agentic work,封閉 frontier models 仍然領先 [30]

實務上,DeepSeek V4/V4 Pro 值得做內部 PoC,尤其如果團隊重視技術控制、成本結構、開放生態或者本地部署可行性。但基於現有公開資料,佢仍未去到 Claude 在 SWE-bench 同 Anthropic 官方 multi-step 訊號嗰種證據強度 [16][17][25][27]

Kimi K2.6:有訊號,但未夠做完整比較

Kimi K2.6 唔應該被完全排除,但亦唔應該扮到好似已有同級 benchmark 覆蓋。LLM Stats 將 Kimi K2.6 列為 GPQA 0.91;WhatLLM 亦將 Kimi K2.6 放入按 Quality Index 排列嘅 top 10 模型 [7][21]。呢啲係有用訊號,但未夠支持佢同 Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Pro 做全面、逐項 benchmark 對照。

另一個要避開嘅坑係用 Kimi K2.5 代替 Kimi K2.6。Simon Willison 在 2026年2月記錄過 Kimi K2.5 在 SWE-bench Verified 相關更新入面嘅表現,但嗰個係另一個版本,唔可以靜雞雞搬去 Kimi K2.6 [8]。嚴謹寫法應該係:Kimi K2.6 目前證據不足,等待更多多 benchmark 驗證。

按用途排名:比「總榜」更有用

使用場景建議模型信心原因
解 real-world software issues、coding agentClaude Opus 4.7高至中Vals AI 列 Claude Opus 4.7 在 SWE-bench 82.00% 排第一;Vellum 亦列出 SWE-bench Verified 87.6%、SWE-bench Pro 64.3% [17][20]
多步驟任務、research-agent workflowClaude Opus 4.7Anthropic 報告其內部 research-agent benchmark 0.715,並稱 long-context 表現最一致 [16]
科學推理,例如 GPQA 類任務Claude Opus 4.7 或 GPT-5.5Claude 為 94.2%,GPT-5.5 為 93.6%;差距細,而且 GPQA 在 frontier models 之間已好擠 [3][12][15]
通用推理展示GPT-5.5中至低MMLU、GPQA、ARC-AGI 數字強,但主要來自 O-Mega、Vellum、BenchLM 等第三方或聚合來源 [3][6][12]
開放/本地/技術控制導向探索DeepSeek V4 / V4 Pro中至低Hugging Face、BenchLM、NxCode、Redreamality 都有正面訊號,但版本混合,需要自己驗證 [25][26][27][30]
完整量化排名暫時唔建議將 Kimi K2.6 當已驗證 comparableLLM Stats GPQA 0.91 同 WhatLLM Quality Index top 10 只係局部訊號,未夠全面 [7][21]

如果要放入簡報,應該點講?

最穩陣嘅簡報結構係三頁:

  1. 按使用場景嘅建議:coding/agent 選 Claude;通用推理將 GPT-5.5 放入一線候選;DeepSeek 做技術探索;Kimi K2.6 標註為資料不足。
  2. benchmark 數字表:清楚分開 SWE-bench、SWE-bench Verified、SWE-bench Pro、GPQA、MMLU、ARC-AGI。
  3. 方法論限制:逐個數字標註來源類型,包括官方、leaderboard、聚合器、社群評測、claim。

尤其要加三句 disclaimer。第一,唔好將 SWE-bench、SWE-bench Verified、SWE-bench Pro 當成同一個測試,因為 SWE-bench Pro 本身就係更難、面向長周期 software engineering 任務 [38]。第二,唔好過度依賴 MMLU,因為 top models 已集中在 88% 以上,分辨力下降 [1]。第三,DeepSeek 同 Kimi 要特別標明版本同資料覆蓋,避免將不同模型或不同變體混為一談 [8][25][27]

最後判斷

如果目標係做一份「證據可 defend」嘅 2026 模型比較,Claude Opus 4.7 應該排第一:佢有 Anthropic 官方 multi-step / long-context 訊號,又有 Vals AI SWE-bench 第一,以及第三方對 SWE-bench Verified、SWE-bench Pro 嘅強勢數字 [16][17][20]

GPT-5.5 應該被視為推理能力一線競爭者;但現有資料主要係第三方或聚合來源,所以唔宜寫成全局勝出 [3][6][12]。DeepSeek V4/V4 Pro 應該進入內部測試清單,而唔係直接宣佈領先 [25][26][27][30]。Kimi K2.6 則暫時只能列為「有初步訊號,但證據不足」[7][21]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • 最穩陣嘅讀法係:Claude Opus 4.7 在 coding、agentic software work 同 multi step 工作上證據最完整;Anthropic 報告 research agent 內部 benchmark 0.715,Vals AI 則列出 SWE bench 82.00% [16][17]。
  • GPT 5.5 在通用推理好有競爭力:O Mega 報告 MMLU 92.4%、GPQA Diamond 93.6%、ARC AGI 2 85.0%、ARC AGI 1 95.0%,但主要來自第三方或聚合資料 [3]。
  • DeepSeek V4/V4 Pro 有 coding 同技術部署吸引力,不過資料混合 V4、V4 Pro、V4 Pro High 多個變體;Kimi K2.6 只見到 GPQA 0.91 同 Quality Index top 10 等局部訊號,未夠做完整排名 [7][21][25][27]。

人們還問

「Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6:2026 Benchmark 實證比較」的簡短答案是什麼?

最穩陣嘅讀法係:Claude Opus 4.7 在 coding、agentic software work 同 multi step 工作上證據最完整;Anthropic 報告 research agent 內部 benchmark 0.715,Vals AI 則列出 SWE bench 82.00% [16][17]。

首先要驗證的關鍵點是什麼?

最穩陣嘅讀法係:Claude Opus 4.7 在 coding、agentic software work 同 multi step 工作上證據最完整;Anthropic 報告 research agent 內部 benchmark 0.715,Vals AI 則列出 SWE bench 82.00% [16][17]。 GPT 5.5 在通用推理好有競爭力:O Mega 報告 MMLU 92.4%、GPQA Diamond 93.6%、ARC AGI 2 85.0%、ARC AGI 1 95.0%,但主要來自第三方或聚合資料 [3]。

接下來在實務上我該做什麼?

DeepSeek V4/V4 Pro 有 coding 同技術部署吸引力,不過資料混合 V4、V4 Pro、V4 Pro High 多個變體;Kimi K2.6 只見到 GPQA 0.91 同 Quality Index top 10 等局部訊號,未夠做完整排名 [7][21][25][27]。

接下來我應該探索哪個相關主題?

繼續“DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「Northwest vs Southeast Timber:替代性越高,點解係 larger; larger?」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

Investiga los benchmarks de Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6, y compáralos de la forma más completa posible en formato de informe de investigación para su presentación.

Studio Global AI40 來源

引用的答案

La comparación más honesta es parcial: Claude Opus 4.7 es el modelo con mejor soporte público para benchmarks de coding y agente, GPT-5.5 aparece fuerte en razonamiento según fuentes secundarias, DeepSeek V4/V4 Pro muestra señales competitivas pero con evidencia más comunitaria/provisional, y para Kimi K2.6 no encontré evidencia citable suficiente. Para una presentación ejecutiva, recomiendo mostrar a Claude como el líder mejor respaldado en SWE-bench, a GPT-5.5 como competidor fuerte pero menos verificable públicamente, a DeepSeek como alternativa abierta/prometedora pendiente de validación, y a Kimi K2.6 como “Insufficient evidence”.

Key findings

  • Claude Opus 4.7 tiene la evidencia más sólida del conjunto porque aparece en una fuente oficial de Anthropic con un benchmark interno de research-agent y en fuentes externas de coding como SWE-bench/Vals AI [1][2].

  • En SWE-bench, Vals AI reporta que Claude Opus 4.7 lidera con 82.00% en una página actualizada el 24 de abril de 2026 [2].

  • Hay conflicto entre fuentes sobre el rendimiento de Claude en SWE-bench: Vals AI reporta 82.00%, mientras que Vellum reporta 87.6% en SWE-bench Verified y 64.3% en SWE-bench Pro [2][15].

  • En GPQA Diamond, TNW reporta 94.2% para Claude Opus 4.7 y señala que las diferencias entre modelos frontier en ese benchmark están dentro del ruido de medición [3].

  • GPT-5.5 tiene métricas fuertes en fuentes secundarias: O-Mega reporta MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% [4].

  • No encontré una fuente oficial de OpenAI en el corpus recuperado para validar los benchmarks de GPT-5.5, por lo que sus resultados deben presentarse como “provisionales / secundarios”.

  • DeepSeek aparece principalmente como DeepSeek V4 Pro o V4 Pro High en las fuentes recuperadas, no siempre como “DeepSeek V4” base [6][8].

  • Para DeepSeek V4/V4 Pro, la evidencia combina discusión comunitaria de Hugging Face, agregadores y blogs técnicos, por lo que su comparabilidad con Claude y GPT-5.5 es menor [6][7][8][9].

  • Kimi K2.6 no cuenta con evidencia suficiente en las fuentes recuperadas; no recomiendo incluirlo en una tabla de ranking como si tuviera benchmarks verificados.

Metodología de lectura

  • Prioricé fuentes oficiales, leaderboards especializados, discusiones técnicas con trazabilidad y fuentes académicas sobre benchmarks [1][2][6][10][11].

  • Clasifiqué la evidencia en cuatro niveles: oficial, benchmark independiente, agregador/comunidad y blog o análisis secundario [1][2][4][6][8].

  • No traté como equivalentes los resultados de SWE-bench, SWE-bench Verified y SWE-bench Pro, porque SWE-bench Pro se define como una variante más desafiante y orientada a tareas de ingeniería de software de largo horizonte [10].

  • Consideré MMLU como métrica de bajo poder discriminativo para modelos frontier, ya que una fuente de explicación de benchmarks indica que en 2026 los modelos top superan el 88% y el benchmark está muy saturado [12].

Matriz comparativa ejecutiva

ModeloEstado de evidenciaBenchmarks más relevantes recuperadosLectura ejecutiva
Claude Opus 4.7Alta-mediaResearch-agent interno 0.715 y fuerte rendimiento de long-context según Anthropic; SWE-bench 82.00% según Vals AI; GPQA Diamond 94.2% según TNW [1][2][3]Mejor candidato para presentarlo como líder respaldado en coding/agente, con cautela por diferencias entre fuentes [2][15]
GPT-5.5Media-bajaMMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% según O-Mega [4]Muy fuerte en razonamiento según fuentes secundarias, pero falta validación oficial en el corpus recuperado [4][5]
DeepSeek V4 / V4 ProMedia-bajaBenchLM reporta DeepSeek V4 Pro High con Agentic 83.8/100 y Coding 88.8/100; NxCode habla de 81% en SWE-bench y 97% en Needle-in-a-Haystack a 1M tokens como resultado reclamado [7][8]Alternativa competitiva, especialmente si se valora ecosistema abierto/local, pero requiere validación independiente antes de una decisión ejecutiva [6][8][9]
Kimi K2.6Insufficient evidenceNo hay benchmark citable suficiente en las fuentes recuperadasNo incluir como comparable verificado; pedir fuente oficial o leaderboard antes de presentarlo

Benchmarks numéricos recuperados

Benchmark / métricaClaude Opus 4.7GPT-5.5DeepSeek V4 / V4 ProKimi K2.6
SWE-bench82.00% según Vals AI [2]No recuperado en fuente suficientemente comparable81% reclamado en una fuente secundaria sobre DeepSeek V4 [7]Insufficient evidence
SWE-bench Verified87.6% según Vellum [15]No recuperadoIncluido como benchmark evaluado en discusión comunitaria de DeepSeek-V4-Pro, sin cifra visible en el resumen recuperado [6]Insufficient evidence
SWE-bench Pro64.3% según Vellum [15]No recuperadoIncluido en la discusión comunitaria de DeepSeek-V4-Pro, sin cifra visible en el resumen recuperado [6]Insufficient evidence
GPQA Diamond94.2% según TNW y O-Mega [3][4]93.6% según O-Mega [4]Mencionado dentro de suites comunitarias, sin cifra visible en el resumen recuperado [6][9]Insufficient evidence
MMLUNo recuperado con cifra comparable92.4% según O-Mega [4]MMLU-Pro aparece como evaluación comunitaria, sin cifra visible en el resumen recuperado [6]Insufficient evidence
ARC-AGI-2No recuperado85.0% según O-Mega [4]No recuperadoInsufficient evidence
ARC-AGI-1No recuperado95.0% según O-Mega [4]No recuperadoInsufficient evidence
Research-agent / tareas multi-step0.715 en benchmark interno de Anthropic [1]No recuperadoBenchLM reporta categoría Agentic 83.8/100 para DeepSeek V4 Pro High [8]Insufficient evidence
Long-context / Needle-in-a-HaystackAnthropic afirma rendimiento long-context muy consistente [1]No recuperadoNxCode reporta 97% a 1M tokens como resultado reclamado, condicionado a validación independiente [7]Insufficient evidence
LiveCodeBench / CodeforcesNo recuperadoNo recuperadoRedreamality reporta LiveCodeBench 93.5 y Codeforces 3206 para DeepSeek V4 [9]Insufficient evidence

Análisis por modelo

Claude Opus 4.7

Claude Opus 4.7 es el modelo mejor respaldado del conjunto porque tiene una página oficial de Anthropic y resultados externos de SWE-bench [1][2].

Anthropic afirma que Opus 4.7 empató el mejor resultado global en su benchmark interno de research-agent con 0.715 y que mostró el rendimiento long-context más consistente entre los modelos evaluados [1].

Vals AI reporta que Claude Opus 4.7 lidera SWE-bench con 82.00% en una página actualizada el 24 de abril de 2026 [2].

Vellum reporta cifras más altas para Claude, con 87.6% en SWE-bench Verified y 64.3% en SWE-bench Pro [15].

La diferencia entre 82.00% y 87.6% debe tratarse como una discrepancia de metodología, subconjunto o configuración, no como una mejora confirmada única [2][15].

En razonamiento científico, TNW reporta 94.2% en GPQA Diamond para Claude Opus 4.7 y contextualiza que los modelos frontier están muy cerca entre sí en ese benchmark [3].

GPT-5.5

GPT-5.5 aparece muy fuerte en razonamiento general según O-Mega, que reporta MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% [4].

Appwrite publicó un artículo titulado “GPT-5.5 is here” con foco en benchmarks, pricing y cambios para desarrolladores el 24 de abril de 2026, pero se trata de una fuente secundaria y no de una ficha oficial de OpenAI [5].

La evidencia recuperada no permite confirmar con una fuente oficial de OpenAI los benchmarks de GPT-5.5, por lo que sus puntuaciones deben etiquetarse como “terceros / no verificadas oficialmente”.

Para una presentación, GPT-5.5 puede colocarse como competidor muy fuerte en razonamiento, pero no como ganador global si se exige trazabilidad oficial comparable a la de Claude [1][4][5].

DeepSeek V4 / V4 Pro

La evidencia recuperada para DeepSeek se concentra en variantes como DeepSeek V4 Pro y DeepSeek V4 Pro High, lo que impide asumir automáticamente que las cifras representan al modelo base DeepSeek V4 [6][8].

Hugging Face muestra una discusión comunitaria para DeepSeek-V4-Pro con evaluaciones en GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified y Terminal-Bench 2.0 [6].

BenchLM reporta para DeepSeek V4 Pro High una categoría Agentic de 83.8/100 y una categoría Coding de 88.8/100 [8].

NxCode presenta DeepSeek V4 como un modelo de 1T parámetros con 81% en SWE-bench y 97% en Needle-in-a-Haystack a 1M tokens, pero el propio resumen indica que la cifra de 97% debe sostenerse bajo pruebas independientes para ser concluyente [7].

Redreamality reporta que DeepSeek V4 alcanza LiveCodeBench 93.5 y Codeforces 3206, y al mismo tiempo afirma que los modelos cerrados siguen liderando en tareas agentic de largo horizonte [9].

Para una presentación, DeepSeek debe mostrarse como “competidor técnico prometedor” y no como líder validado, salvo que el equipo disponga de benchmarks internos reproducibles [6][7][8][9].

Kimi K2.6

No encontré benchmarks citables suficientes para Kimi K2.6 en las fuentes recuperadas.

No recomiendo sustituir Kimi K2.6 por Kimi K2.5 u otra variante, porque eso mezclaría modelos diferentes y degradaría la validez de la comparación.

La forma más segura de presentarlo es como “pendiente de validación” o “Insufficient evidence”.

Ranking por escenario de uso

EscenarioModelo recomendadoJustificación
Coding y resolución de issues realesClaude Opus 4.7Vals AI lo reporta como líder en SWE-bench con 82.00%, y Vellum también lo ubica fuerte en SWE-bench Verified y SWE-bench Pro [2][15]
Razonamiento general / cienciaClaude Opus 4.7 o GPT-5.5Claude aparece con 94.2% en GPQA Diamond, mientras GPT-5.5 aparece con 93.6% en O-Mega; la diferencia es pequeña y debe leerse con cautela [3][4]
Agentes y tareas multi-stepClaude Opus 4.7Anthropic reporta 0.715 en su benchmark interno de research-agent y fuerte consistencia long-context [1]
Alternativa abierta / ecosistema técnicoDeepSeek V4 ProBenchLM y Hugging Face muestran suites de evaluación amplias para DeepSeek V4 Pro, aunque la evidencia es menos oficial que la de Claude [6][8]
Presentación con evidencia verificableClaude Opus 4.7Es el único del conjunto con fuente oficial clara y señales externas de benchmark en el corpus recuperado [1][2]
Inclusión de Kimi K2.6No recomendadoInsufficient evidence

Evidence notes

  • La fuente más fuerte para Claude es oficial, pero su benchmark de research-agent es interno y no necesariamente reproducible por terceros [1].

  • Vals AI es la fuente más limpia para una comparación de SWE-bench porque reporta directamente un leaderboard de SWE-bench actualizado el 24 de abril de 2026 [2].

  • Vellum aporta más detalle para SWE-bench Verified y SWE-bench Pro, pero sus cifras no coinciden con Vals AI y deben presentarse como una fuente alternativa [15].

  • O-Mega aporta varias cifras útiles para GPT-5.5, pero debe tratarse como fuente secundaria hasta que exista una ficha oficial o un leaderboard independiente reproducible [4].

  • La discusión de Hugging Face para DeepSeek-V4-Pro demuestra actividad comunitaria de evaluación, pero no equivale por sí sola a una publicación oficial o a un benchmark auditado [6].

  • SWE-bench Pro es especialmente relevante para comparar agentes de software porque evalúa tareas más difíciles y de mayor horizonte que benchmarks de coding más simples [10].

  • MMLU debe tener menor peso en la decisión porque fuentes de explicación de benchmarks indican saturación entre modelos top en 2026 [12].

Limitations / uncertainty

  • Insufficient evidence para Kimi K2.6.

  • No recuperé una fuente oficial de OpenAI con benchmark card de GPT-5.5, por lo que cualquier cifra de GPT-5.5 en este informe debe etiquetarse como secundaria.

  • No recuperé una fuente oficial de DeepSeek que consolide los r

來源

  • [1] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com

    How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...

  • [2] GPT-5.5 is here: benchmarks, pricing, and what changes ... - Appwriteappwrite.io

    Star on GitHub 55.8KGo to Console Start building for free Sign upGo to Console Start building for free Products Docs Pricing Customers Blog Changelog Star on GitHub 55.8K Blog/GPT-5.5 is here: benchmarks, pricing, and what changes for developers Apr 24, 202...

  • [3] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...

  • [6] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [7] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [8] SWE-bench February 2026 leaderboard updatesimonwillison.net

    Here's how the top ten models performed: Image 1: Bar chart showing "% Resolved" by "Model". Bars in descending order: Claude 4.5 Opus (high reasoning) 76.8%, Gemini 3 Flash (high reasoning) 75.8%, MiniMax M2.5 (high reasoning) 75.8%, Claude Opus 4.6 75.6%,...

  • [9] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [11] GPT 5.5 - Vals AIvals.ai

    2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...

  • [12] LLM Leaderboard 2026 — Compare Top AI Models - Vellumvellum.ai

    93.6% GPT-5.5 92.4% GPT 5.2 91.9% Gemini 3 Pro Best in Reasoning (GPQA Diamond) Model Score --- Claude 3 Opus 95.4% Claude Opus 4.7 94.2% GPT-5.5 93.6% GPT 5.2 92.4% Gemini 3 Pro 91.9% Best in High School Math (AIME 2025) 100%96%93%89%86% 100% Gemini 3 Pro...

  • [14] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performance | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 BenchLM is tracking Claude Opus 4.7, but this profile is currently excluded from the public leaderboard because it still lacks enough non-generated benchmark cov...

  • [15] Claude Opus 4.7 leads on SWE-bench and agentic ... - TNWthenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [16] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [17] SWE-bench - Vals AIvals.ai

    Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Coding SWE-bench SWE-bench Updated: 4/24/2026 Solving production software engineering tasks Key Takeaways Claude Opus 4.7 leads with a...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Coding is the clear headline. SWE-bench Verified jumps from 80.8% to 87.6%, a nearly 7-point gain that puts Opus 4.7 ahead of Gemini 3.1 Pro (80.6%). On SWE-bench Pro, the harder multi-language variant, Opus 4.7 goes from 53.4% to 64.3%, leapfrogging both G...

  • [21] WhatLLM.org: Compare LLMs by Benchmarks, Price & Speed — Live Rankingswhatllm.org

    whatllm? whatllm.org WhatLLM.org - LLM Comparison Tool The ultimate LLM comparison tool Compare price, performance, and speed across the entire AI ecosystem. Updated daily with the latest benchmarks. Top 10 Models Ranked by Quality Index across all benchmar...

  • [25] Add community evaluation results for GPQA, GSM8K, HLE, MMLU ...huggingface.co

    deepseek-ai/DeepSeek-V4-Pro · Add community evaluation results for GPQA, GSM8K, HLE, MMLU-PRO, SWE-BENCH PRO, SWE-BENCH VERIFIED, TERMINAL-BENCH-2.0 Image 1: Hugging Face's logoHugging Face Models Datasets Spaces Buckets new Docs Enterprise Pricing Log In S...

  • [26] DeepSeek V4 (2026): 1T Parameters, 81% SWE-bench ... - NxCodenxcode.io

    The claimed results: Metric Standard Attention Engram (DeepSeek V4) --- Needle-in-a-Haystack (1M tokens) 84.2% accuracy 97% accuracy Context Length Supported Varies (128K typical) 1M tokens If the 97% figure holds up under independent testing, this represen...

  • [27] DeepSeek V4 Pro (High) Benchmarks 2026 - BenchLM.aibenchlm.ai

    Category Performance PNG Embed Share Scores across all benchmark categories (0-100 scale) Category Breakdown Agentic 83.8/ 100 Weight: 22%5 benchmark s Terminal-Bench 2.0 BrowseComp OSWorld-Verified GAIA TAU-bench WebArena Coding 7 88.8/ 100 Weight: 20%6 be...

  • [30] Mapping the DeepSeek V4 Evaluation Suite: A Field Guide to 2026 ...redreamality.com

    The Takeaway The V4 scorecard confirms a pattern: for pure coding, open weights have caught up (LiveCodeBench 93.5, Codeforces 3206). For long-horizon agentic work (SWE-bench Pro, Terminal-Bench 2.0), closed frontier still leads. For frontier reasoning (HLE...

  • [38] Swe-bench pro: Can ai agents solve long-horizon software engineering tasks?arxiv.org

    … PRO, a substantially more challenging benchmark that builds … In our evaluation of widely used coding models, under a unified … Towards this end, this paper is motivated to (1) mitigate … 2025