studioglobal
热门发现
报告已发布20 来源

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 基准测试怎么读

Claude Opus 4.7 是目前公开证据最扎实的代码与智能体候选:Vals AI 显示其在 SWE bench 为 82.00%,Anthropic 报告其 research agent 内部基准为 0.715 [17][16]。 GPT 5.5 在通用推理上很强:O Mega 报告其 GPQA Diamond 为 93.6%,ARC AGI 2 为 85.0%,但本轮资料主要来自二级来源或聚合榜单 [3]。

3.8K0
Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6
Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026Comparativa editorial de cuatro modelos frontier y emergentes según benchmarks públicos disponibles.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026. Article summary: La lectura más defendible es que Claude Opus 4.7 tiene la mejor evidencia pública: Vals AI lo sitúa en 82.00% en SWE bench, actualizado el 24/04/2026, y Anthropic reporta 0.715 en su benchmark interno de research agen.... Topic tags: ai, ai benchmarks, llm, claude, openai. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs Claude vs GPT-5.5. Claude Opus 4.6 is no longer Anthropic's flagship — Opus 4.7 shipped on April 16, 2026, at the same $5/$25 price. If you're evaluating "best Ant" source context "DeepSeek V4 vs Claude vs GPT-5.5 - Verdent AI" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90

openai.com

比较这四个模型,最容易犯的错误,是把不同来源、不同版本、不同测试集的分数直接堆成一张总榜。更稳妥的读法是:先看使用场景,再看证据来源。

一句话结论:Claude Opus 4.7 在代码修复和智能体式多步骤任务上证据最硬;GPT-5.5 在通用推理上非常强,但公开可追溯资料更多来自二级来源;DeepSeek V4/V4 Pro 是值得验证的技术路线,但版本和来源较杂;Kimi K2.6 目前还不适合被当作完整可比对象。

先看结论:谁更适合放进汇报

模型最稳妥的读法证据强度
Claude Opus 4.7公开资料中,代码、智能体和多步骤任务的支撑最强。Anthropic 报告其在内部 research-agent 基准中达到 0.715;Vals AI 将其列为 SWE-bench 第一,分数为 82.00% [16][17]高-中
GPT-5.5通用推理很强。O-Mega 报告其 MMLU 为 92.4%、GPQA Diamond 为 93.6%、ARC-AGI-2 为 85.0%、ARC-AGI-1 为 95.0% [3]
DeepSeek V4 / V4 Pro在代码和开放技术路线上的信号积极,但资料混用了 V4、V4 Pro、V4 Pro High 等变体,不能把不同版本的分数直接等同 [25][27]中-低
Kimi K2.6有部分基准信号:LLM Stats 将其 GPQA 列为 0.91,WhatLLM 将其纳入 Quality Index 前十;但多基准覆盖仍不足 [7][21]

可横向参考的基准表

基准或指标Claude Opus 4.7GPT-5.5DeepSeek V4 / V4 ProKimi K2.6该怎么理解
SWE-benchVals AI 显示 82.00%,页面更新于 2026年4月24日 [17]本轮资料未找到可比数字NxCode 称 DeepSeek V4 为 81% [26]本轮资料未找到可比数字最清晰的公开信号偏向 Claude。
SWE-bench VerifiedVellum 报告 87.6%;LMCouncil 报告 83.5% ± 1.7 [20][9]本轮资料未找到可比数字Hugging Face 社区评估列入该项,但检索摘要中未显示可比数值 [25]本轮资料未找到可比数字分数会随来源、配置和模型变体变化。
SWE-bench ProVellum 报告 64.3% [20]本轮资料未找到可比数字Hugging Face 社区评估列入该项,但检索摘要中未显示可比数值 [25]本轮资料未找到可比数字更适合看长程软件工程智能体能力。
GPQA DiamondO-Mega、Vellum 和 TNW 均给出 94.2% [3][12][15]O-Mega 和 Vellum 给出 93.6% [3][12]社区套件中提到 GPQA,但检索摘要中未显示可比数值 [25]LLM Stats 列为 0.91 [7]Claude 与 GPT-5.5 差距很小,不应只凭 GPQA 定胜负。
MMLU本轮资料未找到可比数字O-Mega 报告 92.4% [3]社区评估出现 MMLU-Pro,但检索摘要中未显示可比数值 [25]本轮资料未找到可比数字MMLU 对顶级模型的区分度已经偏低。
ARC-AGI本轮资料未找到可比数字O-Mega 报告 ARC-AGI-2 为 85.0%、ARC-AGI-1 为 95.0% [3]本轮资料未找到可比数字本轮资料未找到可比数字支撑 GPT-5.5 的推理优势,但仍要看来源。
Research-agent / 多步骤任务Anthropic 内部基准为 0.715 [16]本轮资料未找到可比数字BenchLM 报告 DeepSeek V4 Pro High 的 Agentic 为 83.8/100 [27]本轮资料未找到可比数字方向上有参考价值,但不是同一把尺子。
长上下文 / Needle-in-a-HaystackAnthropic 称 Opus 4.7 在其测试模型中长上下文表现最稳定 [16]本轮资料未找到可比数字NxCode 报告 1M tokens 下 97%,但该说法需独立验证 [26]本轮资料未找到可比数字DeepSeek 信号很强,但还不是定论。
LiveCodeBench / Codeforces本轮资料未找到可比数字本轮资料未找到可比数字Redreamality 报告 DeepSeek V4 的 LiveCodeBench 为 93.5、Codeforces 为 3206 [30]本轮资料未找到可比数字有利于纯代码能力判断,但不能直接代表智能体式软件工程。

这些基准不能一锅端

SWE-bench、SWE-bench Verified 和 SWE-bench Pro 不是同一个测试。Vals AI 将 SWE-bench 描述为用于解决生产软件工程任务的基准 [17];而 SWE-bench Pro 的论文将其定位为更具挑战性的长程软件工程任务基准 [38]。所以,看到一个模型在 SWE-bench Verified 高分,并不能自动推出它在 SWE-bench Pro 同样领先。

GPQA Diamond 也要谨慎使用。TNW 指出,在 GPQA Diamond 上,Opus 4.7、GPT-5.4 Pro、Gemini 3.1 Pro 等前沿模型分数已经非常接近,差异可能落入测量噪声 [15]。MMLU 更应降低权重:Nanonets 认为到 2026 年,顶级模型已普遍超过 88%,该基准难以细分头部模型差距 [1]

还要看数字从哪里来。官方发布、独立 leaderboard、聚合网站、社区评估和厂商或媒体文章,证据权重不同。BenchLM 甚至说明,其 Claude Opus 4.7 档案暂未进入公开 leaderboard,因为公开且非生成的基准覆盖还不够充分 [14]。这不是否定 Claude,而是在提醒:排行榜数字要和来源标签一起读。

Claude Opus 4.7:代码与智能体证据最扎实

Claude Opus 4.7 是这组模型中公开支撑最完整的一位。Anthropic 称,Opus 4.7 在其内部 research-agent 基准中以 0.715 并列总体最高分,并且在其测试的模型中给出最稳定的长上下文表现 [16]。因为这是内部评测,不能等同于第三方独立基准;但它清楚说明了该模型的能力重点:多步骤、长上下文、研究型工作流。

外部信号最强的是软件工程。Vals AI 在 2026年4月24日更新的 SWE-bench 页面中,将 Claude Opus 4.7 列为第一,分数为 82.00% [17]。Vellum 报告其在 SWE-bench Verified 为 87.6%、在 SWE-bench Pro 为 64.3% [20]。LMCouncil 则给出 SWE-bench Verified 83.5% ± 1.7 [9]

正确读法不是在这些数字里挑一个最顺眼的,而是承认:Claude 在多个软件工程相关来源中都位于高位或领先,但 SWE-bench、SWE-bench Verified 和 SWE-bench Pro 的方法、时间、子集和配置可能不同 [17][20][38]

在科学推理上,Claude Opus 4.7 的 GPQA Diamond 分数为 94.2%,这一数字同时出现在 O-Mega、Vellum 和 TNW 的资料中 [3][12][15]。不过,GPQA 已经很难拉开前沿模型差距,因此它不能单独决定总冠军 [15]

GPT-5.5:推理很强,但公开证据链更偏二级来源

GPT-5.5 的亮点集中在推理。O-Mega 报告其 MMLU 为 92.4%、GPQA Diamond 为 93.6%、ARC-AGI-2 为 85.0%、ARC-AGI-1 为 95.0% [3]。Vellum 也将 GPT-5.5 的 GPQA Diamond 列为 93.6%,在该表中低于 Claude Opus 4.7 的 94.2% [12]。BenchLM 将 GPT-5.5 视为高水平模型:临时 leaderboard 总分 89/100,在 verified leaderboard 中排第 2/16 [6]

需要保留的谨慎点是可追溯性。本轮资料中,GPT-5.5 的分数主要出现在文章、聚合榜单和第三方基准页面,并未检索到与 Anthropic 对 Claude Opus 4.7 类似的 OpenAI 官方完整 benchmark card。Appwrite 称 GPT-5.5 于 2026年4月23日发布,Vals AI 也列出 openai/gpt-5.5 的发布日期为 2026年4月23日,并给出 Vals Index 67.76% ± 1.79;但这些并不能替代官方基准卡 [2][11]

因此,面向管理层或技术委员会汇报时,GPT-5.5 可以被放在通用推理的一线候选位置,尤其是 GPQA 和 ARC-AGI 信号很强;但如果评估标准要求各模型具备同等质量的公开证据,它还不宜被直接宣布为全局赢家 [3][6][12]

DeepSeek V4 / V4 Pro:技术上值得看,但版本要分清

DeepSeek 的主要问题不是没有亮点,而是版本线索较杂。资料中交替出现 DeepSeek V4、DeepSeek V4 Pro、DeepSeek V4 Pro High,因此不能把某个变体的分数自动套到另一个变体上 [25][26][27]

Hugging Face 上有针对 DeepSeek-V4-Pro 的社区讨论,列入 GPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0 等评估项 [25]。BenchLM 报告 DeepSeek V4 Pro High 的 Agentic 为 83.8/100、Coding 为 88.8/100、Knowledge 为 72.1/100 [27]。NxCode 称 DeepSeek V4 在 SWE-bench 达到 81%,并在 1M tokens 的 Needle-in-a-Haystack 中达到 97%,但其自身也提示该 97% 结果需要独立测试支撑 [26]

Redreamality 给出另一个积极信号:DeepSeek V4 的 LiveCodeBench 为 93.5、Codeforces 为 3206 [30]。但同一来源也总结称,在 SWE-bench Pro、Terminal-Bench 2.0 这类长程智能体任务上,封闭前沿模型仍然领先 [30]

实践结论是:DeepSeek V4/V4 Pro 值得做内部 PoC,尤其适合重视开放生态、技术可控性或自有评测的团队;但基于现有公开资料,它还没有达到 Claude 在 SWE-bench 和 Anthropic 内部 research-agent 信号上的证据强度 [16][17][25][27]

Kimi K2.6:有信号,但还不能完整横评

Kimi K2.6 不该被忽略,但也不应被包装成与前三者证据覆盖相当。LLM Stats 将 Kimi K2.6 的 GPQA 列为 0.91,WhatLLM 将其纳入按 Quality Index 排列的前十模型 [7][21]。这些信息说明它已经出现在部分榜单中,但不足以支撑完整的多基准比较。

还要避免一个常见替代:用 Kimi K2.5 的成绩代替 Kimi K2.6。Simon Willison 在 2026年2月记录的是 Kimi K2.5 在 SWE-bench Verified 相关更新中的结果,那不是 Kimi K2.6 [8]。严谨写法应是:Kimi K2.6 目前证据不足,等待更多可比基准验证。

按使用场景排序

使用场景推荐读法可信度理由
真实 issue 修复与 agentic codingClaude Opus 4.7高-中Vals AI 显示其 SWE-bench 为 82.00%,Vellum 也报告其在 SWE-bench Verified 和 SWE-bench Pro 上表现强 [17][20]
多步骤研究、research-agent 工作流Claude Opus 4.7Anthropic 报告其内部 research-agent 基准为 0.715,并称其长上下文表现最稳定 [16]
GPQA 这类科学推理Claude Opus 4.7 或 GPT-5.5Claude 为 94.2%,GPT-5.5 为 93.6%;差距很小,且 GPQA 在前沿模型中已高度压缩 [3][12][15]
宽泛通用推理GPT-5.5中-低MMLU、GPQA、ARC-AGI 分数很强,但主要来自 O-Mega、Vellum、BenchLM 等第三方来源 [3][6][12]
开放技术路线、自有评测或可控部署探索DeepSeek V4 / V4 Pro中-低Hugging Face、BenchLM、NxCode、Redreamality 均有积极信号,但版本混杂,需要独立验证 [25][26][27][30]
做完整量化总排名不建议把 Kimi K2.6 当作已验证可比对象目前只有 GPQA 0.91、Quality Index 前十等零散信号,缺少可比覆盖 [7][21]

汇报时怎样避免过度承诺

如果要做成内部汇报,建议把性能和证据质量分成两页。第一页讲按场景选型,第二页列出数字,第三页专门写方法论限制。

最稳的主线可以这样写:Claude Opus 4.7 是代码和智能体任务中证据最强的领先者;GPT-5.5 是通用推理的一线竞争者;DeepSeek V4/V4 Pro 是有潜力的技术替代方案,但需要自测;Kimi K2.6 目前属于证据不足。

方法论注记至少应包含三条。第一,不要把 SWE-bench、SWE-bench Verified 和 SWE-bench Pro 混为一谈,因为 SWE-bench Pro 面向更难的长程软件工程任务 [38]。第二,不要只靠 MMLU 做决策,因为顶级模型已经普遍挤在 88% 以上 [1]。第三,每个数字都要标注来源类型:官方、独立 leaderboard、聚合榜、社区评估,还是厂商或媒体 claim。

结论

如果目标是做一份经得起追问的 2026 模型对比,Claude Opus 4.7 应排在代码与智能体场景的第一位:它同时具备 Anthropic 官方信号、Vals AI 的 SWE-bench 领先位置,以及第三方报告中的 SWE-bench Verified / Pro 强表现 [16][17][20]

GPT-5.5 应被视为推理能力很强的一线对手,但它在本轮资料中的关键数字更多来自第三方或聚合来源 [3][6][12]。DeepSeek V4/V4 Pro 值得进入内部测试池,而不是直接宣布领先 [25][26][27][30]。Kimi K2.6 则应标注为资料不足,等待更多可比基准 [7][21]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • Claude Opus 4.7 是目前公开证据最扎实的代码与智能体候选:Vals AI 显示其在 SWE bench 为 82.00%,Anthropic 报告其 research agent 内部基准为 0.715 [17][16]。
  • GPT 5.5 在通用推理上很强:O Mega 报告其 GPQA Diamond 为 93.6%,ARC AGI 2 为 85.0%,但本轮资料主要来自二级来源或聚合榜单 [3]。
  • DeepSeek V4/V4 Pro 值得技术团队单独验证;Kimi K2.6 目前只有 GPQA 0.91、Quality Index 前十等零散信号,不足以做完整横评 [7][21]。

人们还问

“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 基准测试怎么读”的简短答案是什么?

Claude Opus 4.7 是目前公开证据最扎实的代码与智能体候选:Vals AI 显示其在 SWE bench 为 82.00%,Anthropic 报告其 research agent 内部基准为 0.715 [17][16]。

首先要验证的关键点是什么?

Claude Opus 4.7 是目前公开证据最扎实的代码与智能体候选:Vals AI 显示其在 SWE bench 为 82.00%,Anthropic 报告其 research agent 内部基准为 0.715 [17][16]。 GPT 5.5 在通用推理上很强:O Mega 报告其 GPQA Diamond 为 93.6%,ARC AGI 2 为 85.0%,但本轮资料主要来自二级来源或聚合榜单 [3]。

接下来在实践中我应该做什么?

DeepSeek V4/V4 Pro 值得技术团队单独验证;Kimi K2.6 目前只有 GPQA 0.91、Quality Index 前十等零散信号,不足以做完整横评 [7][21]。

接下来我应该探索哪个相关主题?

继续“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“Northwest vs. Southeast Timber 弹性题解:为什么是 larger; larger”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

Investiga los benchmarks de Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6, y compáralos de la forma más completa posible en formato de informe de investigación para su presentación.

Studio Global AI40 来源

引用的答案

La comparación más honesta es parcial: Claude Opus 4.7 es el modelo con mejor soporte público para benchmarks de coding y agente, GPT-5.5 aparece fuerte en razonamiento según fuentes secundarias, DeepSeek V4/V4 Pro muestra señales competitivas pero con evidencia más comunitaria/provisional, y para Kimi K2.6 no encontré evidencia citable suficiente. Para una presentación ejecutiva, recomiendo mostrar a Claude como el líder mejor respaldado en SWE-bench, a GPT-5.5 como competidor fuerte pero menos verificable públicamente, a DeepSeek como alternativa abierta/prometedora pendiente de validación, y a Kimi K2.6 como “Insufficient evidence”.

Key findings

  • Claude Opus 4.7 tiene la evidencia más sólida del conjunto porque aparece en una fuente oficial de Anthropic con un benchmark interno de research-agent y en fuentes externas de coding como SWE-bench/Vals AI [1][2].

  • En SWE-bench, Vals AI reporta que Claude Opus 4.7 lidera con 82.00% en una página actualizada el 24 de abril de 2026 [2].

  • Hay conflicto entre fuentes sobre el rendimiento de Claude en SWE-bench: Vals AI reporta 82.00%, mientras que Vellum reporta 87.6% en SWE-bench Verified y 64.3% en SWE-bench Pro [2][15].

  • En GPQA Diamond, TNW reporta 94.2% para Claude Opus 4.7 y señala que las diferencias entre modelos frontier en ese benchmark están dentro del ruido de medición [3].

  • GPT-5.5 tiene métricas fuertes en fuentes secundarias: O-Mega reporta MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% [4].

  • No encontré una fuente oficial de OpenAI en el corpus recuperado para validar los benchmarks de GPT-5.5, por lo que sus resultados deben presentarse como “provisionales / secundarios”.

  • DeepSeek aparece principalmente como DeepSeek V4 Pro o V4 Pro High en las fuentes recuperadas, no siempre como “DeepSeek V4” base [6][8].

  • Para DeepSeek V4/V4 Pro, la evidencia combina discusión comunitaria de Hugging Face, agregadores y blogs técnicos, por lo que su comparabilidad con Claude y GPT-5.5 es menor [6][7][8][9].

  • Kimi K2.6 no cuenta con evidencia suficiente en las fuentes recuperadas; no recomiendo incluirlo en una tabla de ranking como si tuviera benchmarks verificados.

Metodología de lectura

  • Prioricé fuentes oficiales, leaderboards especializados, discusiones técnicas con trazabilidad y fuentes académicas sobre benchmarks [1][2][6][10][11].

  • Clasifiqué la evidencia en cuatro niveles: oficial, benchmark independiente, agregador/comunidad y blog o análisis secundario [1][2][4][6][8].

  • No traté como equivalentes los resultados de SWE-bench, SWE-bench Verified y SWE-bench Pro, porque SWE-bench Pro se define como una variante más desafiante y orientada a tareas de ingeniería de software de largo horizonte [10].

  • Consideré MMLU como métrica de bajo poder discriminativo para modelos frontier, ya que una fuente de explicación de benchmarks indica que en 2026 los modelos top superan el 88% y el benchmark está muy saturado [12].

Matriz comparativa ejecutiva

ModeloEstado de evidenciaBenchmarks más relevantes recuperadosLectura ejecutiva
Claude Opus 4.7Alta-mediaResearch-agent interno 0.715 y fuerte rendimiento de long-context según Anthropic; SWE-bench 82.00% según Vals AI; GPQA Diamond 94.2% según TNW [1][2][3]Mejor candidato para presentarlo como líder respaldado en coding/agente, con cautela por diferencias entre fuentes [2][15]
GPT-5.5Media-bajaMMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% según O-Mega [4]Muy fuerte en razonamiento según fuentes secundarias, pero falta validación oficial en el corpus recuperado [4][5]
DeepSeek V4 / V4 ProMedia-bajaBenchLM reporta DeepSeek V4 Pro High con Agentic 83.8/100 y Coding 88.8/100; NxCode habla de 81% en SWE-bench y 97% en Needle-in-a-Haystack a 1M tokens como resultado reclamado [7][8]Alternativa competitiva, especialmente si se valora ecosistema abierto/local, pero requiere validación independiente antes de una decisión ejecutiva [6][8][9]
Kimi K2.6Insufficient evidenceNo hay benchmark citable suficiente en las fuentes recuperadasNo incluir como comparable verificado; pedir fuente oficial o leaderboard antes de presentarlo

Benchmarks numéricos recuperados

Benchmark / métricaClaude Opus 4.7GPT-5.5DeepSeek V4 / V4 ProKimi K2.6
SWE-bench82.00% según Vals AI [2]No recuperado en fuente suficientemente comparable81% reclamado en una fuente secundaria sobre DeepSeek V4 [7]Insufficient evidence
SWE-bench Verified87.6% según Vellum [15]No recuperadoIncluido como benchmark evaluado en discusión comunitaria de DeepSeek-V4-Pro, sin cifra visible en el resumen recuperado [6]Insufficient evidence
SWE-bench Pro64.3% según Vellum [15]No recuperadoIncluido en la discusión comunitaria de DeepSeek-V4-Pro, sin cifra visible en el resumen recuperado [6]Insufficient evidence
GPQA Diamond94.2% según TNW y O-Mega [3][4]93.6% según O-Mega [4]Mencionado dentro de suites comunitarias, sin cifra visible en el resumen recuperado [6][9]Insufficient evidence
MMLUNo recuperado con cifra comparable92.4% según O-Mega [4]MMLU-Pro aparece como evaluación comunitaria, sin cifra visible en el resumen recuperado [6]Insufficient evidence
ARC-AGI-2No recuperado85.0% según O-Mega [4]No recuperadoInsufficient evidence
ARC-AGI-1No recuperado95.0% según O-Mega [4]No recuperadoInsufficient evidence
Research-agent / tareas multi-step0.715 en benchmark interno de Anthropic [1]No recuperadoBenchLM reporta categoría Agentic 83.8/100 para DeepSeek V4 Pro High [8]Insufficient evidence
Long-context / Needle-in-a-HaystackAnthropic afirma rendimiento long-context muy consistente [1]No recuperadoNxCode reporta 97% a 1M tokens como resultado reclamado, condicionado a validación independiente [7]Insufficient evidence
LiveCodeBench / CodeforcesNo recuperadoNo recuperadoRedreamality reporta LiveCodeBench 93.5 y Codeforces 3206 para DeepSeek V4 [9]Insufficient evidence

Análisis por modelo

Claude Opus 4.7

Claude Opus 4.7 es el modelo mejor respaldado del conjunto porque tiene una página oficial de Anthropic y resultados externos de SWE-bench [1][2].

Anthropic afirma que Opus 4.7 empató el mejor resultado global en su benchmark interno de research-agent con 0.715 y que mostró el rendimiento long-context más consistente entre los modelos evaluados [1].

Vals AI reporta que Claude Opus 4.7 lidera SWE-bench con 82.00% en una página actualizada el 24 de abril de 2026 [2].

Vellum reporta cifras más altas para Claude, con 87.6% en SWE-bench Verified y 64.3% en SWE-bench Pro [15].

La diferencia entre 82.00% y 87.6% debe tratarse como una discrepancia de metodología, subconjunto o configuración, no como una mejora confirmada única [2][15].

En razonamiento científico, TNW reporta 94.2% en GPQA Diamond para Claude Opus 4.7 y contextualiza que los modelos frontier están muy cerca entre sí en ese benchmark [3].

GPT-5.5

GPT-5.5 aparece muy fuerte en razonamiento general según O-Mega, que reporta MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0% y ARC-AGI-1 95.0% [4].

Appwrite publicó un artículo titulado “GPT-5.5 is here” con foco en benchmarks, pricing y cambios para desarrolladores el 24 de abril de 2026, pero se trata de una fuente secundaria y no de una ficha oficial de OpenAI [5].

La evidencia recuperada no permite confirmar con una fuente oficial de OpenAI los benchmarks de GPT-5.5, por lo que sus puntuaciones deben etiquetarse como “terceros / no verificadas oficialmente”.

Para una presentación, GPT-5.5 puede colocarse como competidor muy fuerte en razonamiento, pero no como ganador global si se exige trazabilidad oficial comparable a la de Claude [1][4][5].

DeepSeek V4 / V4 Pro

La evidencia recuperada para DeepSeek se concentra en variantes como DeepSeek V4 Pro y DeepSeek V4 Pro High, lo que impide asumir automáticamente que las cifras representan al modelo base DeepSeek V4 [6][8].

Hugging Face muestra una discusión comunitaria para DeepSeek-V4-Pro con evaluaciones en GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified y Terminal-Bench 2.0 [6].

BenchLM reporta para DeepSeek V4 Pro High una categoría Agentic de 83.8/100 y una categoría Coding de 88.8/100 [8].

NxCode presenta DeepSeek V4 como un modelo de 1T parámetros con 81% en SWE-bench y 97% en Needle-in-a-Haystack a 1M tokens, pero el propio resumen indica que la cifra de 97% debe sostenerse bajo pruebas independientes para ser concluyente [7].

Redreamality reporta que DeepSeek V4 alcanza LiveCodeBench 93.5 y Codeforces 3206, y al mismo tiempo afirma que los modelos cerrados siguen liderando en tareas agentic de largo horizonte [9].

Para una presentación, DeepSeek debe mostrarse como “competidor técnico prometedor” y no como líder validado, salvo que el equipo disponga de benchmarks internos reproducibles [6][7][8][9].

Kimi K2.6

No encontré benchmarks citables suficientes para Kimi K2.6 en las fuentes recuperadas.

No recomiendo sustituir Kimi K2.6 por Kimi K2.5 u otra variante, porque eso mezclaría modelos diferentes y degradaría la validez de la comparación.

La forma más segura de presentarlo es como “pendiente de validación” o “Insufficient evidence”.

Ranking por escenario de uso

EscenarioModelo recomendadoJustificación
Coding y resolución de issues realesClaude Opus 4.7Vals AI lo reporta como líder en SWE-bench con 82.00%, y Vellum también lo ubica fuerte en SWE-bench Verified y SWE-bench Pro [2][15]
Razonamiento general / cienciaClaude Opus 4.7 o GPT-5.5Claude aparece con 94.2% en GPQA Diamond, mientras GPT-5.5 aparece con 93.6% en O-Mega; la diferencia es pequeña y debe leerse con cautela [3][4]
Agentes y tareas multi-stepClaude Opus 4.7Anthropic reporta 0.715 en su benchmark interno de research-agent y fuerte consistencia long-context [1]
Alternativa abierta / ecosistema técnicoDeepSeek V4 ProBenchLM y Hugging Face muestran suites de evaluación amplias para DeepSeek V4 Pro, aunque la evidencia es menos oficial que la de Claude [6][8]
Presentación con evidencia verificableClaude Opus 4.7Es el único del conjunto con fuente oficial clara y señales externas de benchmark en el corpus recuperado [1][2]
Inclusión de Kimi K2.6No recomendadoInsufficient evidence

Evidence notes

  • La fuente más fuerte para Claude es oficial, pero su benchmark de research-agent es interno y no necesariamente reproducible por terceros [1].

  • Vals AI es la fuente más limpia para una comparación de SWE-bench porque reporta directamente un leaderboard de SWE-bench actualizado el 24 de abril de 2026 [2].

  • Vellum aporta más detalle para SWE-bench Verified y SWE-bench Pro, pero sus cifras no coinciden con Vals AI y deben presentarse como una fuente alternativa [15].

  • O-Mega aporta varias cifras útiles para GPT-5.5, pero debe tratarse como fuente secundaria hasta que exista una ficha oficial o un leaderboard independiente reproducible [4].

  • La discusión de Hugging Face para DeepSeek-V4-Pro demuestra actividad comunitaria de evaluación, pero no equivale por sí sola a una publicación oficial o a un benchmark auditado [6].

  • SWE-bench Pro es especialmente relevante para comparar agentes de software porque evalúa tareas más difíciles y de mayor horizonte que benchmarks de coding más simples [10].

  • MMLU debe tener menor peso en la decisión porque fuentes de explicación de benchmarks indican saturación entre modelos top en 2026 [12].

Limitations / uncertainty

  • Insufficient evidence para Kimi K2.6.

  • No recuperé una fuente oficial de OpenAI con benchmark card de GPT-5.5, por lo que cualquier cifra de GPT-5.5 en este informe debe etiquetarse como secundaria.

  • No recuperé una fuente oficial de DeepSeek que consolide los r

来源

  • [1] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com

    How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...

  • [2] GPT-5.5 is here: benchmarks, pricing, and what changes ... - Appwriteappwrite.io

    Star on GitHub 55.8KGo to Console Start building for free Sign upGo to Console Start building for free Products Docs Pricing Customers Blog Changelog Star on GitHub 55.8K Blog/GPT-5.5 is here: benchmarks, pricing, and what changes for developers Apr 24, 202...

  • [3] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...

  • [6] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [7] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [8] SWE-bench February 2026 leaderboard updatesimonwillison.net

    Here's how the top ten models performed: Image 1: Bar chart showing "% Resolved" by "Model". Bars in descending order: Claude 4.5 Opus (high reasoning) 76.8%, Gemini 3 Flash (high reasoning) 75.8%, MiniMax M2.5 (high reasoning) 75.8%, Claude Opus 4.6 75.6%,...

  • [9] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [11] GPT 5.5 - Vals AIvals.ai

    2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...

  • [12] LLM Leaderboard 2026 — Compare Top AI Models - Vellumvellum.ai

    93.6% GPT-5.5 92.4% GPT 5.2 91.9% Gemini 3 Pro Best in Reasoning (GPQA Diamond) Model Score --- Claude 3 Opus 95.4% Claude Opus 4.7 94.2% GPT-5.5 93.6% GPT 5.2 92.4% Gemini 3 Pro 91.9% Best in High School Math (AIME 2025) 100%96%93%89%86% 100% Gemini 3 Pro...

  • [14] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performance | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 BenchLM is tracking Claude Opus 4.7, but this profile is currently excluded from the public leaderboard because it still lacks enough non-generated benchmark cov...

  • [15] Claude Opus 4.7 leads on SWE-bench and agentic ... - TNWthenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [16] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [17] SWE-bench - Vals AIvals.ai

    Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Coding SWE-bench SWE-bench Updated: 4/24/2026 Solving production software engineering tasks Key Takeaways Claude Opus 4.7 leads with a...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Coding is the clear headline. SWE-bench Verified jumps from 80.8% to 87.6%, a nearly 7-point gain that puts Opus 4.7 ahead of Gemini 3.1 Pro (80.6%). On SWE-bench Pro, the harder multi-language variant, Opus 4.7 goes from 53.4% to 64.3%, leapfrogging both G...

  • [21] WhatLLM.org: Compare LLMs by Benchmarks, Price & Speed — Live Rankingswhatllm.org

    whatllm? whatllm.org WhatLLM.org - LLM Comparison Tool The ultimate LLM comparison tool Compare price, performance, and speed across the entire AI ecosystem. Updated daily with the latest benchmarks. Top 10 Models Ranked by Quality Index across all benchmar...

  • [25] Add community evaluation results for GPQA, GSM8K, HLE, MMLU ...huggingface.co

    deepseek-ai/DeepSeek-V4-Pro · Add community evaluation results for GPQA, GSM8K, HLE, MMLU-PRO, SWE-BENCH PRO, SWE-BENCH VERIFIED, TERMINAL-BENCH-2.0 Image 1: Hugging Face's logoHugging Face Models Datasets Spaces Buckets new Docs Enterprise Pricing Log In S...

  • [26] DeepSeek V4 (2026): 1T Parameters, 81% SWE-bench ... - NxCodenxcode.io

    The claimed results: Metric Standard Attention Engram (DeepSeek V4) --- Needle-in-a-Haystack (1M tokens) 84.2% accuracy 97% accuracy Context Length Supported Varies (128K typical) 1M tokens If the 97% figure holds up under independent testing, this represen...

  • [27] DeepSeek V4 Pro (High) Benchmarks 2026 - BenchLM.aibenchlm.ai

    Category Performance PNG Embed Share Scores across all benchmark categories (0-100 scale) Category Breakdown Agentic 83.8/ 100 Weight: 22%5 benchmark s Terminal-Bench 2.0 BrowseComp OSWorld-Verified GAIA TAU-bench WebArena Coding 7 88.8/ 100 Weight: 20%6 be...

  • [30] Mapping the DeepSeek V4 Evaluation Suite: A Field Guide to 2026 ...redreamality.com

    The Takeaway The V4 scorecard confirms a pattern: for pure coding, open weights have caught up (LiveCodeBench 93.5, Codeforces 3206). For long-horizon agentic work (SWE-bench Pro, Terminal-Bench 2.0), closed frontier still leads. For frontier reasoning (HLE...

  • [38] Swe-bench pro: Can ai agents solve long-horizon software engineering tasks?arxiv.org

    … PRO, a substantially more challenging benchmark that builds … In our evaluation of widely used coding models, under a unified … Towards this end, this paper is motivated to (1) mitigate … 2025

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 基准测试怎么读 | 深入研究 | Studio Global