| 低 |
SWE-bench、SWE-bench Verified 和 SWE-bench Pro 不是同一个测试。Vals AI 将 SWE-bench 描述为用于解决生产软件工程任务的基准 ;而 SWE-bench Pro 的论文将其定位为更具挑战性的长程软件工程任务基准
。所以,看到一个模型在 SWE-bench Verified 高分,并不能自动推出它在 SWE-bench Pro 同样领先。
GPQA Diamond 也要谨慎使用。TNW 指出,在 GPQA Diamond 上,Opus 4.7、GPT-5.4 Pro、Gemini 3.1 Pro 等前沿模型分数已经非常接近,差异可能落入测量噪声 。MMLU 更应降低权重:Nanonets 认为到 2026 年,顶级模型已普遍超过 88%,该基准难以细分头部模型差距
。
还要看数字从哪里来。官方发布、独立 leaderboard、聚合网站、社区评估和厂商或媒体文章,证据权重不同。BenchLM 甚至说明,其 Claude Opus 4.7 档案暂未进入公开 leaderboard,因为公开且非生成的基准覆盖还不够充分 。这不是否定 Claude,而是在提醒:排行榜数字要和来源标签一起读。
Claude Opus 4.7 是这组模型中公开支撑最完整的一位。Anthropic 称,Opus 4.7 在其内部 research-agent 基准中以 0.715 并列总体最高分,并且在其测试的模型中给出最稳定的长上下文表现 。因为这是内部评测,不能等同于第三方独立基准;但它清楚说明了该模型的能力重点:多步骤、长上下文、研究型工作流。
外部信号最强的是软件工程。Vals AI 在 2026年4月24日更新的 SWE-bench 页面中,将 Claude Opus 4.7 列为第一,分数为 82.00% 。Vellum 报告其在 SWE-bench Verified 为 87.6%、在 SWE-bench Pro 为 64.3%
。LMCouncil 则给出 SWE-bench Verified 83.5% ± 1.7
。
正确读法不是在这些数字里挑一个最顺眼的,而是承认:Claude 在多个软件工程相关来源中都位于高位或领先,但 SWE-bench、SWE-bench Verified 和 SWE-bench Pro 的方法、时间、子集和配置可能不同 。
在科学推理上,Claude Opus 4.7 的 GPQA Diamond 分数为 94.2%,这一数字同时出现在 O-Mega、Vellum 和 TNW 的资料中 。不过,GPQA 已经很难拉开前沿模型差距,因此它不能单独决定总冠军
。
GPT-5.5 的亮点集中在推理。O-Mega 报告其 MMLU 为 92.4%、GPQA Diamond 为 93.6%、ARC-AGI-2 为 85.0%、ARC-AGI-1 为 95.0% 。Vellum 也将 GPT-5.5 的 GPQA Diamond 列为 93.6%,在该表中低于 Claude Opus 4.7 的 94.2%
。BenchLM 将 GPT-5.5 视为高水平模型:临时 leaderboard 总分 89/100,在 verified leaderboard 中排第 2/16
。
需要保留的谨慎点是可追溯性。本轮资料中,GPT-5.5 的分数主要出现在文章、聚合榜单和第三方基准页面,并未检索到与 Anthropic 对 Claude Opus 4.7 类似的 OpenAI 官方完整 benchmark card。Appwrite 称 GPT-5.5 于 2026年4月23日发布,Vals AI 也列出 openai/gpt-5.5 的发布日期为 2026年4月23日,并给出 Vals Index 67.76% ± 1.79;但这些并不能替代官方基准卡 。
因此,面向管理层或技术委员会汇报时,GPT-5.5 可以被放在通用推理的一线候选位置,尤其是 GPQA 和 ARC-AGI 信号很强;但如果评估标准要求各模型具备同等质量的公开证据,它还不宜被直接宣布为全局赢家 。
DeepSeek 的主要问题不是没有亮点,而是版本线索较杂。资料中交替出现 DeepSeek V4、DeepSeek V4 Pro、DeepSeek V4 Pro High,因此不能把某个变体的分数自动套到另一个变体上 。
Hugging Face 上有针对 DeepSeek-V4-Pro 的社区讨论,列入 GPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0 等评估项 。BenchLM 报告 DeepSeek V4 Pro High 的 Agentic 为 83.8/100、Coding 为 88.8/100、Knowledge 为 72.1/100
。NxCode 称 DeepSeek V4 在 SWE-bench 达到 81%,并在 1M tokens 的 Needle-in-a-Haystack 中达到 97%,但其自身也提示该 97% 结果需要独立测试支撑
。
Redreamality 给出另一个积极信号:DeepSeek V4 的 LiveCodeBench 为 93.5、Codeforces 为 3206 。但同一来源也总结称,在 SWE-bench Pro、Terminal-Bench 2.0 这类长程智能体任务上,封闭前沿模型仍然领先
。
实践结论是:DeepSeek V4/V4 Pro 值得做内部 PoC,尤其适合重视开放生态、技术可控性或自有评测的团队;但基于现有公开资料,它还没有达到 Claude 在 SWE-bench 和 Anthropic 内部 research-agent 信号上的证据强度 。
Kimi K2.6 不该被忽略,但也不应被包装成与前三者证据覆盖相当。LLM Stats 将 Kimi K2.6 的 GPQA 列为 0.91,WhatLLM 将其纳入按 Quality Index 排列的前十模型 。这些信息说明它已经出现在部分榜单中,但不足以支撑完整的多基准比较。
还要避免一个常见替代:用 Kimi K2.5 的成绩代替 Kimi K2.6。Simon Willison 在 2026年2月记录的是 Kimi K2.5 在 SWE-bench Verified 相关更新中的结果,那不是 Kimi K2.6 。严谨写法应是:Kimi K2.6 目前证据不足,等待更多可比基准验证。
如果要做成内部汇报,建议把性能和证据质量分成两页。第一页讲按场景选型,第二页列出数字,第三页专门写方法论限制。
最稳的主线可以这样写:Claude Opus 4.7 是代码和智能体任务中证据最强的领先者;GPT-5.5 是通用推理的一线竞争者;DeepSeek V4/V4 Pro 是有潜力的技术替代方案,但需要自测;Kimi K2.6 目前属于证据不足。
方法论注记至少应包含三条。第一,不要把 SWE-bench、SWE-bench Verified 和 SWE-bench Pro 混为一谈,因为 SWE-bench Pro 面向更难的长程软件工程任务 。第二,不要只靠 MMLU 做决策,因为顶级模型已经普遍挤在 88% 以上
。第三,每个数字都要标注来源类型:官方、独立 leaderboard、聚合榜、社区评估,还是厂商或媒体 claim。
如果目标是做一份经得起追问的 2026 模型对比,Claude Opus 4.7 应排在代码与智能体场景的第一位:它同时具备 Anthropic 官方信号、Vals AI 的 SWE-bench 领先位置,以及第三方报告中的 SWE-bench Verified / Pro 强表现 。
Comments
0 comments