把公开基准放在一起看,Claude Opus 4.7、GPT-5.5、DeepSeek V4 和 Kimi K2.6 不能简单归纳为某一个模型稳赢。Vals AI 的模型列表显示,DeepSeek V4 和 GPT-5.5 的条目日期均为 2026 年 4 月 23 日,Kimi K2.6 为 4 月 20 日,Claude Opus 4.7 为 4 月 16 日 [19]。但可见分数来自 BenchLM、OpenAI 官方、DataCamp、Hugging Face、Artificial Analysis 和 Vals 等不同体系,并没有把四个模型放在同一基准、同一推理设置、同一成本口径下横评 [
3][
15][
16][
28][
29][
36][
37][
39]。
所以,这篇对比的关键不是找一个“绝对第一”,而是看清楚:做代码、做知识工作、做科学推理、跑智能体或控制成本时,哪个模型的证据更扎实。
为什么 2026 年很难只看一个总榜
AI 基准不是一张期末考试卷。Kili Technology 将 2026 年常见评测分成通用知识与推理、专家级前沿推理、编码、智能体、真实专业工作和安全性等多个维度,例如 MMLU、MMLU-Pro、GPQA Diamond、SWE-Bench、Terminal-Bench、GAIA、WebArena、GDPval 和安全评测各自测的能力并不相同 [8]。Stanford HAI 的 AI Index 也把技术表现拆成 MMLU、MATH、GPQA Diamond、MMMU、OSWorld、AIME、SWE-bench Verified 等轴线,而不是只给一个万能分数 [
13]。
MMLU 这样的通用知识题更要谨慎使用。Nanonets 解释,MMLU 通常按 5-shot 方式计算,而到 2026 年,顶级模型已经集中在 88% 以上区间,彼此差距很难被这个指标拉开 [22]。因此,选模型更像选工具:先确定是写代码、审文档、做客服流程、跑浏览器/电脑任务,还是要压低调用成本,再看相应指标 [
8][
22]。
一张表先看公开证据
| 模型 | 公开资料中较明确的数值 | 可以读出的强项 | 阅读时的坑 |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100,临时榜 110 个模型中第 2;SWE-bench Verified 82.4%;FinanceBench 82.7%;MathVista 提升 9.5 分 [ | 编码、综合榜单、金融文档分析、视觉数学推理 | Anthropic 的 research-agent benchmark 0.715 是内部评测,不应和 GPT-5.5 的 GDPval 等指标当作同一把尺子比较 [ |
| GPT-5.5 | BenchLM 89/100,临时榜 112 个模型中第 5;GDPval 84.9%;OSWorld-Verified 78.7%;Tau2-bench Telecom 98.0%;Vals Accuracy 67.76% ± 1.79 [ | 知识工作、电脑环境操作、客服工作流、智能体任务 | OpenAI 官方指标、BenchLM 分数和 Vals Index 是不同体系,不能简单相加 [ |
| DeepSeek V4 / V4-Pro-Max | Vals AI 列表中 2026 年 4 月 23 日条目;V4-Pro-Max 的 MMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% [ | 科学问答、数学、高难推理的候选项 | DataCamp 说明这些数值基于 DeepSeek 内部结果,应和独立验证榜单区分看待 [ |
| Kimi K2.6 | BenchLM 85/100,临时榜 115 个模型中第 12;Vals Accuracy 63.94% ± 1.97,Latency 373.57s,Cost/Test $0.21;Artificial Analysis Intelligence Index 54,整体第 4 [ | 开放权重、成本/延迟、运行效率 | 资料里有 Kimi 2.6、Kimi K2.6、K2.6 Thinking 等写法,实际比较前要确认是不是同一设置 [ |
综合榜:BenchLM 口径下,Claude 更靠前
只看 BenchLM 上已能直接查到的三款模型,Claude Opus 4.7 的分数最高。BenchLM 将 Claude Opus 4.7 列为临时榜 110 个模型中的第 2 名,总分 97/100;在已验证榜中也位列 14 个模型中的第 2 [3]。
GPT-5.5 在 BenchLM 临时榜中位列 112 个模型中的第 5,总分 89/100;已验证榜中位列 16 个模型中的第 2 [28]。Kimi 2.6 在 BenchLM 临时榜中位列 115 个模型中的第 12,总分 85/100,并显示有 27 项公开基准分数 [
37]。
但这只是 BenchLM 这个口径下的参考。三个页面的比较样本数分别是 110、112、115,而且目前这组资料里没有可直接并列的 DeepSeek V4 BenchLM 分数 [3][
28][
37]。
编码:Claude Opus 4.7 的 SWE-bench Verified 证据最清楚
如果核心场景是自动修代码、理解仓库、处理真实软件工程问题,Claude Opus 4.7 的公开数字最直接。MindStudio 称,Claude Opus 4.7 在 SWE-bench Verified 上达到 82.4%,比 Opus 4.6 大约提升 11 分 [2]。同一资料还给出 FinanceBench 82.7%,并称视觉相关改进中 MathVista 提升 9.5 分 [
2]。
GPT-5.5 不是没有编码能力,但在这里使用的 OpenAI 官方介绍中,最醒目的数字是 GDPval、OSWorld-Verified 和 Tau2-bench Telecom,而不是 SWE-bench [29]。Kimi K2.6 方面,GMI Cloud 摘要声称其在 SWE-Bench Pro 上表现领先,但仅凭该摘要无法确认具体分数,也无法把四个模型放在同一条件下比较 [
35]。DeepSeek V4 在这组资料里更明确的数字集中在推理和数学方向,而非编码横评 [
15][
16]。
办公与智能体:GPT-5.5 的官方指标更具体
如果你关心的是让模型产出规范化知识工作、操作真实电脑环境、完成客服流程,GPT-5.5 的公开官方指标相对完整。OpenAI 称,GPT-5.5 在 GDPval 上得分 84.9%;GDPval 用来测试智能体在 44 个职业类别中产出明确规格知识工作的能力 [29]。OpenAI 还给出 OSWorld-Verified 78.7%,用于衡量模型能否自主操作真实电脑环境;Tau2-bench Telecom 98.0%,用于测试复杂客服工作流 [
29]。
Claude Opus 4.7 也有智能体型任务数据。Anthropic 称,在其内部 research-agent benchmark 中,Claude Opus 4.7 在 6 个模块的总分为 0.715,并列最高;在 General Finance 模块中,它从 Opus 4.6 的 0.767 提升到 0.813 [7]。
这里最容易误读的一点是:GPT-5.5 的 GDPval、OSWorld-Verified、Tau2-bench 与 Claude Opus 4.7 的 Anthropic 内部 research-agent benchmark 不是同一个评测体系 [7][
29]。不能把 GPT-5.5 的 84.9% 和 Claude 的 0.715 当成同一单位来比较 [
7][
29]。
推理与知识:DeepSeek V4-Pro-Max 和 Kimi K2.6 Thinking 有局部同表
DeepSeek V4 的较具体数字主要出现在 V4-Pro-Max 设置下。DataCamp 介绍称,根据 DeepSeek 内部结果,DeepSeek V4-Pro-Max 在 MMLU-Pro 上为 87.5%,GPQA Diamond 为 90.1%,GSM8K 数学题为 92.6% [15]。这些数字有参考价值,但既然来源说明是内部结果,就不宜把它和独立榜单完全等量齐观 [
15]。
Hugging Face 的 DeepSeek-V4-Pro 页面把 DeepSeek V4-Pro-Max 和 Kimi K2.6 Thinking 放进同一张表的部分知识/推理项目中 [16]:
| 基准 | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | 该表中更高者 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
按这张表看,DeepSeek V4-Pro-Max 在 MMLU-Pro、SimpleQA-Verified、Chinese-SimpleQA 和 HLE 上高于 Kimi K2.6 Thinking;Kimi K2.6 Thinking 在 GPQA Diamond 上略高 [16]。但同一表中的其他对照对象是 Opus-4.6 Max、GPT-5.4 xHigh 等,并不是 Claude Opus 4.7 与 GPT-5.5,因此它不能推出四个模型的总排名 [
16]。
成本与延迟:Kimi K2.6 的运营指标值得单独看
Vals AI 中,GPT-5.5 显示为 Accuracy 67.76% ± 1.79、Latency 409.09s、Context Window 1M [31]。Kimi K2.6 显示为 Accuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21 [
39]。只比较这两条 Vals 记录,GPT-5.5 的准确率显示值更高,Kimi K2.6 的延迟显示值更低 [
31][
39]。
Kimi K2.6 对关注开放权重的团队也有单独意义。Artificial Analysis 将 Moonshot 的 Kimi K2.6 称为领先的开放权重模型,并给出 Artificial Analysis Intelligence Index 54、整体第 4 的排序 [36]。但 Artificial Analysis、Vals 和 BenchLM 的评分方法不同,不能把 Kimi 的 54 分、Vals Accuracy 63.94% 与 BenchLM 85/100 合成一个“总智商分” [
36][
37][
39]。
实用选型建议
- 如果重点是代码自动修复、软件工程任务和仓库级协作,Claude Opus 4.7 应优先进入候选名单。当前公开证据里,SWE-bench Verified 82.4% 和 BenchLM 97/100 是最清楚的支持点 [
2][
3]。
- 如果重点是知识工作产出、电脑环境操作、复杂客服流程,GPT-5.5 的 GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0% 是更直接的官方指标 [
29]。
- 如果重点是科学问答、数学和高难推理,可以把 DeepSeek V4-Pro-Max 与 Kimi K2.6 Thinking 的 MMLU-Pro、GPQA Diamond、HLE 等表格放在一起看,但要记住这不是四模型总榜 [
15][
16]。
- 如果重点是开放权重、部署灵活性和单次测试成本,Kimi K2.6 的 Artificial Analysis 开放权重评价,以及 Vals 的 $0.21/test、373.57s 延迟指标更值得关注 [
36][
39]。
- 不建议只看 MMLU。到 2026 年,顶级模型在 MMLU 高分段过于集中,这个指标对前沿模型的区分力已经变弱 [
22]。
最后怎么判断
基于现有公开资料,比较稳妥的结论是:Claude Opus 4.7 在编码和 BenchLM 综合榜上证据最强;GPT-5.5 在办公型智能体、电脑使用和客服流程指标上披露更具体;DeepSeek V4-Pro-Max 在推理和数学相关公开数字上值得关注;Kimi K2.6 则在开放权重、成本和延迟指标上有自己的位置 [2][
3][
15][
16][
28][
29][
36][
37][
39]。
但如果要严肃采购或上线,最好不要把这篇表格当作最终排名。更可靠的做法,是先用它缩小候选范围,再用自己的真实任务做一轮小型评测:例如代码修复、金融文档抽取、浏览器/电脑控制、客服流转、长时间智能体执行等。2026 年的基准已经足够多,但真正决定体验的,往往是你的任务分布、提示词、预算和失败容忍度 [8][
22]。




