公开基准测试可以帮助你快速缩小模型候选,但这四个名字不能直接被拼成一个“总分榜”。目前可引用资料分别来自 OpenAI 的 GPT-5.5 发布页和系统卡、Anthropic 的 Claude Opus 4.7 API 文档,以及 DeepSeek V4-Pro 模型卡;它们不是同一第三方、同一版本、同一评测配置下的完整四方同场测试。[29][
27][
13][
6]
先统一版本口径
本文把 DeepSeek V4 限定为 DeepSeek 模型卡中的 DS-V4-Pro Max,把 Kimi K2.6 限定为 K2.6 Thinking;这两个名称是 DeepSeek 表格里可直接引用的列名。[6]
这一点很关键:DeepSeek 模型卡里的 GPT 和 Claude 列分别是 GPT-5.4 xHigh 与 Opus-4.6 Max,不是本文要比较的 GPT-5.5 与 Claude Opus 4.7。[6] 因此,不能用 DeepSeek 那张表直接判断 DeepSeek V4-Pro Max 相对 GPT-5.5 或 Claude Opus 4.7 的完整胜负。
Anthropic 的 Claude Opus 4.7 公开 API 文档主要说明功能与调用方式,例如 task budgets13]
最稳的横向交集:Terminal-Bench 2.0
在本文可引用资料中,四个目标模型都能找到分数的共享项目是 Terminal-Bench 2.0。按这些公开表格,排序如下:
| 模型 | Terminal-Bench 2.0 | 来源 |
|---|---|---|
| GPT-5.5 | 82.7% | OpenAI 发布页及 MLQ.ai 摘要 [ |
| Claude Opus 4.7 | 69.4% | OpenAI 发布页 [ |
| DeepSeek V4-Pro Max | 67.9% | DeepSeek V4-Pro 模型卡 [ |
| Kimi K2.6 Thinking | 66.7% | DeepSeek V4-Pro 模型卡 [ |
这能支持的结论很窄但有用:在 Terminal-Bench 2.0 这一项上,GPT-5.5 明显领先,Claude Opus 4.7 排第二,DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking 接近。[29][
30][
6] 它不能自动推出 GPT-5.5 在所有业务场景中都领先,也不能替代同一评测框架、同一工具权限、同一上下文长度和同一推理预算下的复测。
GPT-5.5 与 Claude Opus 4.7:OpenAI 表内对比
OpenAI 发布页给出了 GPT-5.5 与 Claude Opus 4.7 的多项 benchmark 对比;在这些列出的项目上,GPT-5.5 的分数均高于 Claude Opus 4.7。[29]
| Benchmark(OpenAI 表) | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
这组数据适合支持一个有限结论:在 OpenAI 列出的这些项目里,GPT-5.5 强于 Claude Opus 4.7。[29] OpenAI 的系统卡也把 GPT-5.5 定位为面向复杂真实工作的模型,包括写代码、在线研究、分析信息、创建文档和表格,以及跨工具完成任务等场景。[
27]
但它仍然是 OpenAI 发布页中的对比表,不等于独立第三方对四个目标模型进行的统一 harness 测试。[29]
DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking:DeepSeek 表内对比
DeepSeek V4-Pro 模型卡提供了 DS-V4-Pro Max 与 K2.6 Thinking 的多项表内对比。[6] 在这张表里,DeepSeek V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 也有明确领先项。[
6]
| Benchmark(DeepSeek 模型卡) | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | 表内领先 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
这组数据的稳妥读法是:在 DeepSeek 模型卡列出的多数项目上,DS-V4-Pro Max 高于 K2.6 Thinking;但 Kimi K2.6 Thinking 在 GPQA Diamond 和 SWE Pro 上领先。[6] 其中 MMLU-Pro 与 Terminal-Bench 2.0 的差距较小,产品决策时不应只看领先方向,还应看任务类型和误差空间。
为什么不能直接给四方绝对总排名
最容易出错的做法,是把 OpenAI 表、DeepSeek 表和 Anthropic 功能文档里的信息直接合并,然后算出一个“总冠军”。目前公开资料不支持这样做,原因有三点:
- 版本不一致。 OpenAI 表比较的是 GPT-5.5 与 Claude Opus 4.7;DeepSeek 表中的 GPT 和 Claude 列却是 GPT-5.4 xHigh 与 Opus-4.6 Max。[
29][
6]
- 来源不一致。 现有资料分别来自厂商发布页、系统卡、API 文档和模型卡,并非同一第三方评测框架下的完整四方复测。[
29][
27][
13][
6]
- 指标不等价。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等项目衡量的能力不同;没有明确权重时,把它们相加成一个总分会掩盖真实任务差异。[
29][
6]
所以,公开 benchmark 更适合作为第一层筛选,而不是最终采购或架构选择的唯一依据。
产品选型应该怎么用这些分数
更实用的做法是分三层看:
- 共享 benchmark 层。 目前最清楚的四方交集是 Terminal-Bench 2.0;在这一项上,GPT-5.5 领先。[
29][
30][
6]
- 厂商表内部对比层。 OpenAI 表支持 GPT-5.5 在列出项目上高于 Claude Opus 4.7;DeepSeek 模型卡支持 DS-V4-Pro Max 在多数列项上高于 K2.6 Thinking。[
29][
6]
- 业务复测层。 把你的真实任务拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等维度,在同一提示词、同一上下文、同一工具权限和同一评测规则下复测。
如果产品依赖较长的代理循环,Claude Opus 4.7 的 task budgets13]
如果产品更接近复杂编码、在线研究、文档或表格生成、跨工具工作,GPT-5.5 的系统卡描述与这些任务更直接相关。[27] 但即使某个模型在公开表上领先,也仍需要放进你的代码库、工具链、权限边界和失败恢复规则中复测。
最稳妥的排名说法
- Terminal-Bench 2.0 单项: GPT-5.5 第一,Claude Opus 4.7 第二,DeepSeek V4-Pro Max 第三,Kimi K2.6 Thinking 第四。[
29][
30][
6]
- OpenAI 表内部: GPT-5.5 在列出的项目上高于 Claude Opus 4.7。[
29]
- DeepSeek 表内部: DS-V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[
6]
- 四方绝对总排名: 证据不足。公开资料还没有提供同一第三方、同一版本、同一评测条件下的完整四方对测。[
29][
13][
6]




