在本文可引用资料中,四个目标模型都能找到分数的共享项目是 Terminal-Bench 2.0。按这些公开表格,排序如下:
| 模型 | Terminal-Bench 2.0 | 来源 |
|---|---|---|
| GPT-5.5 | 82.7% | OpenAI 发布页及 MLQ.ai 摘要 |
| Claude Opus 4.7 | 69.4% | OpenAI 发布页 |
| DeepSeek V4-Pro Max | 67.9% | DeepSeek V4-Pro 模型卡 |
| Kimi K2.6 Thinking | 66.7% | DeepSeek V4-Pro 模型卡 |
这能支持的结论很窄但有用:在 Terminal-Bench 2.0 这一项上,GPT-5.5 明显领先,Claude Opus 4.7 排第二,DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking 接近。 它不能自动推出 GPT-5.5 在所有业务场景中都领先,也不能替代同一评测框架、同一工具权限、同一上下文长度和同一推理预算下的复测。
| Benchmark(OpenAI 表) | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
这组数据适合支持一个有限结论:在 OpenAI 列出的这些项目里,GPT-5.5 强于 Claude Opus 4.7。 OpenAI 的系统卡也把 GPT-5.5 定位为面向复杂真实工作的模型,包括写代码、在线研究、分析信息、创建文档和表格,以及跨工具完成任务等场景。
DeepSeek V4-Pro 模型卡提供了 DS-V4-Pro Max 与 K2.6 Thinking 的多项表内对比。 在这张表里,DeepSeek V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 也有明确领先项。
| Benchmark(DeepSeek 模型卡) | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | 表内领先 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
这组数据的稳妥读法是:在 DeepSeek 模型卡列出的多数项目上,DS-V4-Pro Max 高于 K2.6 Thinking;但 Kimi K2.6 Thinking 在 GPQA Diamond 和 SWE Pro 上领先。 其中 MMLU-Pro 与 Terminal-Bench 2.0 的差距较小,产品决策时不应只看领先方向,还应看任务类型和误差空间。
最容易出错的做法,是把 OpenAI 表、DeepSeek 表和 Anthropic 功能文档里的信息直接合并,然后算出一个“总冠军”。目前公开资料不支持这样做,原因有三点:
所以,公开 benchmark 更适合作为第一层筛选,而不是最终采购或架构选择的唯一依据。
更实用的做法是分三层看:
如果产品依赖较长的代理循环,Claude Opus 4.7 的 task budgets
如果产品更接近复杂编码、在线研究、文档或表格生成、跨工具工作,GPT-5.5 的系统卡描述与这些任务更直接相关。 但即使某个模型在公开表上领先,也仍需要放进你的代码库、工具链、权限边界和失败恢复规则中复测。
Comments
0 comments