| 终端与智能体计算 | GPT-5.5 | Terminal-Bench 2.0 为 82.7%,明显高于 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9% |
| 操作系统环境任务 | GPT-5.5 | OSWorld-Verified 为 78.7%,略高于 Claude Opus 4.7 的 78.0% |
| 前沿数学 | GPT-5.5 | FrontierMath Tiers 1–3 为 51.7%,高于 Claude Opus 4.7 的 43.8% |
| 共享表中的软件工程 | Claude Opus 4.7 | SWE-Bench Pro / SWE Pro 为 64.3%,高于 GPT-5.5 的 58.6% 和 DeepSeek-V4-Pro-Max 的 55.4% |
| 浏览与网页理解 | GPT-5.5 Pro | BrowseComp 为 90.1%,高于 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 和 Claude Opus 4.7 的 79.3% |
| MCP 式公共工具流程 | Claude Opus 4.7 | MCP Atlas / MCPAtlas Public 为 79.1%,高于 GPT-5.5 的 75.3% 和 DeepSeek-V4-Pro-Max 的 73.6% |
| 视觉与文档分析 | Claude Opus 4.7 | 有来源称其在 Vision & Document Arena 总榜第一,并在图表、作业和 OCR 子类中获胜 |
| 成本敏感场景 | DeepSeek V4 | VentureBeat 称其以约六分之一成本接近 Opus 4.7 和 GPT-5.5 的前沿智能水平,但仍应按自己的工作负载复核 |
| 最难做四方同台判断 | Kimi K2.6 | Kimi 有可参考分数,但引用证据多来自与 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 分开的比较 |
混合来源的行要格外小心。Kimi 在单独 Kimi 对比中的分数有参考价值,但不等同于与 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 在同一测试框架、同一设置下直接对跑 。
GPT-5.5 最清楚的领先项是 Terminal-Bench 2.0:82.7%,对比 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9% 。在这组已引用基准里,这是差距较大的胜出项之一。
在 OSWorld-Verified 上,GPT-5.5 也领先 Claude Opus 4.7,但优势很窄:78.7% 对 78.0% 。在 FrontierMath Tiers 1–3 上差距更明显,GPT-5.5 为 51.7%,Claude 为 43.8%
。
如果你的任务依赖工具或网页浏览,GPT-5.5 Pro 的位置更突出。它在 Humanity’s Last Exam 带工具版本中为 57.2%,领先 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2% 和 DeepSeek-V4-Pro-Max 的 48.2% 。BrowseComp 上,GPT-5.5 Pro 为 90.1%,也高于 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 和 Claude Opus 4.7 的 79.3%
。
但 GPT-5.5 并不是所有推理项都赢。GPQA Diamond 上,Claude Opus 4.7 以 94.2% 小幅高于 GPT-5.5 的 93.6% 。另有 GPT-5.5 指南列出 GPT-5.5 单模型的垂直领域成绩,包括 Harvey BigLaw Bench 91.7%、内部投行业务基准 88.5%、BixBench 80.5%,但这些不能算四方胜利,因为引用片段没有给出 Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 在同一基准上的对应成绩
。
在主要共享表里,Claude Opus 4.7 的无工具推理画像最好。它在 GPQA Diamond 上为 94.2%,在 Humanity’s Last Exam 无工具版本上为 46.9% 。同一张表中,它还以 64.3% 领先 SWE-Bench Pro / SWE Pro,并以 79.1% 领先 MCP Atlas / MCPAtlas Public
。
Claude 在已引用数据中的短板主要是终端式操作。Terminal-Bench 2.0 上,GPT-5.5 以 82.7% 对 69.4% 领先 Claude 超过 13 个百分点;GPT-5.5 也在 OSWorld-Verified 和 FrontierMath Tiers 1–3 上领先 Claude 。
多模态和文档方面,Claude 的证据最强。有来源称 Claude Opus 4.7 在 Vision & Document Arena 排名第一,在 Document Arena 上比 Opus 4.6 提高 4 分,并赢得图表、作业和 OCR 子类别 。不过,该来源没有给出 GPT-5.5、DeepSeek V4 或 Kimi K2.6 在同一 Arena 中的可比数值,所以这能支持 Claude 的文档优势,却不能构成完整四方多模态排名
。
需要先区分名称。共享基准表写的是 DeepSeek-V4-Pro-Max;Artificial Analysis 的对比写的是 DeepSeek V4 Pro,并列出 1,000k token 上下文窗口 。这些标签不应自动视为完全相同的模型配置。
在主要共享表中,DeepSeek-V4-Pro-Max 表现有竞争力,但没有拿下任一列第一。它在 GPQA Diamond 为 90.1%,Humanity’s Last Exam 无工具为 37.7%,带工具为 48.2%,Terminal-Bench 2.0 为 67.9%,SWE-Bench Pro / SWE Pro 为 55.4%,BrowseComp 为 83.4%,MCP Atlas / MCPAtlas Public 为 73.6% 。
DeepSeek 最明确的已引用优势是成本性能,而不是某个基准单项冠军。VentureBeat 称 DeepSeek V4 以约六分之一成本提供接近 Opus 4.7 和 GPT-5.5 的前沿智能水平 。这意味着它很适合进入成本敏感场景的候选名单,但不意味着可以跳过自己的质量评测。
长上下文筛选方面,一份 Artificial Analysis 对比把 DeepSeek V4 Pro 和 Claude Opus 4.7 都列为 1,000k token 上下文窗口 。这只能说明该对比配置下二者相同,不能外推到所有 DeepSeek 或 Claude 模式
。
Kimi K2.6 是这组里最难直接排名的模型,因为它没有出现在 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max 的主要共享表中 。一份 Kimi 相关对比给出 K2.6 的若干成绩:SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%、Terminal-Bench 2.0 66.7%、Humanity’s Last Exam 带工具 54.0%、LiveCodeBench v6 89.6%
。该来源称 K2.6 数字来自 Moonshot AI 官方模型卡,但比较对象主要是 Claude Opus 4.6 和 GPT-5.4,而不是本文这组精确四方阵容
。
另一份 Kimi vs DeepSeek 对比显示,Kimi K2.6 在 Thinking mode 下 AIME 2026 为 96.4%、APEX Agents 为 27.9%,在带 Thinking mode 和上下文管理的 BrowseComp 上为 83.2% 。同一来源中,DeepSeek-V4 Pro 在 BrowseComp 上列为 83.4%,但 AIME 2026 和 APEX Agents 没有 DeepSeek 数值
。
第一,这不是一个统一总榜。来源混用了 GPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7 和 Kimi K2.6 等不同版本或模式 。
第二,一些结果是厂商报告或研究环境结果。OpenAI 对其 GPT 评测也提示,ARC 相关评测使用了 reasoning effort 设为 「xhigh」 的研究环境,某些情况下可能与生产版 ChatGPT 输出略有不同 。
第三,小差距只能当方向参考。Claude 在 GPQA Diamond 上领先 GPT-5.5 0.6 个百分点,GPT-5.5 在 OSWorld-Verified 上领先 Claude 0.7 个百分点 。更大的差距更有操作意义,例如 GPT-5.5 在 Terminal-Bench 2.0 上领先 Claude 超过 13 个百分点,在 FrontierMath 上领先 Claude 7.9 个百分点
。
一句话总结:GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 之间没有放之四海而皆准的赢家。把基准类别映射到你的真实工作,再用你能实际部署的模型做同场复测,才是更可靠的选择方式。
Comments
0 comments