在 OpenAI 发布页列出的 ARC-AGI 抽象推理测试中,GPT-5.5 的两个分数都高于 Claude Opus 4.7:ARC-AGI-1 Verified 为 95.0%,Claude Opus 4.7 为 93.5%;ARC-AGI-2 Verified 为 85.0%,Claude Opus 4.7 为 75.8% 。
这说明,在这两项测试和这组公开设置下,GPT-5.5 对 Claude Opus 4.7 有明确优势。它不说明 GPT-5.5 在所有真实任务里都更强。OpenAI 也说明,GPT 评测是在研究环境中以「xhigh」推理强度运行,输出可能与生产环境中的 ChatGPT 略有不同 。
MCP-Atlas 给出的信号刚好相反。一篇评测文章报告称,Claude Opus 4.7 在 MCP-Atlas 上得到 79.1%,高于 GPT-5.5 的 75.3%;该文把这一优势与复杂链式场景中的工具调用可靠性联系起来 。
如果一个产品的核心不是单次问答,而是让模型调用外部工具、串联多个步骤、处理多工具工作流,那么 MCP-Atlas 这类基准就比单纯的推理分数更值得看。在这一项上,现有信号更有利于 Claude Opus 4.7 。
但限制同样重要:现有来源没有给出 Claude Opus 4.7、DeepSeek V4、Kimi K2.6 在同一 Terminal-Bench 2.0 设置下的完整可比分数。因此,更稳妥的说法是:GPT-5.5 在代码代理方向有很强的已知信号,而不是已经被证明在所有代码代理场景中击败另外三款模型 。
DeepSeek V4 和 Kimi K2.6 的意义主要体现在开放权重生态。Artificial Analysis 表示,随着 DeepSeek V4 发布,DeepSeek 回到领先开放权重模型之列 。更具体的数字是,DeepSeek V4 Pro Max 在 Artificial Analysis Intelligence Index 上得到 52,高于 DeepSeek V3.2 的 42
。
Kimi K2.6 也有强定位信号:Artificial Analysis 页面列出一篇题为《Kimi K2.6: The new leading open weights model》的分析 。但在本文可用来源里,缺少足以把 Kimi K2.6 与 DeepSeek V4、GPT-5.5、Claude Opus 4.7 放到 ARC-AGI、MCP-Atlas 或 Terminal-Bench 同一张表里比较的分数
。
GPT-5.5 的 system card 描述了 CoT-Control:这是一个包含 1.3 万多项任务的评测套件,任务来自 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等既有基准,用于观察模型对思维链相关指令的可控性 。
最诚实的比较不是“谁是唯一最强模型”,而是:GPT-5.5 在现有 ARC-AGI 分数中领先 Claude Opus 4.7,并在代码代理方向有最明确数字;Claude Opus 4.7 在 MCP-Atlas 工具编排上领先;DeepSeek V4 与 Kimi K2.6 是开放权重生态中的重要候选,但现有资料不足以在同一批基准上把它们排进完整名次
。
真正做产品决策时,最稳妥的做法仍然是把候选模型放到自己的任务集里跑一遍:看推理、工具调用、代码修改、响应延迟、部署约束、预算和可接受风险。基准测试是路标,不是终点。
Comments
0 comments