这里的“未列出”不是零分,而是相应来源没有给出该模型在这一行的数值。
在 GPQA Diamond 上,Claude Opus 4.7 与 GPT-5.5 的差距不大:94.2% 对 93.6%;DeepSeek-V4-Pro-Max 为 90.1% 。但在 Humanity’s Last Exam 无工具设置下,Claude 的优势更明显:46.9%,高于 GPT-5.5 的 41.4%、GPT-5.5 Pro 的 43.1% 和 DeepSeek-V4-Pro-Max 的 37.7%
。
一旦允许使用工具,排序就变了。HLE 有工具一行中,GPT-5.5 Pro 为 57.2%,Claude Opus 4.7 为 54.7%,GPT-5.5 为 52.2%,DeepSeek-V4-Pro-Max 为 48.2% 。因此,比较稳妥的结论是:无工具纯推理优先看 Claude,工具增强推理则优先看 GPT-5.5 Pro 的可用结果
。
这组数据中,GPT-5.5 最明显的领先来自 Terminal-Bench 2.0:82.7%,而 Claude Opus 4.7 为 69.4%,DeepSeek-V4-Pro-Max 为 67.9% 。Kimi K2.6 的模型卡给出 Terminal-Bench 2.0 为 66.7,LLM Stats 的 Terminal-Bench 2.0 榜单也列出 Kimi K2.6 为 0.667、Claude Opus 4.7 为 0.694
。换句话说,在这个尺度上,Kimi 与 Claude、DeepSeek 接近,但明显低于综合表中的 GPT-5.5
。
SWE-Bench Pro / SWE Pro 的格局不同:Claude Opus 4.7 以 64.3% 领先,GPT-5.5 为 58.6%,DeepSeek-V4-Pro-Max 为 55.4% 。Kimi K2.6 在 Hugging Face 模型卡中也标为 58.6,但这不是与 GPT-5.5、Claude 和 DeepSeek 同一张综合表的统一测试运行
。
SWE-Bench Verified 更不适合被做成四款模型的总排名。Kimi K2.6 有 80.2 的模型卡和 eval 文件记录 ;另一个 DeepSeek V4 来源给出 Claude Opus 4.7 为 87.6%、DeepSeek V4-Pro 为 80.6%,但没有给出 GPT-5.5 的完整同排数据,而且 DeepSeek 版本是 V4-Pro,不是 V4-Pro-Max
。
GPT-5.5 在 Terminal-Bench 2.0 上最亮眼,82.7% 是综合表该行最高结果 。GPT-5.5 Pro 并非每一行都有数据,但在有数据的行里表现强势:HLE 有工具 57.2%,BrowseComp 90.1%,均排第一
。
Claude Opus 4.7 在综合表多项领先:GPQA Diamond 94.2%、HLE 无工具 46.9%、SWE-Bench Pro / SWE Pro 64.3%、MCP Atlas / MCPAtlas Public 79.1% 。但它在 Terminal-Bench 2.0 上低于 GPT-5.5,在 HLE 有工具和 BrowseComp 上低于 GPT-5.5 Pro
。
Kimi K2.6 的数字不宜与其他三者做严格同场排名,因为本文中的 Kimi 数据来自 Hugging Face 模型卡和 eval 文件,而不是综合表同一次运行 。但作为代码方向候选,它的数据很有看点:模型卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1
。
Kimi 的另一个实际价值在部署形态。来源显示 K2.6 权重可在 Hugging Face 获取,并支持通过 vLLM、SGLang 或 KTransformers 运行 。这不等于它赢得了整张 benchmark 表,但对需要自托管、内部实验或更强部署控制的团队来说,Kimi K2.6 值得单独做 eval
。
综合表中 DeepSeek 对应的是 DeepSeek-V4-Pro-Max 。在列出的行里,它没有拿到第一:GPQA Diamond 90.1%、HLE 无工具 37.7%、HLE 有工具 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6%
。
DeepSeek V4 在这组资料里的优势不是绝对跑分,而是成本。Mashable 和 DataCamp 给出的 API 价格为每 100 万输入 token 1.74 美元、每 100 万输出 token 3.48 美元;对比之下,GPT-5.5 为 5/30 美元,Claude Opus 4.7 为 5/25 美元 。如果预算是主要约束,DeepSeek V4 应该进入你的自有测试集,但不应仅凭这张表被称为 benchmark 领先者
。
如果只看综合表中可比的行,Claude Opus 4.7 赢下 GPQA Diamond、HLE 无工具、SWE-Bench Pro 和 MCP Atlas;GPT-5.5 赢下 Terminal-Bench 2.0;GPT-5.5 Pro 赢下 HLE 有工具和 BrowseComp 。Kimi K2.6 是值得重点关注的代码与可用权重候选,但需要单独验证,不能直接判定为四方同场第一
。DeepSeek V4 在这些 benchmark 行里不是冠军,却凭更低的公开 API 价格,适合放进对成本敏感场景的自有评测中
。
Comments
0 comments