报告已发布3个月前Last edited 2个月前19 来源

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6：基准测试到底说明了什么

目前没有一个可靠总榜能同时覆盖四个模型：GPT 5.5 在 ARC AGI 1/2 上以 95.0% 和 85.0% 领先 Claude Opus 4.7 的 93.5% 和 75.8%，但 Claude 在 MCP Atlas 以 79.1% 领先 GPT 5.5 的 75.3% [6] [14]。 GPT 5.5 在 Terminal Bench 2.0 的 82.7% 是代码代理方向最清楚的数字信号；但缺少另外三款模型在同一测试下的可比分数，不能据此宣布全胜 [15]。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Illustration comparant les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 — GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarksComparaison prudente des scores disponibles : ARC-AGI, MCP-Atlas, coding agentique et signaux open-weights.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 : le comparatif prudent des benchmarks. Article summary: Il n’y a pas de classement global fiable des quatre modèles dans les sources disponibles : GPT 5.5 mène face à Claude Opus 4.7 sur ARC AGI avec 95,0 % et 85,0 % contre 93,5 % et 75,8 %, Claude mène sur MCP Atlas avec.... Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.you
openai.com

先给一个不那么刺激、但更有用的答案：现在最可靠的比较，不是把 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 排成一二三四，而是看它们在不同任务上的证据。

可比数字主要集中在 GPT-5.5 与 Claude Opus 4.7；DeepSeek V4 和 Kimi K2.6 更多出现在开放权重相关信号中，缺少与前两者同一设置、同一基准的完整对照。

一句话概括：GPT-5.5 在 ARC-AGI 抽象推理上有公开分数优势；Claude Opus 4.7 在 MCP-Atlas 工具编排上领先；GPT-5.5 在终端式代码代理上有最明确的数字；DeepSeek V4 与 Kimi K2.6 则应作为开放权重候选进入实测，而不是被硬塞进同一张排行榜。

一张表看清：哪些能比，哪些不能硬比

维度或基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	谨慎读法
ARC-AGI-1 Verified	95.0%	93.5%	来源中未给出同一基准可比分数	来源中未给出同一基准可比分数	在 OpenAI 表格中，GPT-5.5 领先 Claude Opus 4.7 1.5 个百分点。
ARC-AGI-2 Verified	85.0%	75.8%	来源中未给出同一基准可比分数	来源中未给出同一基准可比分数	GPT-5.5 优势更明显，但要注意这是 OpenAI 发布页中的设置。
MCP-Atlas	75.3%	79.1%	来源中未给出同一基准可比分数	来源中未给出同一基准可比分数	Claude Opus 4.7 在这个工具编排基准上领先。
Terminal-Bench 2.0 / 代码代理	82.7%	来源中未给出同一基准可比分数	来源中未给出同一基准可比分数	来源中未给出同一基准可比分数	GPT-5.5 的数字信号最清楚，但不是四模型完整排名。
开放权重 / Artificial Analysis 信号	本文不据此比较	本文不据此比较	DeepSeek V4 Pro Max 在 Artificial Analysis Intelligence Index 为 52，高于 V3.2 的 42	Artificial Analysis 列出《Kimi K2.6: The new leading open weights model》这一分析标题，但来源中未给出本文可直接使用的同表分数	这些信号重要，但不能替代同一基准、同一设置下的对照。
安全与网络能力	CoT-Control 包含 1.3 万多项任务；另有来源称网络靶场通过率 93%，同时称 6 小时红队测试发现通用越狱	来源中未给出同一基准可比分数	来源中未给出同一基准可比分数	来源中未给出同一基准可比分数	这些信息不能直接变成四个模型的安全排名。

表里的“未给出”不是说 DeepSeek V4 或 Kimi K2.6 弱，而是说在这些来源中，没有足够的同场、同设置、同指标分数来做严谨横评。

ARC-AGI：GPT-5.5 领先，但别扩大解读

在 OpenAI 发布页列出的 ARC-AGI 抽象推理测试中，GPT-5.5 的两个分数都高于 Claude Opus 4.7：ARC-AGI-1 Verified 为 95.0%，Claude Opus 4.7 为 93.5%；ARC-AGI-2 Verified 为 85.0%，Claude Opus 4.7 为 75.8% 。

这说明，在这两项测试和这组公开设置下，GPT-5.5 对 Claude Opus 4.7 有明确优势。它不说明 GPT-5.5 在所有真实任务里都更强。OpenAI 也说明，GPT 评测是在研究环境中以「xhigh」推理强度运行，输出可能与生产环境中的 ChatGPT 略有不同。

MCP-Atlas：Claude Opus 4.7 的优势更偏向工具编排

MCP-Atlas 给出的信号刚好相反。一篇评测文章报告称，Claude Opus 4.7 在 MCP-Atlas 上得到 79.1%，高于 GPT-5.5 的 75.3%；该文把这一优势与复杂链式场景中的工具调用可靠性联系起来。

如果一个产品的核心不是单次问答，而是让模型调用外部工具、串联多个步骤、处理多工具工作流，那么 MCP-Atlas 这类基准就比单纯的推理分数更值得看。在这一项上，现有信号更有利于 Claude Opus 4.7 。

Terminal-Bench 2.0：GPT-5.5 有强信号，不等于全场通杀

GPT-5.5 被报告在 Terminal-Bench 2.0 上达到 82.7%，这是本文来源中与终端任务和代码代理相关的最清楚数字。

但限制同样重要：现有来源没有给出 Claude Opus 4.7、DeepSeek V4、Kimi K2.6 在同一 Terminal-Bench 2.0 设置下的完整可比分数。因此，更稳妥的说法是：GPT-5.5 在代码代理方向有很强的已知信号，而不是已经被证明在所有代码代理场景中击败另外三款模型。

DeepSeek V4、Kimi K2.6：开放权重阵营值得看，但这里排不出名次

DeepSeek V4 和 Kimi K2.6 的意义主要体现在开放权重生态。Artificial Analysis 表示，随着 DeepSeek V4 发布，DeepSeek 回到领先开放权重模型之列。更具体的数字是，DeepSeek V4 Pro Max 在 Artificial Analysis Intelligence Index 上得到 52，高于 DeepSeek V3.2 的 42 。

Kimi K2.6 也有强定位信号：Artificial Analysis 页面列出一篇题为《Kimi K2.6: The new leading open weights model》的分析。但在本文可用来源里，缺少足以把 Kimi K2.6 与 DeepSeek V4、GPT-5.5、Claude Opus 4.7 放到 ARC-AGI、MCP-Atlas 或 Terminal-Bench 同一张表里比较的分数。

所以，对开放权重方案感兴趣的团队可以把 DeepSeek V4 和 Kimi K2.6 纳入候选；但如果问题是“谁在这些基准上赢了”，现有资料还不足以给出严格答案。

安全和网络能力：不要把“会做”当成“可放心用”

GPT-5.5 的 system card 描述了 CoT-Control：这是一个包含 1.3 万多项任务的评测套件，任务来自 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等既有基准，用于观察模型对思维链相关指令的可控性。

这类信息有助于理解 GPT-5.5 的安全与可控性评估，但它不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 的安全横向排名。

另一个来源称，GPT-5.5 在网络靶场上的通过率为 93%，同时也称红队测试在 6 小时内发现了通用越狱。这两点必须放在一起读：网络能力强，不等于整体安全性已经得到保证。

外部批评还指出，对 GPT-5.5 安全性的判断很大程度上依赖 OpenAI 自身披露，这限制了外界仅凭公开信息能得出的结论。

怎么选：按任务测试，不按热度下注

如果重点是抽象推理：GPT-5.5 在现有 ARC-AGI 分数中更有优势，尤其是 ARC-AGI-2 Verified 。
如果重点是多工具代理和 MCP 工作流：Claude Opus 4.7 在 MCP-Atlas 上的 79.1% 优于 GPT-5.5 的 75.3%，更值得优先验证。
如果重点是终端式代码代理：GPT-5.5 的 Terminal-Bench 2.0 82.7% 是最清楚的数字信号，但仍需要用自己的代码库和任务流复测。
如果必须考虑开放权重模型：DeepSeek V4 与 Kimi K2.6 都值得进入候选池，但现有来源不足以把它们与 GPT-5.5、Claude Opus 4.7 做完整同表排名。
如果是安全敏感场景：能力基准、网络靶场结果、越狱风险和安全评估独立性要分开看，不能混成一个“安全分” 。

结论

最诚实的比较不是“谁是唯一最强模型”，而是：GPT-5.5 在现有 ARC-AGI 分数中领先 Claude Opus 4.7，并在代码代理方向有最明确数字；Claude Opus 4.7 在 MCP-Atlas 工具编排上领先；DeepSeek V4 与 Kimi K2.6 是开放权重生态中的重要候选，但现有资料不足以在同一批基准上把它们排进完整名次。

真正做产品决策时，最稳妥的做法仍然是把候选模型放到自己的任务集里跑一遍：看推理、工具调用、代码修改、响应延迟、部署约束、预算和可接受风险。基准测试是路标，不是终点。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问