报告已发布3个月前Last edited 2个月前20 来源

GPT-5.5 对比 Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6：基准结果怎么读

在可用的 Artificial Analysis 片段中，GPT 5.5 xhigh 以 60 分领先，GPT 5.5 high 为 59 分，Claude Opus 4.7 为 57 分 [2]。 Claude Opus 4.7 在 SWE Bench Pro（64.3% 对 58.6%）和 GPQA Diamond（94.2% 对 93.6%）领先 GPT 5.5；GPT 5.5 则在 Terminal Bench 2.0（82.7% 对 69.4%）明显领先 [22][24]。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen — GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB
openai.com

先说结论：这不是一张可以简单排座次的冠军榜。现有资料并没有把 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 放进同一个独立测试流程里统一跑完，而是来自不同基准、不同模型变体、厂商发布或二级分析。因此，更靠谱的读法不是问谁永远第一，而是看哪类任务由谁领先。

最简判断

GPT-5.5 是目前证据最充分的全能型模型。 在可用的 Artificial Analysis Intelligence Index 片段中，GPT-5.5 xhigh 为 60 分，GPT-5.5 high 为 59 分，排在 Claude Opus 4.7 的 57 分之前。在 BrowseComp 中，GPT-5.5 为 84.4%，DeepSeek V4 为 83.4%，Claude Opus 4.7 为 79.3% 。

Claude Opus 4.7 在代码和知识类测试上很强。 它在 SWE-Bench Pro 中以 64.3% 领先 GPT-5.5 的 58.6%，在 GPQA Diamond 中以 94.2% 略高于 GPT-5.5 的 93.6% 。但在 Terminal-Bench 2.0 上，GPT-5.5 以 82.7% 明显领先 Claude Opus 4.7 的 69.4% 。

DeepSeek V4 的看点是价格性能比。 VentureBeat 给出的 BrowseComp 数字显示，DeepSeek V4 为 83.4%，只比 GPT-5.5 的 84.4% 低 1.0 个百分点，并高于 Claude Opus 4.7 的 79.3% 。Mashable 同时列出 DeepSeek V4 的 API 价格为每 100 万输入 token 1.74 美元、每 100 万输出 token 3.48 美元，低于 GPT-5.5 的 5/30 美元和 Claude Opus 4.7 的 5/25 美元。

Kimi K2.6 技术上值得关注，但这组资料不足以排名。 DocsBot 将 Kimi K2.6 描述为 Moonshot AI 的开源、原生多模态、Agentic 模型，采用 1T 参数 MoE 架构、32B 激活参数和 256K 上下文。但这里缺少足够的、与 GPT-5.5、Claude Opus 4.7、DeepSeek V4 直接对照的基准数值。

一张表看懂四个模型

模型	最有力的已知结论	关键数值	实用解读
GPT-5.5	在可用的 Artificial Analysis 片段中领先	Intelligence Index：60 xhigh、59 high ；BrowseComp：84.4%，GPT-5.5 Pro：90.1% ；Terminal-Bench 2.0：82.7%	最适合作为全能起点，但不是每个单项都赢
Claude Opus 4.7	代码、知识和部分 Agentic 任务强势	Intelligence Index：57 ；SWE-Bench Pro：64.3% ；SWE-Bench Verified：87.6% ；GPQA Diamond：94.2%	适合重代码审查、复杂知识问答和部分金融/代理任务
DeepSeek V4	BrowseComp 接近 GPT-5.5	BrowseComp：83.4% ；API 价格：每 100 万输入 token 1.74 美元、输出 token 3.48 美元	当预算、检索/浏览类任务很重要时，性价比突出
Kimi K2.6	被描述为开源、多模态、长上下文 Agentic 模型	1T 参数 MoE、32B 激活参数、256K 上下文	技术参数亮眼，但现有资料不能做严谨的数值排名

为什么不能像看体育比赛一样排第一第二？

最大的限制来自数据口径。DataCamp 在相关前沿模型对比中提醒，一些基准分数可能是厂商报告，测试 harness，也就是运行脚本和配置，也可能不同。这意味着，一个模型在某个配置下领先，不代表换一个测试环境仍然领先。

模型变体也会影响结果。Artificial Analysis 提到的是 GPT-5.5 xhigh、GPT-5.5 high，以及带 Adaptive Reasoning 和 Max Effort 的 Claude Opus 4.7 。VentureBeat 引用 DeepSeek 时涉及 DeepSeek-V4-Pro-Max 。对推理、代码和 Agent 任务来说，是否使用工具、推理强度、上下文管理和测试流程都可能改变分数。

所以，更实际的问题是：你的工作负载是哪一种？

综合能力：GPT-5.5 目前最稳

在可引用的 Artificial Analysis Intelligence Index 片段中，GPT-5.5 xhigh 以 60 分排第一，GPT-5.5 high 以 59 分排第二，Claude Opus 4.7 以 57 分排第三。这支持了一个相对谨慎的判断：在这一综合指数片段中，GPT-5.5 对 Claude Opus 4.7 有轻微但明确的领先。

不过，同一片段没有给出 DeepSeek V4 和 Kimi K2.6 在四模型对比中可直接引用的完整指数分数，因此不能据此完成严格的四方总排名。

BrowseComp：DeepSeek V4 离 GPT-5.5 很近

BrowseComp 是这组资料里最清晰的三方对比之一。VentureBeat 给出的数字是：GPT-5.5 Pro 为 90.1%，GPT-5.5 为 84.4%，DeepSeek V4 为 83.4%，Claude Opus 4.7 为 79.3% 。

模型或变体	BrowseComp	解读
GPT-5.5 Pro	90.1%	在这组数字中明显领先
GPT-5.5	84.4%	略高于 DeepSeek V4
DeepSeek V4	83.4%	只落后 GPT-5.5 1.0 个百分点
Claude Opus 4.7	79.3%	低于 GPT-5.5 和 DeepSeek V4
Kimi K2.6	未见直接可比数值	不能公平排名

但 VentureBeat 也指出，DeepSeek-V4-Pro-Max 在可直接比较的基准上并没有整体取代 GPT-5.5 或 Claude Opus 4.7 。更稳妥的结论是：DeepSeek V4 在 BrowseComp 上非常接近 GPT-5.5，但不能只凭这一项就宣布总冠军。

代码与软件工程：Claude 赢 SWE，GPT 赢 Terminal

代码类测试没有绝对赢家。Claude Opus 4.7 在 SWE-Bench Pro 中为 64.3%，高于 GPT-5.5 的 58.6% 。Vellum 还列出 Claude Opus 4.7 在 SWE-Bench Verified 上为 87.6% 。但在 Terminal-Bench 2.0 中，GPT-5.5 为 82.7%，明显高于 Claude Opus 4.7 的 69.4% 。

基准	GPT-5.5	Claude Opus 4.7	结果
SWE-Bench Pro	58.6%	64.3%	Claude 领先
SWE-Bench Verified	未见可直接引用的 GPT-5.5 数值	87.6%	Claude 数值很强，但不是完整四方对比
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5 明显领先

DeepSeek V4 和 Kimi K2.6 在这部分缺少同等清晰的直接对照表。VentureBeat 提到 DeepSeek V4 在若干可比较基准上接近领先模型，但可直接摘出的最明确数字仍是 BrowseComp 。DocsBot 对 Kimi K2.6 主要提供架构与能力描述，而不是完整的四模型代码基准矩阵。

推理、知识与专业任务：领先者随题目变化

在知识与推理类测试中，GPT-5.5 和 Claude Opus 4.7 很接近，谁领先取决于测试内容和工具设置。GPQA Diamond 中，GPT-5.5 为 93.6%，Claude Opus 4.7 为 94.2% 。Humanity’s Last Exam 中，不使用工具时 GPT-5.5 为 40.6%，Claude Opus 4.7 为 31.2%；使用工具时，Claude Opus 4.7 为 54.7%，略高于 GPT-5.5 的 52.2% 。

基准	GPT-5.5	Claude Opus 4.7	已知领先者
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7 略高
Humanity’s Last Exam	40.6%	31.2%	GPT-5.5
Humanity’s Last Exam，带工具	52.2%	54.7%	Claude Opus 4.7 略高

专业和 Agentic 基准也呈现交错格局。Vellum 列出 GPT-5.5 在 GDPval 上为 84.9%，Claude Opus 4.7 为 80.3%；OSWorld-Verified 中 GPT-5.5 为 78.7%，Claude Opus 4.7 为 78.0%；MCP Atlas 中 GPT-5.5 为 75.3%，Claude Opus 4.7 为 79.1% 。OpenAI 列出的 FinanceAgent v1.1 中，GPT-5.5 为 60.0%，Claude Opus 4.7 为 64.4% 。

基准	GPT-5.5	Claude Opus 4.7	结果
GDPval	84.9%	80.3%	GPT-5.5 领先
OSWorld-Verified	78.7%	78.0%	GPT-5.5 略高
MCP Atlas	75.3%	79.1%	Claude Opus 4.7 领先
FinanceAgent v1.1	60.0%	64.4%	Claude Opus 4.7 领先

Anthropic 还提到一项内部 research-agent 基准：Claude Opus 4.7 在六个模块中并列最高总分 0.715，并在 General Finance 模块中达到 0.813，高于 Opus 4.6 的 0.767 。由于这是内部基准，而且没有同等覆盖四个模型，更适合作为 Claude Agentic 能力的参考，而不是独立四方排名。

价格与上下文：DeepSeek V4 最抢眼

真正落地使用时，贵一倍还是便宜一半，往往比单项分数差 1 个百分点更重要。Mashable 给出的价格显示，DeepSeek V4 为每 100 万输入 token 1.74 美元、每 100 万输出 token 3.48 美元，并标注 100 万 token 上下文窗口。同一来源列出 GPT-5.5 为输入 5 美元、输出 30 美元，Claude Opus 4.7 为输入 5 美元、输出 25 美元，二者也标注 100 万 token 上下文窗口。

模型	每 100 万输入 token 价格	每 100 万输出 token 价格	来源中的上下文信息
DeepSeek V4	1.74 美元	3.48 美元	100 万 token
GPT-5.5	5 美元	30 美元	100 万 token
Claude Opus 4.7	5 美元	25 美元	100 万 token
Kimi K2.6	未见可靠价格	未见可靠价格	256K token

Kimi K2.6 在这里属于另一类讨论。DocsBot 将其描述为开源、原生多模态、Agentic 模型，具备 1T 参数 MoE 架构、32B 激活参数、256K 上下文，并可扩展到 300 个子 Agent 和 4,000 个协同步骤。这些是重要技术参数，但不能替代与 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的直接基准和价格对比。

如果要选模型，应该从哪里开始？

你的重点是	更合适的起点	理由
综合能力和稳妥起步	GPT-5.5	在可用 Intelligence Index 片段中领先，并在 BrowseComp 中高于 Claude Opus 4.7、略高于 DeepSeek V4
SWE-Bench 导向的软件工程	Claude Opus 4.7	SWE-Bench Pro 高于 GPT-5.5，且 SWE-Bench Verified 被列为 87.6%
Terminal、电脑操作和部分执行型任务	GPT-5.5	Terminal-Bench 2.0 明显领先，并在 GDPval、OSWorld-Verified 中高于 Claude Opus 4.7
浏览/检索类表现与低 API 成本	DeepSeek V4	BrowseComp 为 83.4%，且引用价格显著低于 GPT-5.5 和 Claude Opus 4.7
评估开源多模态 Agentic 模型	Kimi K2.6	被描述为开源、原生多模态、256K 上下文模型，但缺少完整直接对比数据

结论

如果只看这组可用证据，GPT-5.5 是最稳的综合型选择：它领先可用的 Artificial Analysis 片段，在 BrowseComp 和多项专业评测中也表现强劲。Claude Opus 4.7 仍然是顶级模型，尤其在 SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond 和部分金融 Agent 任务中很有竞争力。DeepSeek V4 的最大亮点是性价比：BrowseComp 几乎追平 GPT-5.5，同时引用的 API 价格明显更低。Kimi K2.6 则应保持开放但谨慎的态度：技术描述很吸引人，但这组资料不足以给它做严格排名。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问