studioglobal
热门发现
报告已发布6 来源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基准测试与证据等级

最适合直接比较的是 OpenAI 同一张 GPT 5.5 评测表:Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,高于 GPT 5.5 的 58.6%;但 GPT 5.5 在 Terminal Bench 2.0 为 82.7%,高于 Claude 的 69.4%。[21] Kimi K2.6 可进入开放模型候选名单:Hugging Face 将其描述为 open source、native multimodal agentic model;第三方文章列出 SWE Bench Pro 58.6%、SWE Bench Verified 80.2%,但不宜和官方同表数据硬排总榜。[32][34] G...

17K0
四個 AI 模型基準測試比較的抽象儀表板插圖
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級AI 生成示意圖;本文聚焦可核驗 benchmark 分數與來源等級。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍:同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先,但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先;Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu

openai.com

比较 GPT-5.5、Claude Opus 4.7、Kimi K2.6 和 DeepSeek V4,最容易踩的坑不是少看了某个分数,而是把不同来源、不同测试环境、不同评测口径的数字混在一起,最后得出一个看似精确、实际并不公平的总排名。

所以这篇文章不急着给“四模型总冠军”。更有用的做法是:先看哪些分数能同口径比较,再看每个数字背后的来源强度。

四模型基准测试对比表

表中的“—”表示本文可用来源没有可引用数字,不代表模型不能完成该类任务。尤其是大模型评测,是否同一套 harness、同一批题目、同一运行设置,都会影响结果。

模型SWE-Bench ProSWE-Bench VerifiedTerminal-Bench 2.0其他可见信息证据等级与解读
GPT-5.558.6% [21]82.7% [21]Expert-SWE(Internal)73.1%;OpenAI 同页提示其他实验室在该 eval 上看到 memorization evidence。[21]A-:SWE-Bench Pro 与 Terminal-Bench 2.0 来自 OpenAI 同一张比较表,可与 Claude Opus 4.7 直接对照;Expert-SWE 是 internal eval,应保守解读。[21]
Claude Opus 4.764.3% [21]87.6% [4][6]69.4% [21]CursorBench 70%。[4][6]A-/B:SWE-Bench Pro 与 Terminal-Bench 2.0 可与 GPT-5.5 同表比较;SWE-Bench Verified 与 CursorBench 主要来自第三方整理,其中 Verdent 将前者标为 Anthropic-conducted、后者标为 partner eval。[6][21]
Kimi K2.658.6% [34]80.2% [34]Hugging Face 页面将 Kimi K2.6 描述为 open-source、native multimodal agentic model。[32]B(有限):SWE-Bench 数字来自第三方文章;本文来源中没有看到可与 GPT-5.5、Claude Opus 4.7 同表交叉验证的官方完整 benchmark。[32][34]
DeepSeek V4C(数据不足):本文可用来源没有可引用的 DeepSeek V4 benchmark,因此不做数值排名。

读表重点:谁领先,取决于你看哪类任务

1. SWE-Bench Pro:Claude Opus 4.7 领先 GPT-5.5

在 OpenAI 的 GPT-5.5 评测表中,Claude Opus 4.7 的 SWE-Bench Pro 分数是 64.3%,高于 GPT-5.5 的 58.6%。[21] 这是本文最值得直接比较的一组数字之一,因为两个模型出现在同一张表里。

SWE-Bench 系列通常被用来观察模型处理真实软件工程问题的能力,Vellum 也把这组比较放在 real GitHub issue resolution 的语境下解读。[24] 如果你的产品场景是自动修 bug、理解大型代码库、处理多文件变更,Claude Opus 4.7 应该优先进入测试名单。

Kimi K2.6 也被 Kilo AI 的第三方文章列为 SWE-Bench Pro 58.6%,看起来与 GPT-5.5 接近。[34] 但这个数字没有和 GPT-5.5、Claude Opus 4.7 出现在同一张可引用交叉表中,因此更适合作为参考信号,而不是严格胜负结论。

2. Terminal-Bench 2.0:GPT-5.5 领先 Claude Opus 4.7

同一张 OpenAI 评测表中,GPT-5.5 在 Terminal-Bench 2.0 的分数是 82.7%,Claude Opus 4.7 为 69.4%。[21]

这意味着,如果你的任务更接近命令行、终端操作、工具调用和 coding agent 的执行环境,GPT-5.5 值得优先实测。这里的结论只适用于这个 benchmark;它不等于 GPT-5.5 在所有代码任务上都更强。

目前本文来源没有 Kimi K2.6 或 DeepSeek V4 在 Terminal-Bench 2.0 上的可引用分数,因此这一栏不能做四模型完整排名。

3. SWE-Bench Verified:Claude Opus 4.7 高于 Kimi K2.6,但来源口径不同

Claude Opus 4.7 的 SWE-Bench Verified 87.6% 出现在第三方评测整理中;Verdent 的整理将该数字标注为 Anthropic-conducted,并提到 memorization screens applied。[4][6] Kimi K2.6 的 SWE-Bench Verified 80.2% 来自 Kilo AI 的第三方文章。[34]

这两组数字都有参考价值,但它们不像 OpenAI 同表中的 SWE-Bench Pro 与 Terminal-Bench 2.0 那样适合直接“硬碰硬”。更稳妥的读法是:Claude Opus 4.7 在已披露的 SWE-Bench Verified 数据里更高,但二者来源口径不同,最好结合自己的任务集复测。

4. Expert-SWE:可以看,但不适合作为总排名核心

GPT-5.5 在 Expert-SWE(Internal)为 73.1%,但 OpenAI 将其标为 internal eval,并提示其他实验室在该 eval 上看到 memorization evidence。[21]

简单说,这个数字可以作为 OpenAI 内部能力信号之一,但不适合拿来给四个模型排总榜。凡是带有 internal eval、memorization evidence 或缺少外部交叉验证的指标,都应降低权重。

怎么选模型:先看任务,再看分数

如果你做的是复杂软件工程、GitHub issue 修复或多文件代码改动,先测 Claude Opus 4.7。 在最可直接对照的 SWE-Bench Pro 数据中,Claude Opus 4.7 以 64.3% 高于 GPT-5.5 的 58.6%。[21]

如果你的工作流更像终端里的 coding agent,先测 GPT-5.5。 GPT-5.5 在 Terminal-Bench 2.0 上为 82.7%,高于 Claude Opus 4.7 的 69.4%。[21]

如果你需要开放模型候选,Kimi K2.6 可以进入 shortlist。 Hugging Face 页面将 Kimi K2.6 描述为 open-source、native multimodal agentic model;Kilo AI 第三方文章列出它在 SWE-Bench Pro 为 58.6%、SWE-Bench Verified 为 80.2%。[32][34] 但这些分数没有与 GPT-5.5、Claude Opus 4.7 出现在同一张官方交叉表中,实际选型时仍应重跑自己的任务集。

如果你正在评估 DeepSeek V4,最稳妥的做法是等待可引用 benchmark 或自行复测。 本文可用来源没有 DeepSeek V4 的可核验分数。把它强行放入数值榜单,反而比留白更容易误导。

为什么不排一个“总冠军”?

大模型 benchmark 的常见误区,是把不同来源、不同任务、不同设置下的数字直接相加。本文采用三层证据来读:

  1. 同表共享 benchmark:例如 GPT-5.5 与 Claude Opus 4.7 在 OpenAI 表中的 SWE-Bench Pro 和 Terminal-Bench 2.0,这是本文最适合直接比较的数据。[21]
  2. 第三方整理的 vendor 或 partner eval:例如 Claude Opus 4.7 的 SWE-Bench Verified 与 CursorBench,仍有参考价值,但要注意测试来源与口径。[4][6]
  3. 缺少交叉验证或可引用数字的数据:例如 Kimi K2.6 目前主要依赖第三方文章列出的 SWE-Bench 数字,而 DeepSeek V4 在本文来源中没有足够 benchmark 可引用。[32][34]

按这个标准,当前最清楚的结论是:Claude Opus 4.7 在 SWE-Bench Pro 领先 GPT-5.5,GPT-5.5 在 Terminal-Bench 2.0 领先 Claude Opus 4.7;Kimi K2.6 的 SWE-Bench 数字有看点但证据等级较低;DeepSeek V4 暂列为数据不足。[21][32][34]

真正的模型选型不应停在榜单。把这张表当作初筛之后,下一步应在自己的 repo、编程语言、测试环境、工具链、成本预算、延迟要求和失败恢复机制下重测。这样得到的结果,通常比一个“四模型总排名”更接近真实生产表现。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • 最适合直接比较的是 OpenAI 同一张 GPT 5.5 评测表:Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,高于 GPT 5.5 的 58.6%;但 GPT 5.5 在 Terminal Bench 2.0 为 82.7%,高于 Claude 的 69.4%。[21]
  • Kimi K2.6 可进入开放模型候选名单:Hugging Face 将其描述为 open source、native multimodal agentic model;第三方文章列出 SWE Bench Pro 58.6%、SWE Bench Verified 80.2%,但不宜和官方同表数据硬排总榜。[32][34]
  • GPT 5.5 的 Expert SWE 73.1% 属于 internal eval,且 OpenAI 提示其他实验室在该评测上看到 memorization evidence;DeepSeek V4 在本文来源中缺少可引用基准数据。[21]

人们还问

“GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基准测试与证据等级”的简短答案是什么?

最适合直接比较的是 OpenAI 同一张 GPT 5.5 评测表:Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,高于 GPT 5.5 的 58.6%;但 GPT 5.5 在 Terminal Bench 2.0 为 82.7%,高于 Claude 的 69.4%。[21]

首先要验证的关键点是什么?

最适合直接比较的是 OpenAI 同一张 GPT 5.5 评测表:Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,高于 GPT 5.5 的 58.6%;但 GPT 5.5 在 Terminal Bench 2.0 为 82.7%,高于 Claude 的 69.4%。[21] Kimi K2.6 可进入开放模型候选名单:Hugging Face 将其描述为 open source、native multimodal agentic model;第三方文章列出 SWE Bench Pro 58.6%、SWE Bench Verified 80.2%,但不宜和官方同表数据硬排总榜。[32][34]

接下来在实践中我应该做什么?

GPT 5.5 的 Expert SWE 73.1% 属于 internal eval,且 OpenAI 提示其他实验室在该评测上看到 memorization evidence;DeepSeek V4 在本文来源中缺少可引用基准数据。[21]

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試,並為我以比較表形式展示。

Studio Global AI40 来源

引用的答案

先給你可用結論:在本次可核實資料裡,GPT-5.5 與 Claude Opus 4.7 的 benchmark 最完整,且在 OpenAI 同一張對照表上,Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 高於 GPT-5.5 的 58.6%,但 GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 高於 Claude Opus 4.7 的 69.4%。[14] Kimi K2.6 目前只看到第三方摘要數值,DeepSeek V4 則缺乏足夠可核實 benchmark,因此我把「分數」與「證據等級」一起標在表裡。[4]

Key findings

模型SWE-Bench ProSWE-Bench VerifiedTerminal-Bench 2.0其他可見 benchmark證據等級 / 備註
GPT-5.558.6% [14]82.7% [14]Expert-SWE(Internal)73.1% [14]OpenAI 官方資料;OpenAI 也註記 Expert-SWE 有 memorization 風險提示,需保守解讀。[14]
Claude Opus 4.764.3% [14]87.6% [10]69.4% [14]CursorBench 70% [10]SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要,不是獨立 leaderboard。[10]
Kimi K2.658.6% [4]80.2% [4]目前僅見第三方摘要,未在本次證據集中交叉核實到官方完整 benchmark 頁面。[4]
DeepSeek V4Insufficient evidenceInsufficient evidenceInsufficient evidence本次檢索未取得足夠可核實 benchmark,暫不做數值比較。
  • 如果只看目前可同口徑對照的共享 benchmark,Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5,而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。[14]
  • GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval,且 OpenAI 自己提醒有 memorization caveat,因此不宜單獨把它當作總體排名依據。[14]
  • Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強,但本次可用資料中,這個數值來自第三方摘要的 vendor/partner-eval 描述,可信度仍低於同張官方對照表裡的共享 benchmark。[10][14]
  • Kimi K2.6 依目前可見摘要,在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%,且 SWE-Bench Verified 為 80.2%,但因缺乏同等級官方交叉驗證,我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。[4][14]

Evidence notes

  • OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績,所以這兩欄是本次最乾淨的 apples-to-apples 子集。[14]
  • Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench,在本次資料中來自第三方摘要,且摘要本身把它描述為 Anthropic-conducted / partner eval。[10]
  • Kimi K2.6 的數值來自本次檢索到的第三方結果摘要,而不是我已核實的官方 benchmark 表。[4]

Limitations / uncertainty

  • 四個模型沒有在完全一致的 benchmark 集上都公布足夠數字,因此如果你要的是「四家嚴格總排名」,目前證據不足。[14][10][4]
  • 目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制,獨立重跑結果可能不同。[14][10]
  • DeepSeek V4:Insufficient evidence.

Summary

目前最穩妥的比較方式,是只拿共享 benchmark 來看:Claude Opus 4.7 在 SWE-Bench Pro 領先,GPT-5.5 在 Terminal-Bench 2.0 領先。[14] Kimi K2.6 看起來在 SWE-Bench 系列有競爭力,但證據等級較低。[4] DeepSeek V4 目前無法公平放入同一張排名表,因為可核實資料不足。

如果你要,我下一步可以幫你做兩個延伸版本:

  1. 只保留「官方來源」的極保守比較表。
  2. 擴充到 Artificial Analysis、Vals AI 等第三方榜單,做一版「更完整但混合來源」的比較表。

来源

  • [4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com

    Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...

  • [6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai

    Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...

  • [21] Introducing GPT-5.5openai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...

  • [32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago

  • [34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai

    It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago