studioglobal
热门发现
答案已发布6 来源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5:谁赢了哪些基准?

没有一个被充分证明的总冠军:GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%;Claude Opus 4.7 在第三方编码数据中更强 [24][4]。 如果重点是修复 GitHub issue、代码代理和 CursorBench,现有引用数据更偏向 Claude Opus 4.7;如果是终端工作流、工具编排和 computer use,GPT 5.5 的证据更扎实 [4][24]。

18K0
Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5
DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI 提示

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo

openai.com

先说结论:这四个模型不能只看一张排行榜。更稳妥的做法,是先区分官方数据第三方整理。GPT-5.5 有 OpenAI 官方给出的 Terminal-Bench 2.0 与 SWE-Bench Pro 成绩;DeepSeek V4 的官方资料主要确认 V4-Pro 与 V4-Flash 已接入 API [24][25]。至于 Claude Opus 4.7 和 Kimi K2.6,本文引用的直接对比数字主要来自第三方分析,因此要当作参考,而不是最终裁判 [4][6]

一句话选型:先看你要解决什么问题

  • **代码修复、真实 GitHub issue、编码代理:**现有 SWE-Bench、SWE-Bench Verified 和 CursorBench 数据更偏向 Claude Opus 4.7 [4]
  • **终端代理、Shell 工作流、工具调用编排:**GPT-5.5 的公开证据最完整,OpenAI 官方称其在 Terminal-Bench 2.0 上达到 82.7% [24]
  • **预算敏感的大量代码代理任务:**Kimi K2.6 值得测试。CodeRouter 称其为成本/质量优胜候选,价格为每百万 token 输入 0.60 美元、输出 4.00 美元 [6]
  • **DeepSeek V4:**DeepSeek 官方确认 V4-Pro 与 V4-Flash 可通过 API 使用,但在本文所用资料中,还没有一张官方的四方基准对照表能证明它相对 Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 的具体胜负 [25]

这些数据到底说明了什么

OpenAI 将 Terminal-Bench 2.0 描述为测试复杂命令行工作流的基准,重点包括规划、迭代和工具协调;GPT-5.5 在该基准上达到 82.7% [24]。在 SWE-Bench Pro 上,OpenAI 称 GPT-5.5 达到 58.6%;该基准关注真实 GitHub issue 的解决能力 [24]

DeepSeek 的官方变更日志则说明,V4-ProV4-Flash 已可通过 OpenAI ChatCompletions 接口与 Anthropic 接口使用;模型参数分别是 deepseek-v4-prodeepseek-v4-flash [25]。这证明了可用性,但不等于证明它在某个基准上领先。

Claude Opus 4.7 与 Kimi K2.6 的直接对比要更谨慎:LushBinary 给出了 Claude 与 GPT-5.5 的多项对照数值,CodeRouter 则给出了 Kimi K2.6、DeepSeek V4 的价格与定位信息 [4][6]

可比数据表:哪些有数字,哪些还没有

下表中的“暂无可比数据”表示:在本文使用的资料中,没有找到足够可靠、可直接横向比较的该模型成绩。

基准 / 指标DeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-Bench Pro暂无可比数据CodeRouter 称与 GPT-5.5 同级 [6]64.3% [4]58.6% [24]
SWE-Bench Verified暂无可比数据暂无可比数据87.6% [4]约 85% [4]
Terminal-Bench 2.0暂无可比数据暂无可比数据约 72% [4]82.7% [24]
GDPval / 知识工作暂无可比数据暂无可比数据约 78% [4]84.9% [4]
OSWorld-Verified / 计算机使用暂无可比数据暂无可比数据约 65% [4]78.7% [4]
GPQA Diamond暂无可比数据暂无可比数据94.2% [4]约 93% [4]
CursorBench暂无可比数据暂无可比数据70% [4]约 65% [4]
Tau2-bench Telecom暂无可比数据暂无可比数据约 90% [4]98.0% [4]
Vision & Document Arena暂无可比数据暂无可比数据Arena 报告称排名第 1 [1]暂无可比数据
价格 / 上下文提示V4 Flash:每百万 token 输入 0.14 美元、输出 0.28 美元,1M 上下文 [6]每百万 token 输入 0.60 美元、输出 4.00 美元 [6]暂无可比数据暂无可比数据

编码能力:Claude Opus 4.7 更像当前强项,Kimi K2.6 是性价比变量

如果你的核心任务是改代码、修 bug、处理真实仓库里的 issue,现有引用数据最支持 Claude Opus 4.7。LushBinary 给出的 SWE-Bench Pro 数据中,Claude Opus 4.7 为 64.3%,高于 GPT-5.5 的 58.6%;其中 GPT-5.5 的 58.6% 也由 OpenAI 官方发布确认 [4][24]。在 SWE-Bench Verified 和 CursorBench 上,LushBinary 同样把 Claude Opus 4.7 列在 GPT-5.5 前面 [4]

Kimi K2.6 的吸引力不完全来自“绝对第一”,而是来自成本结构。CodeRouter 称 Kimi K2.6 在 SWE-Bench Pro 上达到 GPT-5.5 水平,同时 token 价格更低 [6]。这对需要大量 agent run、反复生成草稿、频繁重试的团队很关键:单位任务的成功率固然重要,但“每个可接受结果的总成本”也同样重要。

至于 DeepSeek V4,本文所用的官方 DeepSeek 资料只能确认 V4-Pro 与 V4-Flash 已可通过 API 使用,不能据此推出它在编码基准上的具体成绩 [25]

终端代理与 computer-use:GPT-5.5 的公开证据最硬

如果你的任务不是单次问答,而是让模型在终端里规划步骤、执行命令、读取结果、再继续调整,GPT-5.5 是目前证据最清楚的起点。OpenAI 称 GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%,并说明该基准考察复杂命令行工作流中的规划、迭代和工具协调 [24]。作为对照,LushBinary 将 Claude Opus 4.7 在同一基准上的成绩列为约 72% [4]

同一第三方资料还显示,在知识工作和计算机使用相关指标上,GPT-5.5 也更靠前:GDPval 为 84.9%,Claude Opus 4.7 约 78%;OSWorld-Verified 为 78.7%,Claude Opus 4.7 约 65% [4]。因此,涉及 Shell 命令、工具链编排、接近 GUI 操作的任务时,GPT-5.5 更适合作为第一轮评测对象。

视觉与文档:Claude Opus 4.7 有最明确的正面信号

视觉和文档处理方面,本文所用资料没有完整的四方对照表。最明确的信号来自 Claude Opus 4.7:Latent Space/AINews 引用的 Arena 报告称,Claude Opus 4.7 在 Vision & Document Arena 中排名第 1 [1]

LLM Stats 还报道称,Claude Opus 4.7 可处理长边最高 2,576 像素、约 3.75 百万像素的图像;同一来源称 GPT-5.5 支持图像输入,并给出 MMMU-Pro 无工具 81.2%、使用工具 83.2% 的数据 [5]。这些信息有助于判断 Claude 与 GPT-5.5 的视觉能力差异,但仍不能替代 Kimi K2.6、DeepSeek V4 一起参与的同条件四方评测。

价格与吞吐:Kimi K2.6、DeepSeek V4 Flash 都值得纳入自测

价格层面,Kimi K2.6 的公开叙事最清晰。CodeRouter 将它描述为成本/质量优胜候选,并列出每百万 token 输入 0.60 美元、输出 4.00 美元的价格 [6]

DeepSeek V4 Flash 则被同一来源列为更低价的 workhorse 选项:每百万 token 输入 0.14 美元、输出 0.28 美元,并支持 1M 上下文 [6]。DeepSeek 官方文档也确认,V4-Pro 和 V4-Flash 已可通过当前 API 接口使用 [25]

但要注意,便宜不等于基准领先。便宜模型适合扩大尝试次数、承担低风险任务、做批量草稿;真正上线时,还要看它能否稳定给出正确结果,以及是否会带来额外人工返工成本。

如何公平测试这四个模型

如果是生产决策,不建议只凭公开榜单拍板。更好的方法是从自己的业务里抽取一小组真实任务:例如仓库中的 bug 修复、内部文档问答、命令行自动化流程、表格或图像解析任务。然后同时记录:一次通过率、每个可接受结果的成本、重试次数、错误严重程度、运行时间和人工校验成本。

还要把数据来源分层看待。GPT-5.5 在本文中有 OpenAI 官方的 Terminal-Bench 2.0 与 SWE-Bench Pro 数据 [24]。DeepSeek V4 有官方 API 可用性说明 [25]。Claude Opus 4.7 和 Kimi K2.6 的关键横向比较,则主要来自第三方资料 [4][6]。这三类证据的权重不应相同。

结论:没有万能冠军,只有更适合的起点

现有资料无法证明 DeepSeek V4、Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 中有一个“通吃所有场景”的冠军。更合理的判断是:Claude Opus 4.7 在引用的编码相关数据中更强;GPT-5.5 在终端代理和 computer-use 类基准上证据最充分;Kimi K2.6 的看点是价格与质量之间的平衡;DeepSeek V4 则是一个已经可通过 API 调用、但仍需要用真实任务进一步评估的候选 [4][24][6][25]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • 没有一个被充分证明的总冠军:GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%;Claude Opus 4.7 在第三方编码数据中更强 [24][4]。
  • 如果重点是修复 GitHub issue、代码代理和 CursorBench,现有引用数据更偏向 Claude Opus 4.7;如果是终端工作流、工具编排和 computer use,GPT 5.5 的证据更扎实 [4][24]。
  • Kimi K2.6 被 CodeRouter 描述为成本/质量候选,价格为每百万 token 输入 0.60 美元、输出 4.00 美元;DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

人们还问

“DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5:谁赢了哪些基准?”的简短答案是什么?

没有一个被充分证明的总冠军:GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%;Claude Opus 4.7 在第三方编码数据中更强 [24][4]。

首先要验证的关键点是什么?

没有一个被充分证明的总冠军:GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%;Claude Opus 4.7 在第三方编码数据中更强 [24][4]。 如果重点是修复 GitHub issue、代码代理和 CursorBench,现有引用数据更偏向 Claude Opus 4.7;如果是终端工作流、工具编排和 computer use,GPT 5.5 的证据更扎实 [4][24]。

接下来在实践中我应该做什么?

Kimi K2.6 被 CodeRouter 描述为成本/质量候选,价格为每百万 token 输入 0.60 美元、输出 4.00 美元;DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

接下来我应该探索哪个相关主题?

继续“Claude Security 公测版详解:Anthropic 的 AI 代码漏洞扫描工具”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“Grok 4.3 API 解读:1M 上下文、低 token 价与语音平台野心”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI26 来源

引用的答案

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen [4][6].

Benchmark / KriteriumDeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-bench ProInsufficient evidencelaut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil [6]64.3% [4]58.6% [4]
SWE-bench VerifiedInsufficient evidenceInsufficient evidence87.6% [4]ca. 85% [4]
Terminal-Bench 2.0Insufficient evidenceInsufficient evidenceca. 72% [4]82.7% [4]
GDPval / Knowledge WorkInsufficient evidenceInsufficient evidenceca. 78% [4]84.9% [4]
OSWorld-Verified / Computer UseInsufficient evidenceInsufficient evidenceca. 65% [4]78.7% [4]
Vision / Document ArenaInsufficient evidenceInsufficient evidencelaut Arena-Bericht Platz 1 in Vision & Document Arena [1]Insufficient evidence
Preis-LeistungInsufficient evidenceals starker Kosten-/Qualitäts-Kandidat beschrieben [6]teuer/stark, aber nicht als Kostenführer beschrieben [6]stark, aber nicht Kostenführer laut Vergleich [6]
  • Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 [4].

  • Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 [4].

  • Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben [1].

  • Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen [6][8].

  • DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich [6].

  • Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen [4][6].

来源

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space

    Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...

  • [4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com

    Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...

  • [6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io

    TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [25] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...