答案已发布2026年4月28日Last edited 2026年5月6日6 来源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：谁赢了哪些基准？

没有一个被充分证明的总冠军：GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%；Claude Opus 4.7 在第三方编码数据中更强 [24][4]。如果重点是修复 GitHub issue、代码代理和 CursorBench，现有引用数据更偏向 Claude Opus 4.7；如果是终端工作流、工具编排和 computer use，GPT 5.5 的证据更扎实 [4][24]。

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

18K0

Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5 — DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI 提示
Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo
openai.com

先说结论：这四个模型不能只看一张排行榜。更稳妥的做法，是先区分官方数据和第三方整理。GPT-5.5 有 OpenAI 官方给出的 Terminal-Bench 2.0 与 SWE-Bench Pro 成绩；DeepSeek V4 的官方资料主要确认 V4-Pro 与 V4-Flash 已接入 API ^[24]^[25]。至于 Claude Opus 4.7 和 Kimi K2.6，本文引用的直接对比数字主要来自第三方分析，因此要当作参考，而不是最终裁判 ^[4]^[6]。

一句话选型：先看你要解决什么问题

**代码修复、真实 GitHub issue、编码代理：**现有 SWE-Bench、SWE-Bench Verified 和 CursorBench 数据更偏向 Claude Opus 4.7 ^[4]。
**终端代理、Shell 工作流、工具调用编排：**GPT-5.5 的公开证据最完整，OpenAI 官方称其在 Terminal-Bench 2.0 上达到 82.7% ^[24]。
**预算敏感的大量代码代理任务：**Kimi K2.6 值得测试。CodeRouter 称其为成本/质量优胜候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元 ^[6]。
**DeepSeek V4：**DeepSeek 官方确认 V4-Pro 与 V4-Flash 可通过 API 使用，但在本文所用资料中，还没有一张官方的四方基准对照表能证明它相对 Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 的具体胜负 ^[25]。

这些数据到底说明了什么

OpenAI 将 Terminal-Bench 2.0 描述为测试复杂命令行工作流的基准，重点包括规划、迭代和工具协调；GPT-5.5 在该基准上达到 82.7% ^[24]。在 SWE-Bench Pro 上，OpenAI 称 GPT-5.5 达到 58.6%；该基准关注真实 GitHub issue 的解决能力 ^[24]。

DeepSeek 的官方变更日志则说明，V4-Pro 和 V4-Flash 已可通过 OpenAI ChatCompletions 接口与 Anthropic 接口使用；模型参数分别是 deepseek-v4-pro 和 deepseek-v4-flash ^[25]。这证明了可用性，但不等于证明它在某个基准上领先。

Claude Opus 4.7 与 Kimi K2.6 的直接对比要更谨慎：LushBinary 给出了 Claude 与 GPT-5.5 的多项对照数值，CodeRouter 则给出了 Kimi K2.6、DeepSeek V4 的价格与定位信息 ^[4]^[6]。

可比数据表：哪些有数字，哪些还没有

下表中的“暂无可比数据”表示：在本文使用的资料中，没有找到足够可靠、可直接横向比较的该模型成绩。

基准 / 指标	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	暂无可比数据	CodeRouter 称与 GPT-5.5 同级 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	暂无可比数据	暂无可比数据	87.6% ^[4]	约 85% ^[4]
Terminal-Bench 2.0	暂无可比数据	暂无可比数据	约 72% ^[4]	82.7% ^[24]
GDPval / 知识工作	暂无可比数据	暂无可比数据	约 78% ^[4]	84.9% ^[4]
OSWorld-Verified / 计算机使用	暂无可比数据	暂无可比数据	约 65% ^[4]	78.7% ^[4]
GPQA Diamond	暂无可比数据	暂无可比数据	94.2% ^[4]	约 93% ^[4]
CursorBench	暂无可比数据	暂无可比数据	70% ^[4]	约 65% ^[4]
Tau2-bench Telecom	暂无可比数据	暂无可比数据	约 90% ^[4]	98.0% ^[4]
Vision & Document Arena	暂无可比数据	暂无可比数据	Arena 报告称排名第 1 ^[1]	暂无可比数据
价格 / 上下文提示	V4 Flash：每百万 token 输入 0.14 美元、输出 0.28 美元，1M 上下文 ^[6]	每百万 token 输入 0.60 美元、输出 4.00 美元 ^[6]	暂无可比数据	暂无可比数据

编码能力：Claude Opus 4.7 更像当前强项，Kimi K2.6 是性价比变量

如果你的核心任务是改代码、修 bug、处理真实仓库里的 issue，现有引用数据最支持 Claude Opus 4.7。LushBinary 给出的 SWE-Bench Pro 数据中，Claude Opus 4.7 为 64.3%，高于 GPT-5.5 的 58.6%；其中 GPT-5.5 的 58.6% 也由 OpenAI 官方发布确认 ^[4]^[24]。在 SWE-Bench Verified 和 CursorBench 上，LushBinary 同样把 Claude Opus 4.7 列在 GPT-5.5 前面 ^[4]。

Kimi K2.6 的吸引力不完全来自“绝对第一”，而是来自成本结构。CodeRouter 称 Kimi K2.6 在 SWE-Bench Pro 上达到 GPT-5.5 水平，同时 token 价格更低 ^[6]。这对需要大量 agent run、反复生成草稿、频繁重试的团队很关键：单位任务的成功率固然重要，但“每个可接受结果的总成本”也同样重要。

至于 DeepSeek V4，本文所用的官方 DeepSeek 资料只能确认 V4-Pro 与 V4-Flash 已可通过 API 使用，不能据此推出它在编码基准上的具体成绩 ^[25]。

终端代理与 computer-use：GPT-5.5 的公开证据最硬

如果你的任务不是单次问答，而是让模型在终端里规划步骤、执行命令、读取结果、再继续调整，GPT-5.5 是目前证据最清楚的起点。OpenAI 称 GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%，并说明该基准考察复杂命令行工作流中的规划、迭代和工具协调 ^[24]。作为对照，LushBinary 将 Claude Opus 4.7 在同一基准上的成绩列为约 72% ^[4]。

同一第三方资料还显示，在知识工作和计算机使用相关指标上，GPT-5.5 也更靠前：GDPval 为 84.9%，Claude Opus 4.7 约 78%；OSWorld-Verified 为 78.7%，Claude Opus 4.7 约 65% ^[4]。因此，涉及 Shell 命令、工具链编排、接近 GUI 操作的任务时，GPT-5.5 更适合作为第一轮评测对象。

视觉与文档：Claude Opus 4.7 有最明确的正面信号

视觉和文档处理方面，本文所用资料没有完整的四方对照表。最明确的信号来自 Claude Opus 4.7：Latent Space/AINews 引用的 Arena 报告称，Claude Opus 4.7 在 Vision & Document Arena 中排名第 1 ^[1]。

LLM Stats 还报道称，Claude Opus 4.7 可处理长边最高 2,576 像素、约 3.75 百万像素的图像；同一来源称 GPT-5.5 支持图像输入，并给出 MMMU-Pro 无工具 81.2%、使用工具 83.2% 的数据 ^[5]。这些信息有助于判断 Claude 与 GPT-5.5 的视觉能力差异，但仍不能替代 Kimi K2.6、DeepSeek V4 一起参与的同条件四方评测。

价格与吞吐：Kimi K2.6、DeepSeek V4 Flash 都值得纳入自测

价格层面，Kimi K2.6 的公开叙事最清晰。CodeRouter 将它描述为成本/质量优胜候选，并列出每百万 token 输入 0.60 美元、输出 4.00 美元的价格 ^[6]。

DeepSeek V4 Flash 则被同一来源列为更低价的 workhorse 选项：每百万 token 输入 0.14 美元、输出 0.28 美元，并支持 1M 上下文 ^[6]。DeepSeek 官方文档也确认，V4-Pro 和 V4-Flash 已可通过当前 API 接口使用 ^[25]。

但要注意，便宜不等于基准领先。便宜模型适合扩大尝试次数、承担低风险任务、做批量草稿；真正上线时，还要看它能否稳定给出正确结果，以及是否会带来额外人工返工成本。

如何公平测试这四个模型

如果是生产决策，不建议只凭公开榜单拍板。更好的方法是从自己的业务里抽取一小组真实任务：例如仓库中的 bug 修复、内部文档问答、命令行自动化流程、表格或图像解析任务。然后同时记录：一次通过率、每个可接受结果的成本、重试次数、错误严重程度、运行时间和人工校验成本。

还要把数据来源分层看待。GPT-5.5 在本文中有 OpenAI 官方的 Terminal-Bench 2.0 与 SWE-Bench Pro 数据 ^[24]。DeepSeek V4 有官方 API 可用性说明 ^[25]。Claude Opus 4.7 和 Kimi K2.6 的关键横向比较，则主要来自第三方资料 ^[4]^[6]。这三类证据的权重不应相同。

结论：没有万能冠军，只有更适合的起点

现有资料无法证明 DeepSeek V4、Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 中有一个“通吃所有场景”的冠军。更合理的判断是：Claude Opus 4.7 在引用的编码相关数据中更强；GPT-5.5 在终端代理和 computer-use 类基准上证据最充分；Kimi K2.6 的看点是价格与质量之间的平衡；DeepSeek V4 则是一个已经可通过 API 调用、但仍需要用真实任务进一步评估的候选 ^[4]^[24]^[6]^[25]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

没有一个被充分证明的总冠军：GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%；Claude Opus 4.7 在第三方编码数据中更强 [24][4]。
如果重点是修复 GitHub issue、代码代理和 CursorBench，现有引用数据更偏向 Claude Opus 4.7；如果是终端工作流、工具编排和 computer use，GPT 5.5 的证据更扎实 [4][24]。
Kimi K2.6 被 CodeRouter 描述为成本/质量候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元；DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

人们还问

“DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：谁赢了哪些基准？”的简短答案是什么？

没有一个被充分证明的总冠军：GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%；Claude Opus 4.7 在第三方编码数据中更强 [24][4]。

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

Kimi K2.6 被 CodeRouter 描述为成本/质量候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元；DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

接下来我应该探索哪个相关主题？

继续“Claude Security 公测版详解：Anthropic 的 AI 代码漏洞扫描工具”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“Grok 4.3 API 解读：1M 上下文、低 token 价与语音平台野心”交叉检查此答案。

打开相关页面

继续你的研究

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 公测版详解：Anthropic 的 AI 代码漏洞扫描工具

Claude Security 公测版详解：Anthropic 如何用 AI 扫描企业代码漏洞

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 解读：1M 上下文、低 token 价与语音平台野心

小米 Q5 更可能不是 MIX 5：最新线索指向小米 18 系列

小米 Q5 是 MIX 5 吗？最新爆料更指向小米 18 系列

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta用AI查年龄：Instagram和Facebook青少年账号将怎么变

Meta用AI核验年龄：Instagram和Facebook青少年保护升级

研究对话

你2026年4月25日

研究问题

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026年4月25日26 来源

引用的答案

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen ^[4]^[6].

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

来源

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

热门发现

答案已发布2026年4月28日Last edited 2026年5月6日6 来源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：谁赢了哪些基准？

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

18K0

一句话选型：先看你要解决什么问题

**代码修复、真实 GitHub issue、编码代理：**现有 SWE-Bench、SWE-Bench Verified 和 CursorBench 数据更偏向 Claude Opus 4.7 ^[4]。
**终端代理、Shell 工作流、工具调用编排：**GPT-5.5 的公开证据最完整，OpenAI 官方称其在 Terminal-Bench 2.0 上达到 82.7% ^[24]。
**预算敏感的大量代码代理任务：**Kimi K2.6 值得测试。CodeRouter 称其为成本/质量优胜候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元 ^[6]。
**DeepSeek V4：**DeepSeek 官方确认 V4-Pro 与 V4-Flash 可通过 API 使用，但在本文所用资料中，还没有一张官方的四方基准对照表能证明它相对 Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 的具体胜负 ^[25]。

这些数据到底说明了什么

可比数据表：哪些有数字，哪些还没有

下表中的“暂无可比数据”表示：在本文使用的资料中，没有找到足够可靠、可直接横向比较的该模型成绩。

基准 / 指标	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	暂无可比数据	CodeRouter 称与 GPT-5.5 同级 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	暂无可比数据	暂无可比数据	87.6% ^[4]	约 85% ^[4]
Terminal-Bench 2.0	暂无可比数据	暂无可比数据	约 72% ^[4]	82.7% ^[24]
GDPval / 知识工作	暂无可比数据	暂无可比数据	约 78% ^[4]	84.9% ^[4]
OSWorld-Verified / 计算机使用	暂无可比数据	暂无可比数据	约 65% ^[4]	78.7% ^[4]
GPQA Diamond	暂无可比数据	暂无可比数据	94.2% ^[4]	约 93% ^[4]
CursorBench	暂无可比数据	暂无可比数据	70% ^[4]	约 65% ^[4]
Tau2-bench Telecom	暂无可比数据	暂无可比数据	约 90% ^[4]	98.0% ^[4]
Vision & Document Arena	暂无可比数据	暂无可比数据	Arena 报告称排名第 1 ^[1]	暂无可比数据
价格 / 上下文提示	V4 Flash：每百万 token 输入 0.14 美元、输出 0.28 美元，1M 上下文 ^[6]	每百万 token 输入 0.60 美元、输出 4.00 美元 ^[6]	暂无可比数据	暂无可比数据

编码能力：Claude Opus 4.7 更像当前强项，Kimi K2.6 是性价比变量

至于 DeepSeek V4，本文所用的官方 DeepSeek 资料只能确认 V4-Pro 与 V4-Flash 已可通过 API 使用，不能据此推出它在编码基准上的具体成绩 ^[25]。

终端代理与 computer-use：GPT-5.5 的公开证据最硬

视觉与文档：Claude Opus 4.7 有最明确的正面信号

价格与吞吐：Kimi K2.6、DeepSeek V4 Flash 都值得纳入自测

价格层面，Kimi K2.6 的公开叙事最清晰。CodeRouter 将它描述为成本/质量优胜候选，并列出每百万 token 输入 0.60 美元、输出 4.00 美元的价格 ^[6]。

如何公平测试这四个模型

结论：没有万能冠军，只有更适合的起点

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

没有一个被充分证明的总冠军：GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%；Claude Opus 4.7 在第三方编码数据中更强 [24][4]。
如果重点是修复 GitHub issue、代码代理和 CursorBench，现有引用数据更偏向 Claude Opus 4.7；如果是终端工作流、工具编排和 computer use，GPT 5.5 的证据更扎实 [4][24]。
Kimi K2.6 被 CodeRouter 描述为成本/质量候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元；DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

人们还问

“DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：谁赢了哪些基准？”的简短答案是什么？

没有一个被充分证明的总冠军：GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%；Claude Opus 4.7 在第三方编码数据中更强 [24][4]。

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

Kimi K2.6 被 CodeRouter 描述为成本/质量候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元；DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

接下来我应该探索哪个相关主题？

继续“Claude Security 公测版详解：Anthropic 的 AI 代码漏洞扫描工具”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“Grok 4.3 API 解读：1M 上下文、低 token 价与语音平台野心”交叉检查此答案。

打开相关页面

继续你的研究

Claude Security 公测版详解：Anthropic 的 AI 代码漏洞扫描工具

Claude Security 公测版详解：Anthropic 如何用 AI 扫描企业代码漏洞

Grok 4.3 API 解读：1M 上下文、低 token 价与语音平台野心

小米 Q5 更可能不是 MIX 5：最新线索指向小米 18 系列

小米 Q5 是 MIX 5 吗？最新爆料更指向小米 18 系列

Meta用AI查年龄：Instagram和Facebook青少年账号将怎么变

Meta用AI核验年龄：Instagram和Facebook青少年保护升级

研究对话

你2026年4月25日

研究问题

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026年4月25日26 来源

引用的答案

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

来源

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

热门发现

答案已发布2026年4月28日Last edited 2026年5月6日6 来源

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：谁赢了哪些基准？

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

18K0

一句话选型：先看你要解决什么问题

**代码修复、真实 GitHub issue、编码代理：**现有 SWE-Bench、SWE-Bench Verified 和 CursorBench 数据更偏向 Claude Opus 4.7 ^[4]。
**终端代理、Shell 工作流、工具调用编排：**GPT-5.5 的公开证据最完整，OpenAI 官方称其在 Terminal-Bench 2.0 上达到 82.7% ^[24]。
**预算敏感的大量代码代理任务：**Kimi K2.6 值得测试。CodeRouter 称其为成本/质量优胜候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元 ^[6]。
**DeepSeek V4：**DeepSeek 官方确认 V4-Pro 与 V4-Flash 可通过 API 使用，但在本文所用资料中，还没有一张官方的四方基准对照表能证明它相对 Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 的具体胜负 ^[25]。

这些数据到底说明了什么

可比数据表：哪些有数字，哪些还没有

下表中的“暂无可比数据”表示：在本文使用的资料中，没有找到足够可靠、可直接横向比较的该模型成绩。

基准 / 指标	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	暂无可比数据	CodeRouter 称与 GPT-5.5 同级 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	暂无可比数据	暂无可比数据	87.6% ^[4]	约 85% ^[4]
Terminal-Bench 2.0	暂无可比数据	暂无可比数据	约 72% ^[4]	82.7% ^[24]
GDPval / 知识工作	暂无可比数据	暂无可比数据	约 78% ^[4]	84.9% ^[4]
OSWorld-Verified / 计算机使用	暂无可比数据	暂无可比数据	约 65% ^[4]	78.7% ^[4]
GPQA Diamond	暂无可比数据	暂无可比数据	94.2% ^[4]	约 93% ^[4]
CursorBench	暂无可比数据	暂无可比数据	70% ^[4]	约 65% ^[4]
Tau2-bench Telecom	暂无可比数据	暂无可比数据	约 90% ^[4]	98.0% ^[4]
Vision & Document Arena	暂无可比数据	暂无可比数据	Arena 报告称排名第 1 ^[1]	暂无可比数据
价格 / 上下文提示	V4 Flash：每百万 token 输入 0.14 美元、输出 0.28 美元，1M 上下文 ^[6]	每百万 token 输入 0.60 美元、输出 4.00 美元 ^[6]	暂无可比数据	暂无可比数据

编码能力：Claude Opus 4.7 更像当前强项，Kimi K2.6 是性价比变量

至于 DeepSeek V4，本文所用的官方 DeepSeek 资料只能确认 V4-Pro 与 V4-Flash 已可通过 API 使用，不能据此推出它在编码基准上的具体成绩 ^[25]。

终端代理与 computer-use：GPT-5.5 的公开证据最硬

视觉与文档：Claude Opus 4.7 有最明确的正面信号

价格与吞吐：Kimi K2.6、DeepSeek V4 Flash 都值得纳入自测

价格层面，Kimi K2.6 的公开叙事最清晰。CodeRouter 将它描述为成本/质量优胜候选，并列出每百万 token 输入 0.60 美元、输出 4.00 美元的价格 ^[6]。

如何公平测试这四个模型

结论：没有万能冠军，只有更适合的起点

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

没有一个被充分证明的总冠军：GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%；Claude Opus 4.7 在第三方编码数据中更强 [24][4]。
如果重点是修复 GitHub issue、代码代理和 CursorBench，现有引用数据更偏向 Claude Opus 4.7；如果是终端工作流、工具编排和 computer use，GPT 5.5 的证据更扎实 [4][24]。
Kimi K2.6 被 CodeRouter 描述为成本/质量候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元；DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

人们还问

“DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5：谁赢了哪些基准？”的简短答案是什么？

没有一个被充分证明的总冠军：GPT 5.5 有 OpenAI 官方公布的 Terminal Bench 2.0 82.7% 和 SWE Bench Pro 58.6%；Claude Opus 4.7 在第三方编码数据中更强 [24][4]。

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

Kimi K2.6 被 CodeRouter 描述为成本/质量候选，价格为每百万 token 输入 0.60 美元、输出 4.00 美元；DeepSeek V4 Pro 和 V4 Flash 已在 DeepSeek API 中可用 [6][25]。

接下来我应该探索哪个相关主题？

继续“Claude Security 公测版详解：Anthropic 的 AI 代码漏洞扫描工具”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“Grok 4.3 API 解读：1M 上下文、低 token 价与语音平台野心”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

你2026年4月25日

研究问题

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026年4月25日26 来源

引用的答案

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

来源

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...