studioglobal
热门发现
报告已发布13 来源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4-Pro:基准测试怎么读、怎么选

现有公开数据不支持公平排出单一总冠军:可引用数据中,GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,但后者来自次级整理引用 AWS,且不同来源/工具设置不能混成绝对榜单。[27][4] 视觉、截图、文档理解和 computer use 任务上,Claude Opus 4.7 的官方证据最直接:Anthropic 文档提到 vision heavy 工作流增益和 1:1 像素坐标,发布页引用 XBOW 98.5% 视觉敏锐度结果。[1][5] DeepSeek V4 Pro 的 Hugging Face 模型卡给出 GPQA...

17K0
四款 AI 模型的基準測試比較示意圖,包含 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4
GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較AI 生成示意圖:本文比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4-Pro 在公開基準測試中的表現。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較. Article summary: 目前不能公平選出單一總冠軍;四款模型缺少同一評測 harness、同一工具設定下的完整共同分數。可引用資料中,GPT 5.5 以 82.7% 領先 Terminal Bench 2.0,Claude Opus 4.7 以 64.3% 暫居 SWE Bench Pro 第一,但 Claude 數字來自次級整理引用 AWS。[27][4]. Topic tags: ai, llm, benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different futures for AI" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal thr

openai.com

把 GPT-5.5、Claude Opus 4.7、Kimi K2.6 和 DeepSeek V4-Pro 放进同一张表时,最容易产生误读的是:把来源不同、工具权限不同、推理强度(reasoning effort)不同的分数,当成一个绝对排行榜。现有资料更适合做任务导向选型:命令行/CLI 工作流优先看 GPT-5.5;SWE-Bench 与视觉、computer-use 任务优先看 Claude Opus 4.7;知识与数学、开放模型路线优先把 DeepSeek V4-Pro 放入短名单;Cloudflare Workers AI 上的多模态智能体工作流,则把 Kimi K2.6 放进候选池。[27][4][1][5][64][36]

可引用基准快照:先看任务,不看总榜

下表只整理本次资料中可直接引用的数字。破折号表示没有同一栏位的可引用分数,不代表模型没有这项能力。更关键的是,这些结果并非全部来自同一个官方 harness,所以适合做第一轮筛选,不适合当作绝对 leaderboard。

测试或任务GPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4-Pro选型信号
Terminal-Bench 2.082.7% [27]69.4% [4]66.7 [84]67.9 [64]可引用资料中,GPT-5.5 对命令行工作流最突出。
SWE-Bench Pro58.6% [27]64.3% [4]58.6 [84]55.4 [64]Claude 暂居可引用分数第一,但该数值来自次级整理引用 AWS。
SWE-Bench Verified / Resolved87.6% [4]80.2 [45]80.6 [64]Claude 最高;但缺少 GPT-5.5 同列可比数字,且来源命名不完全一致。
Graphwalks 256k:BFS / parents73.7 / 90.1 [21]76.9 / 93.6 [21]在 OpenAI 长上下文表的 256k 两列中,Claude Opus 4.7 高于 GPT-5.5。
Graphwalks 1M:BFS / parents45.4 / 58.5 [21]OpenAI 表可说明 GPT-5.5 的 1M 长上下文表现;同表 1M 对照栏位标为 Opus 4.6,不宜拿来判断 Opus 4.7。
知识与数学GPQA Diamond 90.1、GSM8K 92.6、MMLU-Pro 87.5、HLE 37.7 [64]DeepSeek V4-Pro 在本次资料中有最完整的公开模型卡数值。
视觉、截图、computer-usevision-heavy workload gains;1:1 pixel coordinates;XBOW 视觉敏锐度 98.5% [1][5]Cloudflare 称其为原生多模态智能体模型,但没有同一视觉 benchmark 分数 [36]Claude Opus 4.7 的视觉与 UI 操作证据最直接。

为什么不能直接排总榜?

**第一,来源层级不一致。**GPT-5.5 的 Terminal-Bench 2.0 与 SWE-Bench Pro 数字来自媒体转述 OpenAI 提供的 benchmark 结果;Claude Opus 4.7 的 SWE-Bench Pro、SWE-Bench Verified 与 Terminal-Bench 2.0 数字来自次级整理引用 AWS;Kimi K2.6 与 DeepSeek V4-Pro 的部分分数则来自 Hugging Face 模型卡。[27][4][84][64]

**第二,工具权限会改变相对结果。**Mashable 报道的 HLE 数字显示,不允许工具时 Claude Opus 4.7 为 46.9%,GPT-5.4 Pro 为 42.7%;允许工具时,GPT-5.4 Pro 为 58.7%,Claude Opus 4.7 为 54.7%。这不是 GPT-5.5 的分数,但足以说明 with tools 与 without tools 不能混在一张榜单里比较。[6]

**第三,版本和成本设置也会影响解读。**DeepSeek V4 分为 V4-Pro 与 V4-Flash,Yahoo Finance 报道称 V4-Flash 是更有效率、经济的版本;本文可引用的详细分数主要对应 DeepSeek-V4-Pro。[57][64] Artificial Analysis 也把 GPT-5.5 拆成不同 effort variants,并称 GPT-5.5 xhigh 跑其 Index 的成本约比前代高 20%、比 Claude Opus 4.7 max 低 30%。[24]

GPT-5.5:命令行工作流和长上下文是主要亮点

GPT-5.5 在这组资料中最清晰的强项是 Terminal-Bench 2.0。Yahoo Finance / Investing.com 报道称,OpenAI 提供的 benchmark 结果显示,GPT-5.5 在用于衡量 command-line workflows 的 Terminal-Bench 2.0 达到 82.7%;同文还列出 GPT-5.5 在评估 GitHub issue resolution 的 SWE-Bench Pro 上为 58.6%。[27]

长上下文方面,OpenAI 的表格显示,GPT-5.5 在 Graphwalks BFS 256k 与 1M 分别为 73.7 与 45.4,在 Graphwalks parents 256k 与 1M 分别为 90.1 与 58.5;同表中 GPT-5.4 在 Graphwalks BFS 1M 为 9.4,GPT-5.5 为 45.4。[21]

第三方评测机构 Artificial Analysis 称 GPT-5.5 是新的 leading AI model,并表示 OpenAI 在其五项 headline evaluations 领先、三项次于 Gemini 3.1 Pro Preview;同文还称 GPT-5.5 xhigh 跑其 Index 时使用的 output tokens 约比前代少 40%。[24]

**适合优先测试的场景:**CLI automation、terminal agents、长上下文检索,以及需要控制输出 token 成本的智能体式编程工作流。[27][21][24]

Claude Opus 4.7:代码修复分数强,视觉与 computer-use 证据更硬

Claude Opus 4.7 的官方资料最明确强调视觉和 UI 操作。Anthropic API 文档称,这项变更应能释放 vision-heavy workloads 的性能增益,尤其对 computer use、screenshot、artifact 与 document understanding workflows 重要;文档还说明,模型坐标可 1:1 对应实际像素,不再需要 scale-factor 计算。[1]

Anthropic 发布页引用 XBOW 的视觉敏锐度 benchmark,称 Claude Opus 4.7 为 98.5%,Opus 4.6 为 54.5%。[5] 因此,在截图理解、文档版面解析、桌面 UI 操作和 computer-use agent 这类任务上,Claude Opus 4.7 拥有比其他三款模型更直接的官方证据。[1][5]

在代码 benchmark 上,一篇整理称 AWS cites Claude Opus 4.7 在 SWE-Bench Pro 为 64.3%、SWE-Bench Verified 为 87.6%、Terminal-Bench 2.0 为 69.4%。[4] 这些数字让 Claude 在本文可引用的 SWE-Bench Pro 与 Verified/Resolved 对照中暂时领先,但来源层级低于直接官方 benchmark 表,正式采用前仍应在自家仓库复测。

还有一个生产环境提醒:Anthropic 文档指出,高分辨率图片会使用更多 tokens;如果不需要额外图像细节,应在传给 Claude 前先降采样,以避免 token usage 增加。[1]

**适合优先测试的场景:**GitHub issue repair、coding agent、截图/文档理解、computer-use agents,以及需要精确像素坐标的 UI 操作任务。[1][4][5]

Kimi K2.6:Workers AI 上的多模态智能体候选

Cloudflare changelog 显示,Moonshot AI Kimi K2.6 已于 2026年4月20日在 Workers AI 上可用,模型 ID 为 @cf/moonshotai/kimi-k2.6,Cloudflare 称这是与 Moonshot AI 合作的 Day 0 support。[36]

同一来源把 Kimi K2.6 描述为原生多模态智能体模型,能力重点包括 long-horizon coding、coding-driven design、proactive autonomous execution 与 swarm-based task orchestration;Cloudflare 还称其采用 Mixture-of-Experts 架构,总参数 1T、每 token active 参数 32B。[36]

公开分数方面,Kimi K2.6 的 Hugging Face 模型卡列出 Terminal-Bench 2.0 为 66.7、SWE-Bench Pro 为 58.6、SWE-Bench Multilingual 为 76.7。[84] MarkTechPost 另报道 Kimi K2.6 在 SWE-Bench Verified 为 80.2。[45]

**适合优先测试的场景:**已经使用 Cloudflare Workers AI、需要 long-horizon coding、coding-driven design、多模态智能体工作流或多 agent orchestration 的团队。[36][84]

DeepSeek V4-Pro:知识与数学分数最完整,开放模型路线清晰

DeepSeek V4 在资料中分为 V4-Pro 与 V4-Flash。Yahoo Finance 报道称,DeepSeek 表示 V4-Pro 在 world knowledge benchmarks 上明显领先其他 open-source models,且只略逊于顶级闭源模型 Gemini-Pro-3.1;同一报道还称 V4-Flash 是更有效率、经济的选择。[57]

DeepSeek-V4-Pro 的 Hugging Face 模型卡提供了本文最完整的一组知识、数学、代码与 terminal 评测数字:GPQA Diamond 90.1、GSM8K 92.6、HLE 37.7、MMLU-Pro 87.5、SWE-Bench Pro 55.4、SWE-Bench Verified/Resolved 80.6、TerminalBench 2.0 67.9。[64]

CNBC 报道称,DeepSeek 表示 V4 已针对 Claude Code 与 OpenClaw 等 agent tools 做优化;Counterpoint 首席 AI 分析师 Wei Sun 认为,V4 的 benchmark profile 显示它可能以显著更低成本提供出色 agent 能力。[58]

**适合优先测试的场景:**重视开放模型路线、知识与数学 benchmark、agent tooling 成本效益,或希望在本地/自管环境中评估可下载模型的团队。[58][64]

按任务选模型:更实用的短名单

  • **Terminal automation / command-line agents:先测 GPT-5.5。**可引用资料中,GPT-5.5 Terminal-Bench 2.0 为 82.7%,高于 Claude Opus 4.7 的 69.4%、DeepSeek V4-Pro 的 67.9 与 Kimi K2.6 的 66.7。[27][4][64][84]
  • **Software engineering repair / SWE-Bench Pro 类任务:先测 Claude Opus 4.7,但一定要跑自家仓库。**可引用分数中,Claude Opus 4.7 为 64.3%,GPT-5.5 与 Kimi K2.6 同为 58.6,DeepSeek V4-Pro 为 55.4;但 Claude 数字来源层级较低。[4][27][84][64]
  • **截图、文档理解、computer-use:Claude Opus 4.7 优先。**Anthropic 文档直接提到 vision-heavy workflows、computer use 与 1:1 pixel coordinates,发布页也引用 XBOW 98.5% 视觉敏锐度结果。[1][5]
  • **知识/math 与开放模型路线:DeepSeek V4-Pro 优先纳入短名单。**它的 Hugging Face 模型卡同时列出 GPQA Diamond、GSM8K、HLE、MMLU-Pro、SWE-Bench 与 TerminalBench 2.0 等分数。[64]
  • **Workers AI 上的多模态智能体工作流:Kimi K2.6 值得测。**Cloudflare 已提供 Kimi K2.6 的 Workers AI Day 0 support,并将其定位为 long-horizon coding 与 swarm-based task orchestration 的原生多模态智能体模型。[36]

上线前,请用同一套条件重跑

要得到能在团队内部站得住脚的结论,应使用同一模型版本或 API model ID、同一上下文长度、同一工具权限、同一 reasoning effort、同一 temperature、同一 token budget 与同一 scoring harness。工具权限尤其不能混用,因为 HLE 报道已经显示 with tools 与 without tools 会改变相对结果。[6]

成本也要和能力一起测。Artificial Analysis 报道称 GPT-5.5 xhigh 跑其 Index 的成本约比前代高 20%、比 Claude Opus 4.7 max 低 30%,且 output tokens 比前代少约 40%;Anthropic 文档则提醒,高分辨率图片会使用更多 tokens。[24][1] 对 production agent 来说,速度、token 使用量、工具调用成功率和错误修复率,往往和单一 benchmark 分数一样重要。

底线

目前最可信的比较方式不是排一个总榜,而是按任务选短名单:Terminal-Bench 看 GPT-5.5,SWE-Bench 与视觉/computer-use 看 Claude Opus 4.7,知识与数学模型卡看 DeepSeek V4-Pro,Workers AI 上的多模态智能体编程则把 Kimi K2.6 放进候选清单。[27][4][1][5][64][36] 等到四款模型在同一 harness、同一工具设置和同一版本条件下都有完整共同分数,再谈真正的总排名。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • 现有公开数据不支持公平排出单一总冠军:可引用数据中,GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,但后者来自次级整理引用 AWS,且不同来源/工具设置不能混成绝对榜单。[27][4]
  • 视觉、截图、文档理解和 computer use 任务上,Claude Opus 4.7 的官方证据最直接:Anthropic 文档提到 vision heavy 工作流增益和 1:1 像素坐标,发布页引用 XBOW 98.5% 视觉敏锐度结果。[1][5]
  • DeepSeek V4 Pro 的 Hugging Face 模型卡给出 GPQA、GSM8K、MMLU Pro、HLE 等较完整知识/数学分数;Kimi K2.6 的突出点则是 Workers AI 可用性和多模态智能体定位。[64][36]

人们还问

“GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4-Pro:基准测试怎么读、怎么选”的简短答案是什么?

现有公开数据不支持公平排出单一总冠军:可引用数据中,GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,但后者来自次级整理引用 AWS,且不同来源/工具设置不能混成绝对榜单。[27][4]

首先要验证的关键点是什么?

现有公开数据不支持公平排出单一总冠军:可引用数据中,GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude Opus 4.7 在 SWE Bench Pro 为 64.3%,但后者来自次级整理引用 AWS,且不同来源/工具设置不能混成绝对榜单。[27][4] 视觉、截图、文档理解和 computer use 任务上,Claude Opus 4.7 的官方证据最直接:Anthropic 文档提到 vision heavy 工作流增益和 1:1 像素坐标,发布页引用 XBOW 98.5% 视觉敏锐度结果。[1][5]

接下来在实践中我应该做什么?

DeepSeek V4 Pro 的 Hugging Face 模型卡给出 GPQA、GSM8K、MMLU Pro、HLE 等较完整知识/数学分数;Kimi K2.6 的突出点则是 Workers AI 可用性和多模态智能体定位。[64][36]

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試表現,並根據這些基準測試對它們進行比較。

Studio Global AI40 来源

引用的答案

僅依據你提供的證據,現在還不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做出嚴格而公平的基準測試總排名,因為這些材料沒有提供同一套 benchmark、同一版本設定下的完整分數,而且完全沒有 GPT-5.5 的 benchmark 資料。較能成立的結論是:Claude Opus 4.7 有最明確的官方證據顯示其在視覺與 computer-use 類工作流上提升明顯,[2] 且有次級報導稱其狹義重回 generally available LLM 的領先位置。[5] DeepSeek V4-Pro 則有公司說法經媒體轉述,稱其在 world knowledge benchmarks 上明顯領先其他開源模型,[6] 而 Kimi K2.6 在現有證據中只有產品定位與上線資訊,缺少可直接比較的 benchmark 成績。[1]

Key findings

  • 無法產生可信的四模型總排名:你提供的材料沒有共享 benchmark 分數,且缺少 GPT-5.5 的任何 benchmark 證據。

  • Claude Opus 4.7 的強項證據最集中在視覺與 computer-use 工作流。Anthropic 官方文件說明它對 vision-heavy workloads 有 performance gains,特別影響 computer use、screenshot、artifact 與 document understanding workflows,且將座標映射到影像也更簡單。[2] VentureBeat 另稱其解析度提升到前代的 3 倍,並在標題中將其描述為狹義重回 generally available LLM 領先。[5]

  • DeepSeek V4-Pro 的 benchmark 相關競爭性敘述最明確,但主要來自公司說法經媒體轉述。報導稱它在 world knowledge benchmarks 上明顯領先其他開源模型,且只略遜於頂級閉源模型;另有分析師根據其 benchmark profile 認為它可能以更低成本提供很強的 agent 能力。[6][7]

  • Kimi K2.6 目前只能確認是 Moonshot AI 的原生多模態 agentic model,並於 2026-04-20 在 Workers AI 上得到 Day 0 支援;你提供的證據沒有其可比 benchmark 分數。[1]

Confirmed facts

  • Kimi K2.6 已於 2026-04-20 在 Workers AI 上可用,Cloudflare 表示這是與 Moonshot AI 合作的 Day 0 支援;該模型被描述為 native multimodal agentic model。[1]

  • Anthropic 官方文件表示 Claude Opus 4.7 的變更會帶來 vision-heavy workloads 的 performance gains,且特別有助於 computer use、screenshot、artifact、document understanding workflows;將座標映射到影像也變得更簡單。[2]

  • VentureBeat 報導稱 Claude Opus 4.7 帶來相較前代 3 倍的解析度提升,並在標題中將其描述為狹義重回「most powerful generally available LLM」。[5]

  • 媒體報導稱 DeepSeek 提供 DeepSeek V4-Pro 與 DeepSeek V4-Flash 兩個版本;其中 V4-Pro 被描述為在 world knowledge benchmarks 上明顯領先其他開源模型,且僅略遜於頂級閉源模型。[6]

  • CNBC 報導稱 DeepSeek V4 已針對 Claude Code 與 OpenClaw 之類 agent 工具做最佳化;Counterpoint 的 Wei Sun 則認為其 benchmark profile 顯示它可能以更低成本提供優秀 agent 能力。[7]

  • Hugging Face 上存在一則要求補充 DeepSeek-V4-Pro 在 GPQA、GSM8K、HLE、MMLU-Pro、SWE-Bench Pro、SWE-Bench Verified、Terminal-Bench 2.0 等項目社群評測結果的討論。[4]

What remains inference

  • 把 Claude Opus 4.7 判定為四者整體第一,仍屬推論;現有證據沒有同一組 benchmark 的分數表可直接支持這個結論。[2][5]

  • 把 DeepSeek V4-Pro 判定為所有開源任務全面第一,也仍屬推論;目前可見的是媒體轉述的公司說法,缺少你提供證據中的原始分數表。[6]

  • 把 Kimi K2.6 放在任何明確名次,幾乎純屬猜測;目前只知道它的產品定位,沒有硬 benchmark 成績。[1]

  • 對 GPT-5.5 作任何 benchmark 結論都沒有證據基礎,因為提供材料裡沒有它的 benchmark 資料。

What the evidence suggests

  • 若只看視覺與 computer-use 類任務,Claude Opus 4.7 的證據最強,因為這是唯一在官方文件中明確聲稱該類工作流有性能提升的模型,且次級報導補充了解析度提升細節。[2][5]

  • 若只看現有材料中最明確的 benchmark 競爭描述,DeepSeek V4-Pro 在 world knowledge benchmarks 的定位最突出,因為它是唯一被直接描述為明顯領先其他開源模型的模型。[6]

  • 若看 agent tooling 與成本效益敘事,DeepSeek V4 也有較清楚的外部分析支持,因為報導提到它針對 Claude Code、OpenClaw 做了最佳化,且分析師從其 benchmark profile 推論出較強的 agent 能力/成本比。[7]

  • Kimi K2.6 看起來是以多模態與 agentic 能力為賣點,但在這組證據裡沒有足夠 benchmark 資料把它與 Claude 或 DeepSeek 做定量比較。[1]

  • 整體四模型排序:Insufficient evidence。

Conflicting evidence or uncertainty

  • 最大的不確定性不是「誰贏」,而是「有沒有可比數據」:目前沒有看到四個模型在同一 benchmark、同一版本、同一提示或工具設定下的分數。

  • Claude 的「領先」敘事主要來自次級報導的綜述與標題,而不是你提供證據中的原始官方 benchmark 表。[5]

  • DeepSeek 的最強 benchmark 主張來自公司說法經媒體轉述,因此可信度低於官方技術報告或第三方獨立評測。[6]

  • Kimi K2.6 的 benchmark 能力在這組證據裡幾乎空白,所以不能因產品描述或上線速度而推斷其分數。[1]

  • Reddit 上有人提醒 SWE-bench leaderboard 可能混用了不同版本與不同 benchmark 任務,這提示跨榜單比較可能失真;但這只是低權威來源,最多當弱提醒使用。[65]

Open questions

  • GPT-5.5 在 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0、以及多模態 benchmark 上的成績是什麼?

  • Claude Opus 4.7、Kimi K2.6、DeepSeek V4 是否有同一版本 benchmark 表,且使用一致的工具權限、上下文長度、溫度與評分規則?

  • DeepSeek V4-Pro 所謂的 world knowledge benchmarks,具體是哪些測試、原始分數是多少、對照模型又是哪些?[6]

  • Kimi K2.6 是否已有第三方獨立 benchmark,而不只是上線與產品定位資訊?[1]

Sources worth trusting most

  • [2] 是 Anthropic 官方文件,對 Claude Opus 4.7 的產品級能力變更與適用工作流最可信。[2]

  • [1] 是 Cloudflare 官方 changelog,對 Kimi K2.6 的上線時間、可用性與產品定位最可信。[1]

  • [6][7] 是較可靠的媒體報導,適合用來了解 DeepSeek 的對外 benchmark 敘事與外部分析,但仍屬次級來源。[6][7]

  • [5] 可作為 Claude Opus 4.7 外界競爭定位的參考,但對硬 benchmark 來說仍弱於官方技術文件。[5]

  • [4] 只能證明社群正在補充 DeepSeek-V4-Pro 的評測結果,不能當成最終 benchmark 證據。[4]

  • [65] 權威性最低,只適合拿來提醒跨榜單比較可能有方法學問題。[65]

Recommended next step

  • 如果你要一個真正可 defend 的比較,下一步應該只蒐集四模型在共享 benchmark 上的原始分數表,優先看 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0,以及多模態評測,並要求每個結果都標明是否允許 tools、browsing、test-time compute 與不同解碼設定。

  • 在目前這組證據下,最安全的暫時結論是:Claude Opus 4.7 在視覺/computer-use 能力的證據最強,[2][5] DeepSeek V4-Pro 在開源對比的 world knowledge benchmark 敘事最強,[6] Kimi K2.6 與 GPT-5.5 都不足以納入公平排名。[1]

Summary

基於目前證據,不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做可靠的總體 benchmark 排名。較可靠的局部結論是:Claude Opus 4.7 在 vision/computer-use 類場景的正向證據最強,[2][5] DeepSeek V4-Pro 有最明確的開源 benchmark 領先聲稱,[6][7] Kimi K2.6 缺 benchmark 數據,[1] GPT-5.5 則完全沒有可用資料。若要嚴格比較,現階段最誠實的答案就是:Insufficient evidence。

来源

  • [1] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    What's new in Claude Opus 4.7 - Claude API Docs Loading... . This change should unlock performance gains on vision-heavy workloads, and is particularly important for computer use and screenshot/artifact/document understanding workflows. Additionally, operat...

  • [4] Claude Opus 4.7: Pricing, Benchmarks & Context Windowalmcorp.com

    For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...

  • [5] Introducing Claude Opus 4.7anthropic.com

    Image 22: logo Claude Opus 4.7 feels like a real step up in intelligence. Code quality is noticeably improved, it’s cutting out the meaningless wrapper functions and fallback scaffolding that used to pile up, and fixes its own code as it goes. It’s the clea...

  • [6] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [21] Introducing GPT-5.5openai.com

    Long context EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro Graphwalks BFS 256k f1 73.7%62.5%--76.9%- Graphwalks BFS 1mil f1 45.4%9.4%--41.2% (Opus 4.6)- Graphwalks parents 256k f1 90.1%82.8%--93.6%- Graphwalks parents 1mil f1 58.5%44....

  • [24] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai

    Image 2 OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on three. Image 3 Effort variants provide a clear ladder to balance intelligence and cost. GPT-5.5 (xhigh) is 20% more expensive to run our Index than its pred...

  • [27] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com

    © 2026 All rights reserved. About our ads Advertising Jobs Yahoo Finance Yahoo Finance Mail Sign in Investing.com OpenAI releases GPT-5.5 with improved coding and research capabilities Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the...

  • [36] Moonshot AI Kimi K2.6 now available on Workers AIdevelopers.cloudflare.com

    Image 2: hero image ← Back to all posts Moonshot AI Kimi K2.6 now available on Workers AI Apr 20, 2026 Workers AI @cf/moonshotai/kimi-k2.6 is now available on Workers AI, in partnership with Moonshot AI for Day 0 support. Kimi K2.6 is a native multimodal ag...

  • [45] Moonshot AI Releases Kimi K2.6 with Long-Horizon Coding, Agent ...marktechpost.com

    The Long-Horizon Coding Headline Numbers The metric that will likely get the most attention from dev teams is SWE-Bench Pro — a benchmark testing whether a model can resolve real-world GitHub issues in professional software repositories. Kimi K2.6 scores 58...

  • [57] China’s DeepSeek releases new AI model it claims beats all open-source competitorsau.finance.yahoo.com

    The model is available as DeepSeek V4-Pro and DeepSeek V4-Flash. The latter version, the company says, is a “more efficient and economical choice". “In world knowledge benchmarks, DeepSeek V4-Pro significantly leads other open-source models and is only slig...

  • [58] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com

    DeepSeek also said that V4 has been optimized for use with popular agent tools such as Anthropic’s Claude Code and OpenClaw. According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capabilit...

  • [64] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Evaluation results []( Diamond on Idavidrein/gpqaView evaluation resultsleaderboard 90.1 Gsm8k on openai/gsm8kView evaluation resultsleaderboard 92.6 Hle on cais/hleView evaluation results 37.7 Mmlu Pro on TIGER-Lab/MMLU-ProView evaluation results 87.5 SWE...

  • [84] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    3. Evaluation Results ; Terminal-Bench 2.0 (Terminus-2), 66.7, 65.4 ; SWE-Bench Pro, 58.6, 57.7 ; SWE-Bench Multilingual, 76.7, - ; SWE-Bench ... 5 days ago