把 GPT-5.5、Claude Opus 4.7、Kimi K2.6 和 DeepSeek V4 放在一起看,很容易得出一个过于简单的问题:谁第一?但公开资料并没有给出一个完全统一、同一评测框架下覆盖四者的榜单。最接近的共同对比覆盖 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max;Kimi K2.6 的数据主要来自单独的 Kimi 发布报道、模型卡和榜单来源 [1][
6][
24]。
所以,更有用的问题不是谁赢,而是:你的工作负载应该先测哪一个?
还有一个命名说明:本文把 DeepSeek V4 具体写作 DeepSeek-V4-Pro-Max,因为引用来源中给出基准和成本行的是这个变体 [18][
24]。同时,凡是来源把 GPT-5.5 Pro 单独列出,本文也会把它和基础 GPT-5.5 分开,不把分数混算 [
24]。
先看结论:按任务选起点
- **终端密集型编码代理:**GPT-5.5 在共同对比中的 Terminal-Bench 2.0 成绩最高,为 82.7% [
24]。
- **软件修复类基准:**Claude Opus 4.7 在引用的 SWE-Bench Pro 行为 64.3%,在 SWE-Bench Verified 行为 87.6%,均领先本文比较的这些模型 [
18][
24]。
- **不使用工具的硬推理:**Claude Opus 4.7 在共同表格中的 GPQA Diamond 和 Humanity’s Last Exam 无工具行领先 [
24]。
- **带工具的推理与浏览检索:**在单独报告 GPT-5.5 Pro 的行里,GPT-5.5 Pro 以 Humanity’s Last Exam 带工具 57.2% 和 BrowseComp 90.1% 领先 [
24]。
- **开放权重部署:**Kimi K2.6 是引用材料中最清晰的开放权重候选,被描述为 1T 参数 MoE、32B 活跃参数、256K 上下文窗口的模型 [
1]。
- **成本敏感的托管推理:**DeepSeek-V4-Pro-Max 值得进入测试集;LLM Stats 将其列为 1M 上下文、SWE-Bench Verified 80.6%,成本列为 $1.74/$3.48 [
18]。
基准对比表
表中的破折号表示引用来源中没有找到该模型在这一项上的分数,不代表得分为零。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max 的多数字段来自同一共同对比;Kimi K2.6 的数字来自单独的 Kimi 相关来源 [1][
6][
24]。
| 基准 | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | — | 94.2% [ | 约 91% [ | 90.1% [ |
| Humanity’s Last Exam,无工具 | 41.4% [ | 43.1% [ | 46.9% [ | — | 37.7% [ |
| Humanity’s Last Exam,带工具 | 52.2% [ | 57.2% [ | 54.7% [ | 54.0% [ | 48.2% [ |
| Terminal-Bench 2.0 | 82.7% [ | — | 69.4% [ | 66.7% [ | 67.9% [ |
| SWE-Bench Pro | 58.6% [ | — | 64.3% [ | 58.6% [ | 55.4% [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.2% [ | 83.4% [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | — | 79.1% [ | — | 73.6% [ |
| SWE-Bench Verified | — | — | 87.6% [ | 80.2% [ | 80.6% [ |
你的场景应该先测谁?
| 优先级 | 建议先测 | 理由 |
|---|---|---|
| 终端式编码代理 | GPT-5.5 | 在共同对比中,它的 Terminal-Bench 2.0 最高,为 82.7% [ |
| 软件工程修复 | Claude Opus 4.7 | 在引用的 SWE-Bench Pro 和 SWE-Bench Verified 行中,它领先本文比较的这些模型 [ |
| 无工具硬推理 | Claude Opus 4.7 | 在共同对比中,它领先 GPQA Diamond 和 Humanity’s Last Exam 无工具行 [ |
| 带工具硬推理或浏览检索 | GPT-5.5 Pro | 在单独报告 Pro 的行里,它领先 Humanity’s Last Exam 带工具和 BrowseComp [ |
| 开放权重部署 | Kimi K2.6 | 它被描述为开放权重 1T 参数 MoE 模型,Hugging Face 模型卡也报告了较强的编码基准行 [ |
| 成本敏感的托管推理 | DeepSeek-V4-Pro-Max | LLM Stats 将其列为 1M 上下文、SWE-Bench Verified 80.6%,且同榜单成本列低于 Claude Opus 4.7 行 [ |
| 长上下文需求 | GPT-5.5、Claude Opus 4.7 或 DeepSeek-V4-Pro-Max | 引用来源列出 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max 为 1M 上下文;Kimi K2.6 则约为 256K 到 262K 上下文 [ |
分模型解读
GPT-5.5
OpenAI 将 GPT-5.5 描述为面向复杂任务构建,包括编码、研究和数据分析 [38]。在 VentureBeat 的共同对比中,GPT-5.5 的 Terminal-Bench 2.0 为 82.7%,高于 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9% [
24]。同一表格还列出 GPT-5.5 在 GPQA Diamond 为 93.6%、SWE-Bench Pro 为 58.6%、BrowseComp 为 84.4% [
24]。
这里最容易踩坑的是 GPT-5.5 Pro。共同表格中,GPT-5.5 Pro 在 BrowseComp 达到 90.1%,在 Humanity’s Last Exam 带工具行达到 57.2%;但这些数字不应与基础 GPT-5.5 混在一起比较成本、延迟或模型设置 [24]。
从采购和预算角度看,BenchLM 将 GPT-5.5 列为 1M token 上下文窗口;另一个价格报道列出 GPT-5.5 为每百万输入 token $5、每百万输出 token $30 [27][
36]。这类价格更适合作为预算信号,真正采购前仍应核对服务商的实时价格。
Claude Opus 4.7
Claude Opus 4.7 在这组模型中给出了最强的软件修复信号。LLM Stats 将其 SWE-Bench Verified 列为 87.6%,共同对比中其 SWE-Bench Pro 为 64.3% [18][
24]。它还在共同表格中领先 GPQA Diamond,得分 94.2%;领先 Humanity’s Last Exam 无工具行,得分 46.9%;并在 MCP Atlas 行达到 79.1% [
24]。
LLM Stats 还报告 Claude Opus 4.7 具有 1M token 上下文窗口,价格为每百万 token $5/$25 [16]。不过,可比性仍要谨慎看待:Anthropic 说明部分基准结果使用了内部实现或更新后的评测参数,有些分数不能直接与公开榜单分数比较 [
17]。
Kimi K2.6
Kimi K2.6 是引用材料中最突出的开放权重候选。发布报道将其描述为开放权重 1T 参数 MoE 模型,具有 32B 活跃参数、384 个专家、原生多模态、INT4 量化和 256K 上下文 [1]。它的 Hugging Face 模型卡报告了 SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7% 和 LiveCodeBench v6 89.6 [
6]。
同一发布报道还列出 Kimi K2.6 在 Humanity’s Last Exam 带工具项为 54.0,在 BrowseComp 为 83.2 [1]。LLM Stats 将 Kimi K2.6 列为 262K 上下文,价格列为 $0.95/$4.00,并带有 Open Source 标签 [
11]。限制在于,Kimi 的这些数字不是来自与 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max 同一张共同表格;因此,接近的分差更应被看作测试线索,而不是最终胜负 [
1][
6][
24]。
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max 更像是性价比候选,而不是公开数据里的全能冠军。LLM Stats 将其列为 1.6T 规模、1M 上下文、SWE-Bench Verified 80.6%,成本列为 $1.74/$3.48 [18]。在共同对比中,它的 GPQA Diamond 为 90.1%、Humanity’s Last Exam 无工具为 37.7%、Humanity’s Last Exam 带工具为 48.2%、Terminal-Bench 2.0 为 67.9%、SWE-Bench Pro 为 55.4%、BrowseComp 为 83.4%、MCP Atlas 为 73.6% [
24]。
这些数字让 DeepSeek-V4-Pro-Max 很适合进入成本敏感场景的验证名单。但同一共同表格显示,在多数已报告基准行中,GPT-5.5、GPT-5.5 Pro 或 Claude Opus 4.7 仍然领先;因此,在生产环境替换高价模型之前,应先用自己的任务做验证 [24]。
上下文与价格:只能当信号,不能当报价
上下文窗口和价格并不总是由同一来源、同一服务商报告。下面这些信息更适合作为采购前筛选信号,而不是最终合同价格。
| 模型 | 引用中的上下文与价格信号 | 实用解读 |
|---|---|---|
| GPT-5.5 | BenchLM 列为 1M 上下文;一个价格报道列出每百万输入 token $5、输出 token $30 [ | 高端托管选项;预算前需核对实时价格。 |
| Claude Opus 4.7 | LLM Stats 报告 1M 上下文和每百万 token $5/$25 价格 [ | 面向编码、推理和长上下文任务的高端选项。 |
| Kimi K2.6 | 发布报道列为 256K 上下文;LLM Stats 列为 262K 上下文和 $0.95/$4.00 价格列 [ | 强开放权重候选;托管价格可能随服务商变化。 |
| DeepSeek-V4-Pro-Max | LLM Stats 列为 1M 上下文、1.6T 规模、SWE-Bench Verified 80.6% 和 $1.74/$3.48 成本列 [ | 如果你自己的任务质量达标,是很强的价值候选。 |
为什么榜单会互相打架?
原因并不神秘:不同基准测的是不同能力。GPQA Diamond 和 Humanity’s Last Exam 更偏困难推理;Terminal-Bench 2.0 和 SWE-Bench 系列更偏编码与代理式软件工程;BrowseComp 在共同对比中衡量浏览检索类表现 [24]。一个模型在某一行领先、另一行落后,往往是因为任务、工具权限和评测框架不同。
即使是同名基准,也可能因为实现不同而出现差异。LLM Stats 将 Claude Opus 4.7 的 SWE-Bench Verified 列为 87.6%;LMCouncil 在其设置下列为 83.5% ± 1.7 [18][
30]。Anthropic 也说明,部分结果使用内部实现或更新后的评测参数,因此不一定能与公开榜单直接比较 [
17]。
所以,一两个百分点的差距不应直接决定生产选型。公开基准最适合用来缩短候选名单,最后的决定仍应来自你自己的评测。
真正上线前,建议这样测
在押注某个模型前,最好把排名靠前的两到三个候选放到你的真实任务里跑一轮。
- **使用真实提示词、文件和代码仓库。**公开基准很难复现你的代码结构、文档、业务规则和用户行为。
- **匹配真实工具环境。**编码代理的表现会受终端权限、浏览、检索、仓库上下文和内部 API 影响。
- **用同一设置测成本和延迟。**Pro 模式、更高推理努力度等设置会改变质量、token 用量和响应时间。
- **人工检查失败样本。**编码任务尤其要看测试结果、diff 质量、可维护性、安全回归和是否编造依赖。
- **至少放入一个低成本挑战者。**如果开放权重或推理成本重要,Kimi K2.6 和 DeepSeek-V4-Pro-Max 都值得进入测试集 [
1][
18]。
底线
如果你想从高端闭源模型开始缩小范围,最直接的组合是并排测试 GPT-5.5 和 Claude Opus 4.7:GPT-5.5 在引用数据中有最强的 Terminal-Bench 2.0 成绩,而 Claude Opus 4.7 在引用的 SWE-Bench Pro 和 SWE-Bench Verified 上最强 [18][
24]。
如果你需要开放权重,先看 Kimi K2.6 [1][
6]。如果预算是硬约束,把 DeepSeek-V4-Pro-Max 放进候选名单;但在把它视为高端模型的直接替代品之前,务必用自己的工作负载验证质量、成本和延迟 [
18][
24]。




