表中的破折号表示引用来源中没有找到该模型在这一项上的分数,不代表得分为零。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max 的多数字段来自同一共同对比;Kimi K2.6 的数字来自单独的 Kimi 相关来源 。
OpenAI 将 GPT-5.5 描述为面向复杂任务构建,包括编码、研究和数据分析 。在 VentureBeat 的共同对比中,GPT-5.5 的 Terminal-Bench 2.0 为 82.7%,高于 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9%
。同一表格还列出 GPT-5.5 在 GPQA Diamond 为 93.6%、SWE-Bench Pro 为 58.6%、BrowseComp 为 84.4%
。
这里最容易踩坑的是 GPT-5.5 Pro。共同表格中,GPT-5.5 Pro 在 BrowseComp 达到 90.1%,在 Humanity’s Last Exam 带工具行达到 57.2%;但这些数字不应与基础 GPT-5.5 混在一起比较成本、延迟或模型设置 。
从采购和预算角度看,BenchLM 将 GPT-5.5 列为 1M token 上下文窗口;另一个价格报道列出 GPT-5.5 为每百万输入 token $5、每百万输出 token $30 。这类价格更适合作为预算信号,真正采购前仍应核对服务商的实时价格。
Claude Opus 4.7 在这组模型中给出了最强的软件修复信号。LLM Stats 将其 SWE-Bench Verified 列为 87.6%,共同对比中其 SWE-Bench Pro 为 64.3% 。它还在共同表格中领先 GPQA Diamond,得分 94.2%;领先 Humanity’s Last Exam 无工具行,得分 46.9%;并在 MCP Atlas 行达到 79.1%
。
LLM Stats 还报告 Claude Opus 4.7 具有 1M token 上下文窗口,价格为每百万 token $5/$25 。不过,可比性仍要谨慎看待:Anthropic 说明部分基准结果使用了内部实现或更新后的评测参数,有些分数不能直接与公开榜单分数比较
。
Kimi K2.6 是引用材料中最突出的开放权重候选。发布报道将其描述为开放权重 1T 参数 MoE 模型,具有 32B 活跃参数、384 个专家、原生多模态、INT4 量化和 256K 上下文 。它的 Hugging Face 模型卡报告了 SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7% 和 LiveCodeBench v6 89.6
。
同一发布报道还列出 Kimi K2.6 在 Humanity’s Last Exam 带工具项为 54.0,在 BrowseComp 为 83.2 。LLM Stats 将 Kimi K2.6 列为 262K 上下文,价格列为 $0.95/$4.00,并带有 Open Source 标签
。限制在于,Kimi 的这些数字不是来自与 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max 同一张共同表格;因此,接近的分差更应被看作测试线索,而不是最终胜负
。
DeepSeek-V4-Pro-Max 更像是性价比候选,而不是公开数据里的全能冠军。LLM Stats 将其列为 1.6T 规模、1M 上下文、SWE-Bench Verified 80.6%,成本列为 $1.74/$3.48 。在共同对比中,它的 GPQA Diamond 为 90.1%、Humanity’s Last Exam 无工具为 37.7%、Humanity’s Last Exam 带工具为 48.2%、Terminal-Bench 2.0 为 67.9%、SWE-Bench Pro 为 55.4%、BrowseComp 为 83.4%、MCP Atlas 为 73.6%
。
这些数字让 DeepSeek-V4-Pro-Max 很适合进入成本敏感场景的验证名单。但同一共同表格显示,在多数已报告基准行中,GPT-5.5、GPT-5.5 Pro 或 Claude Opus 4.7 仍然领先;因此,在生产环境替换高价模型之前,应先用自己的任务做验证 。
上下文窗口和价格并不总是由同一来源、同一服务商报告。下面这些信息更适合作为采购前筛选信号,而不是最终合同价格。
原因并不神秘:不同基准测的是不同能力。GPQA Diamond 和 Humanity’s Last Exam 更偏困难推理;Terminal-Bench 2.0 和 SWE-Bench 系列更偏编码与代理式软件工程;BrowseComp 在共同对比中衡量浏览检索类表现 。一个模型在某一行领先、另一行落后,往往是因为任务、工具权限和评测框架不同。
即使是同名基准,也可能因为实现不同而出现差异。LLM Stats 将 Claude Opus 4.7 的 SWE-Bench Verified 列为 87.6%;LMCouncil 在其设置下列为 83.5% ± 1.7 。Anthropic 也说明,部分结果使用内部实现或更新后的评测参数,因此不一定能与公开榜单直接比较
。
所以,一两个百分点的差距不应直接决定生产选型。公开基准最适合用来缩短候选名单,最后的决定仍应来自你自己的评测。
在押注某个模型前,最好把排名靠前的两到三个候选放到你的真实任务里跑一轮。
如果你想从高端闭源模型开始缩小范围,最直接的组合是并排测试 GPT-5.5 和 Claude Opus 4.7:GPT-5.5 在引用数据中有最强的 Terminal-Bench 2.0 成绩,而 Claude Opus 4.7 在引用的 SWE-Bench Pro 和 SWE-Bench Verified 上最强 。
如果你需要开放权重,先看 Kimi K2.6 。如果预算是硬约束,把 DeepSeek-V4-Pro-Max 放进候选名单;但在把它视为高端模型的直接替代品之前,务必用自己的工作负载验证质量、成本和延迟
。
Comments
0 comments