先说结论:把GPT-5.5、Claude Opus 4.7、DeepSeek V4和Kimi K2.6硬排成一个总分榜,反而容易误导。原因很简单:这些模型并没有在所有公开基准上都以同一评测方、同一设置、同一任务集完整同台。更稳妥的读法,是按你的工作负载来选模型。
先看大局:没有可验证的总冠军
在目前可直接比较的公开数据中,GPT-5.5与Claude Opus 4.7的同源分数最多。Vellum的表格显示,GPT-5.5在Terminal-Bench 2.0为82.7%,高于Claude Opus 4.7的69.4%;在GDPval为84.9%,高于Claude Opus 4.7的80.3%。但Claude Opus 4.7在SWE-Bench Pro为64.3%,高于GPT-5.5的58.6%;在GPQA Diamond为94.2%,也略高于GPT-5.5的93.6% [2]。
到了computer use和tool use场景,OpenAI报告称GPT-5.5在OSWorld-Verified为78.7%,略高于Claude Opus 4.7的78.0%;在BrowseComp为84.4%,高于Claude Opus 4.7的79.3%。但在MCP Atlas上,GPT-5.5为75.3%,低于Claude Opus 4.7的79.1% [7]。
DeepSeek V4与Kimi K2.6的情况不同:现有公开资料更能说明它们在长上下文、开放权重、多模态或可靠性方面的特征,但并没有覆盖与GPT-5.5、Claude Opus 4.7完全相同的一整套基准。因此,没有分数的地方不能解读为模型更弱,只能说明本文使用的来源中没有找到可直接比较的同台结果 [31][
33][
35][
36]。
可直接读取的分数与指标
| Benchmark / metric | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | 怎么读 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 未找到同源直评分数 | 未找到同源直评分数 | GPT-5.5在Vellum表格中领先Claude Opus 4.7 [ |
| SWE-Bench Pro | 58.6% | 64.3% | 未找到同源直评分数 | 未找到同源直评分数 | Claude Opus 4.7在软件工程任务上领先GPT-5.5 [ |
| GDPval | 84.9% | 80.3% | 未找到同源直评分数 | 未找到同源直评分数 | GPT-5.5在该组专业任务指标中领先 [ |
| OSWorld-Verified | 78.7% | 78.0% | 未找到同源直评分数 | 未找到同源直评分数 | GPT-5.5在OpenAI表格中小幅领先 [ |
| BrowseComp | 84.4% | 79.3% | 未找到同源直评分数 | 未找到同源直评分数 | GPT-5.5在该工具使用指标中领先 [ |
| MCP Atlas | 75.3% | 79.1% | 未找到同源直评分数 | 未找到同源直评分数 | Claude Opus 4.7在OpenAI表格中领先 [ |
| GPQA Diamond | 93.6% | 94.2% | 未找到同源直评分数 | 未找到同源直评分数 | Claude Opus 4.7在Vellum表格中略高 [ |
| FrontierMath T1–3 | 51.7% | 43.8% | 未找到同源直评分数 | 未找到同源直评分数 | GPT-5.5在Vellum表格中领先 [ |
| Context window | 本文使用的Artificial Analysis对比表未列出 | 本文使用的Artificial Analysis对比表未列出 | DeepSeek V4 Pro:1,000k tokens | 256k tokens | DeepSeek V4 Pro的上下文窗口大于Kimi K2.6 [ |
| AA-Omniscience / hallucination | 未找到同源直评分数 | 未找到同源直评分数 | V4 Pro Max为-10;V4 Pro hallucination rate为94% | 未找到同源直评分数 | 这是DeepSeek V4需要重点做事实核验的信号 [ |
| Artificial Analysis Intelligence Index | 本文使用来源未列出 | 本文使用来源未列出 | 本文使用来源未列出 | 54 | 这是Kimi K2.6在Artificial Analysis体系内的指标,不应与Vellum或OpenAI榜单混成一个总榜 [ |
这里的未找到同源直评分数,不等于模型不行;它只表示在本文引用的公开资料里,没有看到同一评测方、同一benchmark下的可比数字。
GPT-5.5:更像终端、工具调用和代理工作流的强选项
在这组资料中,GPT-5.5是与Claude Opus 4.7可直接对比项目最多的模型之一。它在Terminal-Bench 2.0、GDPval、FrontierMath T1–3、OSWorld-Verified和BrowseComp等指标上都有公开分数可读 [2][
7]。
如果你的任务偏向终端自动化、跨步骤代理工作流或工具调用,GPT-5.5的信号比较强:它在Terminal-Bench 2.0为82.7%,高于Claude Opus 4.7的69.4%;在BrowseComp为84.4%,高于Claude Opus 4.7的79.3%;在OSWorld-Verified为78.7%,也略高于Claude Opus 4.7的78.0% [2][
7]。
但GPT-5.5不是所有场景的绝对赢家。Claude Opus 4.7在SWE-Bench Pro、MCP Atlas和GPQA Diamond上领先GPT-5.5 [2][
7]。所以,如果你主要做真实代码库中的issue解决,不能只凭Terminal-Bench或BrowseComp下结论。
从安全与行为控制角度看,OpenAI的System Card提到,GPT-5.5使用CoT-Control进行可控性评估;该评估包含超过13,000个任务,任务来自GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified等既有基准 [4]。这有助于理解模型行为控制的评估框架,但不应直接等同于性能benchmark分数。
Claude Opus 4.7:最明确的亮点在软件工程
Anthropic的Claude API文档列出了Claude Opus 4.7,并标注日期为2026年4月16日 [20]。从目前能与GPT-5.5直接对比的分数看,它最突出的信号是SWE-Bench Pro:Claude Opus 4.7为64.3%,高于GPT-5.5的58.6% [
2]。
这意味着,如果你的重点是软件工程中的issue solving、修复真实仓库问题、理解复杂代码上下文,Claude Opus 4.7应该进入优先测试名单。它还在MCP Atlas中以79.1%领先GPT-5.5的75.3% [7]。
不过,Claude Opus 4.7也不是全面领先。在OpenAI表格中,GPT-5.5在OSWorld-Verified和BrowseComp上领先;在Vellum表格中,GPT-5.5在Terminal-Bench 2.0、GDPval和FrontierMath T1–3上领先 [2][
7]。
安全研究方面,Anthropic在Petri 2.0中报告称,两类干预方法结合后,使Claude models的eval-awareness出现47.3%的median relative drop [22]。这个数字更适合用于理解Claude系列模型的行为与安全研究,不应被当作Claude Opus 4.7的性能benchmark分数。
DeepSeek V4:百万级上下文很有吸引力,但不能忽视幻觉风险
DeepSeek-V4技术报告称,V4系列保留了DeepSeek-V3中的DeepSeekMoE框架和Multi-Token Prediction策略,并引入混合注意力机制,以提升长上下文效率 [30]。Artificial Analysis的模型对比表显示,DeepSeek V4 Pro的context window为1,000k tokens,而Kimi K2.6为256k tokens [
33]。
这让DeepSeek V4 Pro很适合被放入超长文档、长链路检索、大规模资料归纳等场景的候选名单。对于需要一次读入大量上下文的任务,它的规格优势很清楚 [30][
33]。
但可靠性是必须单独评估的点。Artificial Analysis报告称,DeepSeek V4 Pro Max在AA-Omniscience上得分为-10,比DeepSeek V3.2 Reasoning的-21有所改善;同一报告还指出,DeepSeek V4 Pro的hallucination rate为94%,DeepSeek V4 Flash为96% [31]。
因此,如果把DeepSeek V4 Pro用于生产环境,尤其是法律、金融、医疗、科研、企业知识库等错误成本较高的场景,建议配合检索增强、引用校验、规则校验或人工复核。上下文窗口大,并不自动等于答案更可靠 [31][
33]。
Kimi K2.6:开放权重多模态候选,但仍需要更多同台分数
Artificial Analysis将Kimi K2.6标注为2026年4月发布的开放权重模型,并给出Artificial Analysis Intelligence Index 54 [35]。另一篇Artificial Analysis文章称,Kimi K2.6原生支持image和video输入,并输出文本;其最大上下文长度保持在256k [
36]。
如果你的需求是开放权重、多模态输入、可在自有技术栈中进一步评估与部署,Kimi K2.6值得进入shortlist。但从本文使用的资料看,Kimi K2.6尚缺少与GPT-5.5、Claude Opus 4.7在Terminal-Bench 2.0、SWE-Bench Pro、GDPval、OSWorld-Verified、MCP Atlas等指标上的完整同源对比 [2][
7][
35][
36]。
换句话说,Kimi K2.6的定位很清楚:开放权重、多模态、256k上下文。但在没有更多同台benchmark之前,不宜断言它在软件工程、终端代理或工具调用上一定强于或弱于另外三款模型 [35][
36]。
按任务选模型:更实用的决策表
| 你的任务 | 优先考虑 | 依据 |
|---|---|---|
| Terminal automation / agentic workflow | GPT-5.5 | Terminal-Bench 2.0为82.7%,高于Claude Opus 4.7的69.4% [ |
| Software engineering / issue solving | Claude Opus 4.7 | SWE-Bench Pro为64.3%,高于GPT-5.5的58.6% [ |
| 浏览器与工具链工作流 | GPT-5.5或Claude Opus 4.7,取决于具体工具 | GPT-5.5在BrowseComp领先,Claude Opus 4.7在MCP Atlas领先 [ |
| Computer-use workflow | GPT-5.5小幅领先 | OSWorld-Verified中GPT-5.5为78.7%,Claude Opus 4.7为78.0% [ |
| 极长上下文、超大文档 | DeepSeek V4 Pro | Artificial Analysis列出1,000k tokens上下文窗口,但也报告V4 Pro hallucination rate为94%,需要额外核验 [ |
| 开放权重多模态 | Kimi K2.6 | Artificial Analysis称其为开放权重模型,并原生支持image/video输入与文本输出 [ |
| 需要尽量降低hallucination | 不能从本文资料中确定总冠军 | DeepSeek V4有明确风险信号,但四个模型缺少同一来源下完整可靠性对比 [ |
读benchmark前,先记住三条限制
第一,不同评测方的分数不能随便相加。Vellum、OpenAI和Artificial Analysis使用的任务集、评测环境、工具权限、推理模式和计分方式可能不同,因此更适合做同源比较,而不是拼成一个单一总榜 [2][
7][
31][
33][
35]。
第二,coding benchmark本身也有局限。相关学术研究指出,HumanEval这类传统基准难以充分覆盖真实软件工程问题;更接近实际工作的评估,需要结合SWE-Bench这类issue-solving benchmark来看 [42]。
第三,context window不是准确率。DeepSeek V4 Pro在Artificial Analysis对比表中有1,000k tokens的上下文窗口,但同一评测方也报告其hallucination rate为94% [31][
33]。如果是生产系统,尤其是企业内部数据、专业知识库或高风险流程,最好建立自己的回归测试集和人工抽检流程。
最后的选型建议
如果你要做终端自动化、复杂工具调用或agentic workflow,GPT-5.5是目前证据较强的选择,因为它在Terminal-Bench 2.0、BrowseComp和OSWorld-Verified上相对Claude Opus 4.7表现更好 [2][
7]。
如果你的重点是真实软件工程任务,特别是仓库issue解决、代码修复和工程级上下文理解,Claude Opus 4.7更值得优先测试,因为它在SWE-Bench Pro上以64.3%领先GPT-5.5的58.6% [2]。
如果你需要处理非常长的上下文,DeepSeek V4 Pro的1,000k tokens窗口很有吸引力,但必须把事实核验、检索grounding和人工复核纳入系统设计 [31][
33]。
如果你需要开放权重和原生多模态输入,Kimi K2.6是一个值得跟进的候选;不过,在缺少更多同台分数前,更适合先做内部PoC,而不是仅凭榜单直接替换关键生产模型 [35][
36]。




