如果你正在为产品或团队选模型,公开榜单能给方向,但不能替你做最终上线决策。现有资料里,GPT-5.5与Claude Opus 4.7被放在同一张表里比较的公开分数相对更多;Kimi K2.6的数值则混有模型卡与不同评测框架;DeepSeek V4在Terminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond这些共用行上还缺少足够直接对应的公开分数 [1][
2][
5][
6]。
所以,更实用的问题不是谁是绝对第一,而是:你的任务应该先测哪一个。
先看结论:按任务选首测模型
- 终端型Agent编码、命令行工作流:先测GPT-5.5。OpenAI公布GPT-5.5在Terminal-Bench 2.0为82.7%;公开比较中Claude Opus 4.7为69.4%,Kimi K2.6为66.7% [
19][
8][
13][
6]。
- 真实GitHub issue解决、代码修复:先测Claude Opus 4.7。公开资料显示其SWE-Bench Pro为64.3%、SWE-Bench Verified为87.6%,高于GPT-5.5在SWE-Bench Pro上的58.6% [
27][
19]。
- 长多模态上下文:把Kimi K2.6放入候选。资料称Kimi K2.6支持文本、图像、视频输入,并提供256k上下文路由 [
7]。
- 成本敏感的大量API调用:DeepSeek V4值得算账。Mashable列出的API价格为每100万token输入1.74美元、输出3.48美元;GPT-5.5为输入5美元、输出30美元,Claude Opus 4.7为输入5美元、输出25美元 [
3]。
公开基准对比表
下表里的“—”表示:在提供的公开来源中,暂时没有足够可直接对齐的数值。它不等于该模型不能完成这类任务。
| 基准 | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | 怎么读 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7% [ | — | 终端、Shell、命令行代理工作流中,GPT-5.5的公开值最高。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | — | 真实代码修复与GitHub issue解决类任务中,Claude Opus 4.7领先。 |
| SWE-Bench Verified | — | 87.6% [ | 80.2% [ | — | 现有来源中,主要能对齐Claude Opus 4.7与Kimi K2.6的数值。 |
| GPQA Diamond | 93.6% [ | 94.2% [ | — | — | GPT-5.5与Claude Opus 4.7非常接近,公开值里Claude小幅领先。 |
| HLE with tools | 52.2% [ | 54.7% [ | 54.0% [ | — | Claude与Kimi数值更高,但Kimi可能来自不同评测条件 [ |
| BrowseComp | 84.4% [ | 79.3% [ | — | — | 浏览、网页探索类评估中,GPT-5.5公开值更高。 |
| OSWorld-Verified | 78.7% [ | 78.0% [ | — | — | 两者差距很小,不宜过度解读。 |
| MCP Atlas | 75.3% [ | 79.1% [ | — | — | MCP与工具联动型评估中,Claude Opus 4.7领先。 |
GPT-5.5:长终端会话和命令行代理的强候选
OpenAI称,GPT-5.5在Terminal-Bench 2.0上达到82.7%,在SWE-Bench Pro上达到58.6% [19]。OpenAI对这两个基准的解释是:Terminal-Bench 2.0测试需要规划、反复执行和工具协调的复杂命令行流程;SWE-Bench Pro测试真实GitHub issue的解决能力 [
19]。
这意味着,如果你的工作负载包括沙箱运行、Shell命令反复试错、CI(持续集成)复现、文件生成与修改,GPT-5.5很适合作为第一轮候选。它看起来更像是“能长时间在终端里跑流程”的模型。
但这不等于所有编码任务都由GPT-5.5领先。在SWE-Bench Pro上,Claude Opus 4.7的64.3%高于GPT-5.5的58.6% [19][
27]。因此,若重点是精准修复既有代码库中的真实问题,Claude Opus 4.7更值得先试。
Claude Opus 4.7:代码修复、审查型流程更值得先上
Claude Opus 4.7的公开亮点集中在SWE-Bench系列:SWE-Bench Pro为64.3%,SWE-Bench Verified为87.6% [27]。DataCamp整理称,Opus 4.7被放到14个基准中评估,覆盖编码、推理、工具使用、电脑使用和视觉推理等方向 [
27]。
在与GPT-5.5的共同对比中,Claude Opus 4.7在GPQA Diamond上为94.2%对93.6%,在MCP Atlas上为79.1%对75.3%,均小幅领先 [8][
13]。反过来,GPT-5.5在Terminal-Bench 2.0和BrowseComp上公开值更高 [
8][
13][
19]。
换句话说,Claude Opus 4.7不一定是所有“代理自动化”的绝对赢家,但在代码修复、代码审查、真实issue处理这类更偏工程质量的任务上,它是非常强的一号候选。
Kimi K2.6:长多模态输入有吸引力,分数要看评测框架
Kimi K2.6被列出SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%;另有资料列出其Terminal-Bench 2.0为66.7%、HLE with tools为54.0% [1][
6]。不过,相关指南也说明,K2.6这些数值来自Moonshot AI官方模型卡,其中SWE-Bench Pro还带有in-house harness这一评测框架说明 [
6]。
因此,即使Kimi K2.6的SWE-Bench Pro 58.6%在数字上与GPT-5.5的58.6%相同,也不宜直接断言二者是在完全相同条件下打平 [1][
6][
19]。对于模型评测来说,提示词、工具权限、推理预算、评分器和评测框架的差异,都可能影响结果。
Kimi K2.6真正值得单独关注的,是长上下文和多模态输入。资料称其支持文本、图像、视频输入,并有256k上下文路由 [7]。如果你的产品需要处理长材料、图像或视频输入,Kimi K2.6应进入候选名单。
DeepSeek V4:价格有吸引力,但准确性要自己兜底
DeepSeek V4在这张表里的缺口比较明显:就提供的公开来源看,它还没有足够多可直接填入Terminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond等行的共同基准数值。换句话说,不能因为某些价格或架构亮点,就把它直接放进同一张能力排行榜。
不过,DeepSeek V4仍有值得评估的地方。Artificial Analysis称,DeepSeek V4 Pro Max在AA-Omniscience上得到-10,相比V3.2提升11分;V4 Flash Max为-23。同一来源也报告V4 Pro和V4 Flash的幻觉率分别为94%和96%,并解释为模型在不知道答案时也几乎总会作答 [2]。
架构与价格是它的主要看点。DataCamp称DeepSeek V4采用Mixture of Experts(MoE,专家混合)架构,Pro模型总参数1.6万亿、激活参数490亿;Flash模型总参数2,840亿、激活参数130亿 [4]。Mashable整理的API价格也显示,DeepSeek V4低于GPT-5.5和Claude Opus 4.7 [
3]。
因此,DeepSeek V4更适合成本敏感的大批量处理、能做内部校验的流程,或需要考察开放权重路线的团队。但如果任务对事实准确性、合规或用户可见输出要求很高,就必须配套自建评测、后处理和失败检测 [2][
3][
4]。
使用场景选择表
| 使用场景 | 先测试的模型 | 依据 |
|---|---|---|
| 长时间终端自动化、Shell代理、CI复现 | GPT-5.5 | Terminal-Bench 2.0中,GPT-5.5为82.7%,Claude Opus 4.7为69.4%,Kimi K2.6为66.7% [ |
| 真实GitHub issue解决、代码修复、SWE-Bench类任务 | Claude Opus 4.7 | Claude Opus 4.7的SWE-Bench Pro为64.3%,SWE-Bench Verified为87.6% [ |
| 浏览、网页探索型任务 | GPT-5.5 | BrowseComp中,GPT-5.5为84.4%,Claude Opus 4.7为79.3% [ |
| MCP、工具联动型任务 | Claude Opus 4.7 | MCP Atlas中,Claude Opus 4.7为79.1%,GPT-5.5为75.3% [ |
| 长多模态上下文 | Kimi K2.6 | Kimi K2.6被介绍为支持文本、图像、视频输入,并提供256k上下文路由 [ |
| 成本敏感的大量API调用 | DeepSeek V4 | DeepSeek V4的token价格低于GPT-5.5与Claude Opus 4.7,但需要同时考虑Artificial Analysis对高幻觉率的报告 [ |
为什么现在不适合给“综合冠军”
第一,四个模型并没有在同一提示词、同一工具权限、同一推理预算和同一评分器下,得到足够多独立公开结果。GPT-5.5与Claude Opus 4.7的共同对比资料较多;Kimi K2.6混有模型卡与内部评测框架;DeepSeek V4在共用基准行上仍有空白 [1][
2][
5][
6]。
第二,同一个基准名称,也可能因为执行条件不同而产生差异。有汇总资料指出,GPT-5.5和Claude Opus 4.7的公开分数在形式上可比,但不能等同于方法论完全一致 [5]。Anthropic也说明,其Terminal-Bench 2.0评测使用了Terminus-2 harness,并采用特定资源条件 [
31]。
第三,基准分数只是产品质量的一部分。真正上线时,还要看失败方式、幻觉率、延迟、成本、工具调用稳定性、安全策略、日志可复现性等。ExplainX也提醒,排行榜定义、提示词和工具策略都会改变分数,公开基准不应替代团队自己的评测框架 [28]。
最终判断
基于目前公开证据,比较稳妥的策略是:终端型Agent编码先测GPT-5.5,SWE-Bench代码修复先测Claude Opus 4.7,长多模态上下文先把Kimi K2.6放进候选,成本敏感的大批量调用再认真评估DeepSeek V4 [19][
27][
7][
3]。
但如果要做生产级选择,不要只看一张总榜。把你的真实任务、工具权限、预算、延迟要求和失败容忍度放进自建评测里,才是更可靠的决策方式 [5][
28][
31]。




