这张表说明了为什么不能简单说某个模型“全面胜出”。Claude Opus 4.7 在多项推理和软件工程指标上领先;GPT-5.5 Pro 在有工具、浏览类任务上更强;GPT-5.5 在终端工作流上表现突出;Kimi K2.6 则主要出现在其他来源的单项数据里,尚不适合直接排出全局名次 。
在 VentureBeat 的直接对照数据中,Claude Opus 4.7 的 GPQA Diamond 得分为 94.2%,高于 GPT-5.5 的 93.6% 和 DeepSeek-V4-Pro-Max 的 90.1% 。差距并不算巨大,但在这组数据里,Claude Opus 4.7 是 GPQA Diamond 的第一名
。
Humanity’s Last Exam 无工具版也呈现类似趋势:Claude Opus 4.7 得到 46.9%,高于 GPT-5.5 Pro 的 43.1%、GPT-5.5 的 41.4% 和 DeepSeek-V4-Pro-Max 的 37.7% 。如果你的核心需求是难题推理、科学问答或不依赖外部工具的知识判断,现有数据更偏向 Claude Opus 4.7
。
Kimi K2.6 在 GPQA 上也有可参考信号:LLM Stats 将 Kimi K2.6 列为 0.91,而 Claude Opus 4.7 和 GPT-5.5 在该榜单上均为四舍五入后的 0.94 。但这不是 VentureBeat 的同一张 GPQA Diamond 直接对照表,因此不能把它当作完全等价的横向比较
。
一旦 benchmark 允许使用工具,排序会明显变化。在 Humanity’s Last Exam 有工具版中,GPT-5.5 Pro 得分 57.2%,高于 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2% 和 DeepSeek-V4-Pro-Max 的 48.2% 。
BrowseComp 也更偏向 GPT-5.5 Pro:它在 VentureBeat 表中达到 90.1%,高于 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 和 Claude Opus 4.7 的 79.3% 。DocsBot 另列 Kimi K2.6 在 BrowseComp 上为 83.2%,但那是 Kimi K2.6 与 DeepSeek-V4 Pro 的单独对照页,并非包含所有模型的统一矩阵
。
在 VentureBeat 的数据中,GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%,明显高于 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9% 。如果你的使用场景是让 agent 跑命令、修复 repo、自动化多步骤终端流程,GPT-5.5 是目前数据里最有说服力的选项
。
在 VentureBeat 表中,Claude Opus 4.7 在 SWE-Bench Pro / SWE Pro 上为 64.3%,高于 GPT-5.5 的 58.6% 和 DeepSeek-V4-Pro-Max 的 55.4% 。LLM Stats 也列出 Claude Opus 4.7 为 0.64、GPT-5.5 为 0.59、Kimi K2.6 为 0.59、DeepSeek-V4-Pro-Max 为 0.55
。
两个来源的计分呈现方式不同,但主信号一致:Claude Opus 4.7 在 SWE-Bench Pro 上领先;GPT-5.5 与 Kimi K2.6 在 LLM Stats 表中接近;DeepSeek-V4-Pro-Max 在这些被引用数据中更低 。
DeepSeek-V4-Pro-Max 在 VentureBeat 的直接对照表中没有拿到任何一项第一:它在 GPQA Diamond 为 90.1%,Humanity’s Last Exam 无工具版为 37.7%,有工具版为 48.2%,Terminal-Bench 2.0 为 67.9%,SWE-Bench Pro 为 55.4%,BrowseComp 为 83.4%,MCP Atlas 为 73.6% 。
它的吸引力主要在成本/性能。VentureBeat 将 DeepSeek-V4 描述为接近 state-of-the-art 水平,而成本约为 Opus 4.7 和 GPT-5.5 的 1/6 。但 Artificial Analysis 也给出风险信号:DeepSeek V4 Pro Max 在 AA-Omniscience 上为 -10,较 V3.2 Reasoning 的 -21 提升 11 分;同一来源还称 V4 Pro 和 V4 Flash 的幻觉率很高,分别为 94% 和 96%
。
这并不意味着可以直接断言 DeepSeek V4 在所有模型中“最不可靠”,因为被引用来源没有提供 GPT-5.5、Claude Opus 4.7 和 Kimi K2.6 在同一幻觉指标上的可比数据 。更稳妥的结论是:如果预算敏感,DeepSeek V4 值得测试;但在上线前,应使用你自己的业务数据、检索链路和验收规则做严格幻觉评估
。
Kimi K2.6 是这次比较里最难排位的模型,因为它没有出现在与 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Max 完整同表的矩阵中 。
现有来源仍给出一些值得注意的单项数据:LLM Stats 将 Kimi K2.6 的 GPQA 列为 0.91,SWE-Bench Pro 列为 0.59 。DocsBot 则列出 Kimi K2.6 在 AIME 2026 thinking mode 为 96.4%,APEX Agents 为 27.9%,BrowseComp 为 83.2%;同页中 DeepSeek-V4 Pro 的 BrowseComp 为 83.4%
。
因此,Kimi K2.6 更适合被看作“值得纳入候选池”的模型,而不是已经能在所有任务上被准确排名的模型。若你的任务与它的单项 benchmark 高度重合,最好的做法仍是跑内部评测,而不是只看公开榜单 。
第一,GPT-5.5 Pro 只在部分行有数据,所以不能因为某个基准没有报告 Pro 版,就推断它一定领先或落后 。第二,Kimi K2.6 的数据主要来自 LLM Stats 和 DocsBot,而不是与全部对手同表的完整矩阵
。
第三,OpenAI 的 GPT-5.5 system card 提到,GPT-5.5 使用 CoT-Control 衡量可控性;该评测包含超过 13,000 个任务,构建自 GPQA、MMLU-Pro、HLE、BFCL 和 SWE-Bench Verified 等基准 。这有助于理解 GPT-5.5 的评估范围,但被引用来源没有提供 Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的同等 CoT-Control 结果,因此不能拿它做四者的横向排名
。
Comments
0 comments