| Anthropic 称 Opus 4.7 在内部研究代理基准中总体分数为 0.715,并在 General Finance 模块达到 0.813,高于 Opus 4.6 的 0.767。 |
| 高吞吐、预算敏感、希望接近前沿能力但压低单价 | DeepSeek V4 | Mashable 汇总 DeepSeek V4 API 价格为每百万输入 token 1.74 美元、输出 token 3.48 美元,低于同表的 GPT-5.5 和 Claude Opus 4.7。 |
| 开权重生态、图像/视频输入、256K 长上下文 | Kimi K2.6 | Artificial Analysis 称 Kimi K2.6 为新的领先开权重模型,并称其支持图像、视频输入和 256K 最大上下文。 |
目前公开资料没有提供一个同时覆盖四个模型、同一评测方、同一时间、同一推理预算、同一工具权限的完整横向评测。可用证据来自厂商发布页、第三方榜单、媒体汇总、API 文档、模型路由页和个人实测,口径并不完全一致。
这会直接影响排名。Artificial Analysis 区分 GPT-5.5 xHigh、GPT-5.5 High 和 Claude Opus 4.7 Adaptive Reasoning Max Effort;OpenAI API 文档也列出 GPT-5.5 支持 none、low、medium、high、xhigh 等 reasoning effort。 因此,一个模型在某个公开榜单领先,并不自动代表它在你的提示词、工具链、延迟预算和复核流程中也领先。
OpenAI 发布页显示 GPT-5.5 与 GPT-5.5 Pro 已在 2026 年 4 月 24 日更新为可用;OpenAI API 文档将 gpt-5.5 描述为面向编码和专业工作的模型,并列出 1M 上下文、128K 最大输出、函数调用、网页搜索、文件搜索和计算机使用等能力。
从公开基准看,GPT-5.5 最适合当作高性能基线。Artificial Analysis 的综合榜单给 GPT-5.5 xHigh 60、High 59;VentureBeat 汇总显示 GPT-5.5 在 Terminal-Bench 2.0 为 82.7%,高于 Claude Opus 4.7 的 69.4% 和 DeepSeek V4 的 67.9%。
它的主要代价是价格。OpenAI API 文档列出 GPT-5.5 为每百万输入 token 5 美元、每百万输出 token 30 美元;如果你的任务包含长报告、多轮代理循环或大量输出,输出 token 成本会成为关键变量。
Claude Opus 4.7 的公开定位更偏向长程、多步和严谨输出。Anthropic 称它在内部研究代理基准中 tied for the top overall score,分数为 0.715,并称其长上下文表现最一致;在 General Finance 模块中,Opus 4.7 为 0.813,高于 Opus 4.6 的 0.767。
在 VentureBeat 汇总的 Humanity’s Last Exam 中,Claude Opus 4.7 无工具分数为 46.9%,高于 GPT-5.5 的 41.4% 和 DeepSeek V4 的 37.7%;有工具时,Claude 为 54.7%,高于 GPT-5.5 base 的 52.2%,但低于 GPT-5.5 Pro 的 57.2%。
不过,Claude 并不是所有硬指标都压过 GPT-5.5。至少在 Terminal-Bench 2.0 中,GPT-5.5 的 82.7% 明显高于 Claude Opus 4.7 的 69.4%。 另有第三方资料称 Opus 4.7 在 SWE-bench Verified 为 82.4%,但这不是四模型同源横评,不能与 SWE-Bench Pro 或其他榜单直接混成一个总分。
DeepSeek V4 的核心卖点是价格。Mashable 汇总称 DeepSeek V4 API 为每百万输入 token 1.74 美元、输出 token 3.48 美元;同一汇总中,GPT-5.5 为 5/30 美元,Claude Opus 4.7 为 5/25 美元。
性能上,DeepSeek V4 接近前沿但没有在这些公开汇总中全面领先。VentureBeat 汇总显示,DeepSeek V4 在 HLE 无工具为 37.7%、有工具为 48.2%,低于 GPT-5.5、GPT-5.5 Pro 和 Claude Opus 4.7 的对应分数;在 Terminal-Bench 2.0 中,DeepSeek 的 67.9% 接近 Claude 的 69.4%,但低于 GPT-5.5 的 82.7%。
因此,DeepSeek V4 更适合作为成本敏感生产系统的第一轮候选,而不是无条件替代所有闭源前沿模型。真正的问题是:它在你的任务里是否达到可接受质量线,以及低单价是否足以抵消重试、人工复核和延迟成本。
Kimi K2.6 的看点是开权重、多模态和长上下文。Artificial Analysis 称其为新的领先开权重模型,并称它原生支持图像和视频输入、文本输出,最大上下文长度为 256K。 OpenRouter 页面则列出 Kimi K2.6 的 Artificial Analysis Intelligence 为 53.9、Coding 为 47.1、Agentic 为 66.0,并显示最大 token 为 256K、最大输出为 66K。
在网页研究类指标上,DocsBot 汇总显示 Kimi K2.6 的 BrowseComp 为 83.2%,GPT-5.5 为 84.4%。 这说明 Kimi 在该汇总中接近 GPT-5.5,但仍要注意:一些 Kimi K2.6 资料主要把它与 GPT-5.4、Claude Opus 4.6 比较,而不是与 GPT-5.5、Claude Opus 4.7、DeepSeek V4 做完整同源横评。
API 单价只是总成本的一部分。OpenAI 的 GPT-5.5 API 指南建议,在工具密集或长时间工作流中,应按准确率、token 消耗和端到端延迟与其他模型做基准测试;OpenAI 模型文档也显示 GPT-5.5 的 reasoning effort 可在 none 到 xhigh 之间调整。
公开基准适合缩小候选名单,但不能替代私有评测。一个合理的采购或技术选型流程,应至少记录四类指标:任务成功率、失败类型、端到端延迟、token 与重试成本。OpenAI 文档也明确建议,工具密集或长时间工作流要与其他模型比较准确率、token 消耗和端到端延迟。
个人实测可以作为补充信号,但不应当作标准排行榜。AkitaOnRails 的 2026 年 4 月编码测试中,Claude Opus 4.7 得分 97,GPT-5.5 xHigh Codex 得分 96,Kimi K2.6 得分 87,DeepSeek V4 Pro 得分 69;同一表还记录了估算成本,例如 Claude Opus 4.7 约 1.10 美元、GPT-5.5 xHigh Codex 约 10 美元、Kimi K2.6 约 0.30 美元、DeepSeek V4 Pro 约 0.50 美元。
如果任务更像长文档研究、金融资料处理、复杂多步分析或需要更强数据纪律,Claude Opus 4.7 应进入第一梯队。Anthropic 的内部研究代理数据和 VentureBeat 汇总的 HLE 数据都支持它在这些方向上的竞争力。
如果你需要开权重生态、多模态输入或 256K 上下文,Kimi K2.6 是当前公开资料中值得重点评估的候选之一;但它与 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的完整同源横评仍然不足。
Comments
0 comments