DeepSeek V4 的看点是价格性能比。 VentureBeat 给出的 BrowseComp 数字显示,DeepSeek V4 为 83.4%,只比 GPT-5.5 的 84.4% 低 1.0 个百分点,并高于 Claude Opus 4.7 的 79.3% 。Mashable 同时列出 DeepSeek V4 的 API 价格为每 100 万输入 token 1.74 美元、每 100 万输出 token 3.48 美元,低于 GPT-5.5 的 5/30 美元和 Claude Opus 4.7 的 5/25 美元
。
Kimi K2.6 技术上值得关注,但这组资料不足以排名。 DocsBot 将 Kimi K2.6 描述为 Moonshot AI 的开源、原生多模态、Agentic 模型,采用 1T 参数 MoE 架构、32B 激活参数和 256K 上下文 。但这里缺少足够的、与 GPT-5.5、Claude Opus 4.7、DeepSeek V4 直接对照的基准数值
。
最大的限制来自数据口径。DataCamp 在相关前沿模型对比中提醒,一些基准分数可能是厂商报告,测试 harness,也就是运行脚本和配置,也可能不同 。这意味着,一个模型在某个配置下领先,不代表换一个测试环境仍然领先。
模型变体也会影响结果。Artificial Analysis 提到的是 GPT-5.5 xhigh、GPT-5.5 high,以及带 Adaptive Reasoning 和 Max Effort 的 Claude Opus 4.7 。VentureBeat 引用 DeepSeek 时涉及 DeepSeek-V4-Pro-Max
。对推理、代码和 Agent 任务来说,是否使用工具、推理强度、上下文管理和测试流程都可能改变分数。
所以,更实际的问题是:你的工作负载是哪一种?
在可引用的 Artificial Analysis Intelligence Index 片段中,GPT-5.5 xhigh 以 60 分排第一,GPT-5.5 high 以 59 分排第二,Claude Opus 4.7 以 57 分排第三 。这支持了一个相对谨慎的判断:在这一综合指数片段中,GPT-5.5 对 Claude Opus 4.7 有轻微但明确的领先
。
BrowseComp 是这组资料里最清晰的三方对比之一。VentureBeat 给出的数字是:GPT-5.5 Pro 为 90.1%,GPT-5.5 为 84.4%,DeepSeek V4 为 83.4%,Claude Opus 4.7 为 79.3% 。
| 模型或变体 | BrowseComp | 解读 |
|---|---|---|
| GPT-5.5 Pro | 90.1% | 在这组数字中明显领先 |
| GPT-5.5 | 84.4% | 略高于 DeepSeek V4 |
| DeepSeek V4 | 83.4% | 只落后 GPT-5.5 1.0 个百分点 |
| Claude Opus 4.7 | 79.3% | 低于 GPT-5.5 和 DeepSeek V4 |
| Kimi K2.6 | 未见直接可比数值 | 不能公平排名 |
但 VentureBeat 也指出,DeepSeek-V4-Pro-Max 在可直接比较的基准上并没有整体取代 GPT-5.5 或 Claude Opus 4.7 。更稳妥的结论是:DeepSeek V4 在 BrowseComp 上非常接近 GPT-5.5,但不能只凭这一项就宣布总冠军
。
代码类测试没有绝对赢家。Claude Opus 4.7 在 SWE-Bench Pro 中为 64.3%,高于 GPT-5.5 的 58.6% 。Vellum 还列出 Claude Opus 4.7 在 SWE-Bench Verified 上为 87.6%
。但在 Terminal-Bench 2.0 中,GPT-5.5 为 82.7%,明显高于 Claude Opus 4.7 的 69.4%
。
| 基准 | GPT-5.5 | Claude Opus 4.7 | 结果 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude 领先 |
| SWE-Bench Verified | 未见可直接引用的 GPT-5.5 数值 | 87.6% | Claude 数值很强,但不是完整四方对比 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 明显领先 |
DeepSeek V4 和 Kimi K2.6 在这部分缺少同等清晰的直接对照表。VentureBeat 提到 DeepSeek V4 在若干可比较基准上接近领先模型,但可直接摘出的最明确数字仍是 BrowseComp 。DocsBot 对 Kimi K2.6 主要提供架构与能力描述,而不是完整的四模型代码基准矩阵
。
在知识与推理类测试中,GPT-5.5 和 Claude Opus 4.7 很接近,谁领先取决于测试内容和工具设置。GPQA Diamond 中,GPT-5.5 为 93.6%,Claude Opus 4.7 为 94.2% 。Humanity’s Last Exam 中,不使用工具时 GPT-5.5 为 40.6%,Claude Opus 4.7 为 31.2%;使用工具时,Claude Opus 4.7 为 54.7%,略高于 GPT-5.5 的 52.2%
。
| 基准 | GPT-5.5 | Claude Opus 4.7 | 已知领先者 |
|---|---|---|---|
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 略高 |
| Humanity’s Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity’s Last Exam,带工具 | 52.2% | 54.7% | Claude Opus 4.7 略高 |
专业和 Agentic 基准也呈现交错格局。Vellum 列出 GPT-5.5 在 GDPval 上为 84.9%,Claude Opus 4.7 为 80.3%;OSWorld-Verified 中 GPT-5.5 为 78.7%,Claude Opus 4.7 为 78.0%;MCP Atlas 中 GPT-5.5 为 75.3%,Claude Opus 4.7 为 79.1% 。OpenAI 列出的 FinanceAgent v1.1 中,GPT-5.5 为 60.0%,Claude Opus 4.7 为 64.4%
。
| 基准 | GPT-5.5 | Claude Opus 4.7 | 结果 |
|---|---|---|---|
| GDPval | 84.9% | 80.3% | GPT-5.5 领先 |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 略高 |
| MCP Atlas | 75.3% | 79.1% | Claude Opus 4.7 领先 |
| FinanceAgent v1.1 | 60.0% | 64.4% | Claude Opus 4.7 领先 |
Anthropic 还提到一项内部 research-agent 基准:Claude Opus 4.7 在六个模块中并列最高总分 0.715,并在 General Finance 模块中达到 0.813,高于 Opus 4.6 的 0.767 。由于这是内部基准,而且没有同等覆盖四个模型,更适合作为 Claude Agentic 能力的参考,而不是独立四方排名
。
真正落地使用时,贵一倍还是便宜一半,往往比单项分数差 1 个百分点更重要。Mashable 给出的价格显示,DeepSeek V4 为每 100 万输入 token 1.74 美元、每 100 万输出 token 3.48 美元,并标注 100 万 token 上下文窗口 。同一来源列出 GPT-5.5 为输入 5 美元、输出 30 美元,Claude Opus 4.7 为输入 5 美元、输出 25 美元,二者也标注 100 万 token 上下文窗口
。
| 模型 | 每 100 万输入 token 价格 | 每 100 万输出 token 价格 | 来源中的上下文信息 |
|---|---|---|---|
| DeepSeek V4 | 1.74 美元 | 3.48 美元 | 100 万 token |
| GPT-5.5 | 5 美元 | 30 美元 | 100 万 token |
| Claude Opus 4.7 | 5 美元 | 25 美元 | 100 万 token |
| Kimi K2.6 | 未见可靠价格 | 未见可靠价格 | 256K token |
Kimi K2.6 在这里属于另一类讨论。DocsBot 将其描述为开源、原生多模态、Agentic 模型,具备 1T 参数 MoE 架构、32B 激活参数、256K 上下文,并可扩展到 300 个子 Agent 和 4,000 个协同步骤 。这些是重要技术参数,但不能替代与 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的直接基准和价格对比
。
如果只看这组可用证据,GPT-5.5 是最稳的综合型选择:它领先可用的 Artificial Analysis 片段,在 BrowseComp 和多项专业评测中也表现强劲 。Claude Opus 4.7 仍然是顶级模型,尤其在 SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond 和部分金融 Agent 任务中很有竞争力
。DeepSeek V4 的最大亮点是性价比:BrowseComp 几乎追平 GPT-5.5,同时引用的 API 价格明显更低
。Kimi K2.6 则应保持开放但谨慎的态度:技术描述很吸引人,但这组资料不足以给它做严格排名
。
Comments
0 comments