| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces 评级 | — | 3206 | — |
| SciCode | 53.5 | — | — |
| MCP-Mark | 60.8 | — | — |
DeepSeek 定价说明: 深度求索在2026年5月31日前开展了75%的发布促销活动,将Pro版本的价格降至$0.435/$0.87(输入/输出)。促销结束后的标准费率为$1.74/$3.48
。上表反映的是其促销期的价格,此价格后被永久化。
编程与智能体:各有千秋
这三款模型在SWE-Bench Verified上的表现难分伯仲(80.2-80.6区间)。千问3.7-Max在更复杂的Terminal-Bench 2.0(69.7分)和SWE-Pro(60.6分)上取得领先,证明其处理长程、复杂任务的能力。而DeepSeek V4 Pro Max在LiveCodeBench(93.5分)和Codeforces(3206评级)上称王,展示了其顶尖的“裸写”代码能力 。Kimi K2.6则在工具增强的智能体场景下最强,其在HLE with tools(工具增强版人类最后的考试)上取得54.0分的领先成绩
。
推理能力:数学还是带工具的搜索?
千问3.7-Max是“纯推理”的霸主,在HMMT数学竞赛(97.1%)和GPQA Diamond科研推理(92.4%)中得分最高 。DeepSeek V4 Pro Max紧随其后,略逊一筹。Kimi K2.6的策略不同,它在需要检索和多步骤工具调用的场景中表现最佳,如HLE-with-tools(54.0分)和DeepSearchQA(92.5 F1),这更像是一个配备了超级搜索引擎的推理专家
。
价格与价值:DeepSeek的“价格屠刀”
DeepSeek V4 Pro以每百万输出Token仅$0.87的价格,配合开放权重的策略,成为了性价比的无冕之王,非常适合有自部署需求或成本敏感的项目 。千问3.7-Max定价最贵,输出价格为$7.50,但阿里云提供了批处理和缓存折扣
。Kimi K2.6的$4.00输出价位于二者之间,但需注意其上下文窗口仅有256K,小于另外两家的1M
。
重要风险提示(NIST CAISI评估):
据NIST下属机构CAISI在2026年5月发布的一份评估报告显示,DeepSeek V4 Pro在独立的非公开基准测试中的表现,低于其自我报告的成绩,实际能力可能更接近约8个月前发布的GPT-5,而非同期发布的Claude Opus 4.6 。请注意,该评估报告的结论仅针对DeepSeek V4 Pro,并未在同等条件下评估千问3.7-Max和Kimi K2.6
。在选择模型时,不能完全只看厂商公布的基准跑分。
Comments
0 comments