| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench 多語言 | 78.3 | — | 76.7 |
| Terminal-Bench 2.0 | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces 競賽積分 | — | 3206 | — |
| MCP-Mark | 60.8 | — | — |
編碼解讀:DeepSeek V4 Pro Max 是純粹的「程式碼競賽王者」,LiveCodeBench 高達 93.5% 與 Codeforces 3206 分的表現堪稱怪獸級別。但若論及更貼近真實工作、結合終端機操作與多工具協作的「代理人」任務,Qwen3.7-Max 在多個 SWE-Bench 變體及終端機操作上略勝一籌。而 Kimi K2.6 則在難度最高的 SWE-Bench Pro 中展現強勁實力。
從純數學解題到博士級科學問答,這裡考驗的是模型「思考」的深度。
推理解讀:Qwen3.7-Max 在純推理,尤其是高階數學與科學問答(GPQA Diamond、HMMT)上拿下榜首。但 Kimi K2.6 證明了自己是「工具使用之王」,當任務允許調用外部資源時(HLE with tools),其分數遙遙領先,非常適合需要上網爬梳資訊、進行深度研究的情境。
這是最現實的一環。性能再強,若成本過高也難以在生產環境中大規模使用。以下價格主要基於各平台官方公告的標準費率。
DeepSeek 定價備註:DeepSeek 在2026年5月31日後,已將其先前的75折優惠轉為永久降價。因此,V4 Pro 的實際常態價格即為輸入 $0.435、輸出 $0.87 每百萬Token
。這讓它成為性價比極具破壞力的選擇。
追求極致編碼與性價比的開發者/新創團隊:
應優先考慮 DeepSeek V4 Pro。它以最低的價格提供世界頂尖的純程式碼生成能力(LiveCodeBench 93.5%),且具備開源權重,可自行部署,能有效規避API的長期成本。
專注複雜代理任務(Agentic AI)與企業級自動化的團隊:
Qwen3.7-Max 無疑是最佳選擇。它在終端機操作、多工具調用(MCP-Mark)、跨語言軟體工程等實戰測試中領先,是打造強力 AI 代理人的首選,雖然價格最高,但其穩定性與綜合智能指數(AA Index 56.6,全球第五)是重要的信心背書。
需要深度研究、資訊檢索與工具搭配的應用場景:
Kimi K2.6 是這方面的專家。它在「人類最後的考試(搭配工具)」中獲得壓倒性的54.0分,以及DeepSearchQA的高分,證明它非常擅長整合外部資源、進行多步驟的調查分析,是打造研究型 AI 的利器。
重要提醒(NIST CAISI 評估):美國國家標準暨技術研究院(NIST)旗下的 CAISI 在2026年5月的一份報告中指出,DeepSeek V4 Pro 自我報告的基準分數可能高估了其實際能力,其獨立評估表現較接近2025年8月發布的 GPT-5 水平
。這一點在評估 DeepSeek 的絕對性能時需要納入考量。
Comments
0 comments