表中的「未提供」是指對應來源沒有列出該數值,不代表模型得分為零。
在 GPQA Diamond,Claude Opus 4.7 與 GPT-5.5 的差距很小:94.2% 對 93.6%,DeepSeek-V4-Pro-Max 則為 90.1% 。但在 Humanity’s Last Exam 無工具情境,Claude 的優勢更明顯:46.9%,高於 GPT-5.5 的 41.4%、GPT-5.5 Pro 的 43.1%,以及 DeepSeek-V4-Pro-Max 的 37.7%
。
不過,只要允許使用工具,排序就改變了。HLE 搭配工具時,GPT-5.5 Pro 達 57.2%,Claude Opus 4.7 為 54.7%,GPT-5.5 為 52.2%,DeepSeek-V4-Pro-Max 為 48.2% 。因此較精準的說法是:Claude 在純推理較突出;GPT-5.5 Pro 在工具輔助推理的這條測試線上領先
。
這組數據中,GPT-5.5 最明顯的勝點是 Terminal-Bench 2.0:82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% 。Kimi K2.6 的 Hugging Face 模型卡列出 Terminal-Bench 2.0 為 66.7;LLM Stats 的獨立榜單也列出 Kimi K2.6 為 0.667、Claude Opus 4.7 為 0.694
。這代表 Kimi 在這條線上接近 Claude 與 DeepSeek,但仍明顯低於 GPT-5.5 的主要比較表結果
。
SWE-Bench Pro / SWE Pro 的局面不同:Claude Opus 4.7 以 64.3% 領先,GPT-5.5 為 58.6%,DeepSeek-V4-Pro-Max 為 55.4% 。Kimi K2.6 的 Hugging Face 模型卡也列出 SWE-Bench Pro 58.6,但它不是同一個共同比較表的同場測試,因此只能作為參考,不宜直接判定並列
。
至於 SWE-Bench Verified,更不適合硬排四者名次。Kimi K2.6 有模型卡與 eval 檔列出的 80.2 ;另一篇 DeepSeek V4 介紹則列出 Claude Opus 4.7 為 87.6%、DeepSeek V4-Pro 為 80.6%,但這不是 DeepSeek-V4-Pro-Max,也沒有同時列出 GPT-5.5 的完整對照
。
GPT-5.5 最亮眼的是 Terminal-Bench 2.0:82.7%,是主要比較表中該列的最佳成績 。GPT-5.5 Pro 並非每一列都有數據,但在有列出的項目中很強:HLE 搭配工具為 57.2%,BrowseComp 為 90.1%,兩者都位居該表第一
。
Claude Opus 4.7 在主要比較表中拿下多個第一:GPQA Diamond 94.2%、HLE 無工具 46.9%、SWE-Bench Pro / SWE Pro 64.3%、MCP Atlas / MCPAtlas Public 79.1% 。它的弱點不是「不強」,而是特定場景被 GPT-5.5 系列超過:Terminal-Bench 2.0 落後 GPT-5.5,HLE 搭配工具與 BrowseComp 則落後 GPT-5.5 Pro
。
Kimi K2.6 不能與其他三者做嚴格同場排名,因為本文引用的 Kimi 數字來自 Hugging Face 模型卡與 eval 檔,而不是 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 所在的主要比較表 。
但作為 coding 候選,Kimi K2.6 很值得看:模型卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1 。此外,來源指出 K2.6 權重可在 Hugging Face 取得,並能透過 vLLM、SGLang 或 KTransformers 執行
。對需要自行部署、內部評測或在本地環境做實驗的團隊,這一點比單一榜單名次更有實務價值
。
主要比較表中的 DeepSeek 是 DeepSeek-V4-Pro-Max 。在該表列出的項目中,它沒有拿到第一:GPQA Diamond 90.1%、HLE 無工具 37.7%、HLE 搭配工具 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6%
。
DeepSeek V4 在這組資料中的強項不是絕對領先,而是價格。Mashable 與 DataCamp 列出的 API 價格為:DeepSeek V4 每 100 萬 input tokens 1.74 美元、每 100 萬 output tokens 3.48 美元;GPT-5.5 為 5/30 美元,Claude Opus 4.7 為 5/25 美元 。如果你的產品或工作流高度受成本限制,DeepSeek V4 值得放進自己的 eval;但不能因此把它說成這份 benchmark 表的冠軍
。
Comments
0 comments