| Humanity’s Last Exam,無工具 | 41.4% | 43.1% | 46.9% | 37.7% | — | Claude Opus 4.7 |
| Humanity’s Last Exam,有工具 | 52.2% | 57.2% | 54.7% | 48.2% | — | GPT-5.5 Pro |
| Terminal-Bench 2.0 | 82.7% | — | 69.4% | 67.9% | — | GPT-5.5 |
| SWE-Bench Pro / SWE Pro | 58.6% | — | 64.3% | 55.4% | LLM Stats 另列 0.59 | Claude Opus 4.7 |
| BrowseComp | 84.4% | 90.1% | 79.3% | 83.4% | DocsBot 另列 83.2% | GPT-5.5 Pro |
| MCP Atlas / MCPAtlas Public | 75.3% | — | 79.1% | 73.6% | — | Claude Opus 4.7 |
這張表也說明為什麼不能簡單宣布某個模型「全面勝出」。Claude Opus 4.7 在多個推理與軟體工程測試領先;GPT-5.5 Pro 在工具使用與瀏覽類測試突出;GPT-5.5 在終端機任務明顯領先;Kimi K2.6 則主要出現在 LLM Stats、DocsBot 等分開的比較頁,不能直接放進同一張完整排行榜 。
若任務是科學推理、專業知識問答或不能依賴外部工具的考題,Claude Opus 4.7 是目前資料裡最穩的首選。VentureBeat 的直接對照表顯示,Claude Opus 4.7 在 GPQA Diamond 達 94.2%,高於 GPT-5.5 的 93.6% 與 DeepSeek-V4-Pro-Max 的 90.1% 。
Humanity’s Last Exam 無工具版本也呈現同樣方向:Claude Opus 4.7 為 46.9%,GPT-5.5 Pro 為 43.1%,GPT-5.5 為 41.4%,DeepSeek-V4-Pro-Max 為 37.7% 。換句話說,如果你的任務不允許模型查資料、調工具,而是要靠模型本身的知識與推理,Claude Opus 4.7 的證據較強。
Kimi K2.6 在 GPQA 也不是沒有訊號。LLM Stats 列出 Kimi K2.6 的 GPQA 分數為 0.91,而 Claude Opus 4.7 與 GPT-5.5 在該榜單上都以四捨五入方式列為 0.94 。但這不是 VentureBeat 那張 GPQA Diamond 直接對照表,因此更適合作為參考訊號,而不是絕對排名
。
一旦 benchmark 允許模型使用工具,排名就會改變。Humanity’s Last Exam 有工具版本中,GPT-5.5 Pro 達 57.2%,高於 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2% 與 DeepSeek-V4-Pro-Max 的 48.2% 。
BrowseComp 也偏向 GPT-5.5 Pro:VentureBeat 表中 GPT-5.5 Pro 為 90.1%,GPT-5.5 為 84.4%,DeepSeek-V4-Pro-Max 為 83.4%,Claude Opus 4.7 為 79.3% 。DocsBot 另列 Kimi K2.6 在 BrowseComp 為 83.2%,但那是在 Kimi K2.6 與 DeepSeek-V4 Pro 的比較頁中出現,不是與 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 同場的完整矩陣
。
在 VentureBeat 的表中,GPT-5.5 在 Terminal-Bench 2.0 達 82.7%,明顯高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% 。如果你的主要場景是讓 AI 代理在 shell 裡跑指令、修錯、改 repo、執行多步驟自動化,這是 GPT-5.5 最清楚的一項優勢
。
VentureBeat 表中,Claude Opus 4.7 在 SWE-Bench Pro / SWE Pro 達 64.3%,高於 GPT-5.5 的 58.6% 與 DeepSeek-V4-Pro-Max 的 55.4% 。LLM Stats 也列出 Claude Opus 4.7 為 0.64、GPT-5.5 為 0.59、Kimi K2.6 為 0.59、DeepSeek-V4-Pro-Max 為 0.55
。
兩個來源的呈現方式不同,但方向一致:Claude Opus 4.7 在 SWE-Bench Pro 領先;GPT-5.5 與 Kimi K2.6 在 LLM Stats 上接近;DeepSeek-V4-Pro-Max 在引用數據中較低 。
DeepSeek-V4-Pro-Max 在 VentureBeat 的直接對照表中沒有拿下任何主要列第一:它在 GPQA Diamond 為 90.1%、HLE 無工具 37.7%、HLE 有工具 48.2%、Terminal-Bench 2.0 為 67.9%、SWE-Bench Pro 為 55.4%、BrowseComp 為 83.4%、MCP Atlas 為 73.6% 。
它真正吸引人的地方在成本/效能。VentureBeat 將 DeepSeek-V4 描述為接近最前沿水準,成本約為 Opus 4.7 與 GPT-5.5 的 1/6 。不過,Artificial Analysis 也指出 DeepSeek V4 Pro Max 在 AA-Omniscience 得到 -10,比 V3.2 Reasoning 的 -21 進步 11 分;同時,V4 Pro 與 V4 Flash 的幻覺率分別高達 94% 與 96%
。
這不代表可以直接推論 DeepSeek V4 一定是所有模型中最不可靠的,因為引用來源沒有提供 GPT-5.5、Claude Opus 4.7、Kimi K2.6 在同一 hallucination 指標上的可比數據 。比較安全的說法是:如果成本是核心限制,DeepSeek V4 值得納入候選;但在正式導入前,必須用自己的資料、流程與失敗案例做幻覺壓測
。
Kimi K2.6 是這次比較中最難直接排名的模型,原因不是沒有分數,而是缺少與 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Max 同一來源、同一設定、同一矩陣的完整對照 。
目前可引用的訊號包括:LLM Stats 列 Kimi K2.6 在 GPQA 為 0.91、SWE-Bench Pro 為 0.59 。DocsBot 則列 Kimi K2.6 在 AIME 2026 的 thinking mode 為 96.4%、APEX Agents 的 thinking mode 為 27.9%、BrowseComp 為 83.2%;同一頁也列 DeepSeek-V4 Pro 在 BrowseComp 為 83.4%
。
這些數字可以支持「Kimi K2.6 值得測」,但不足以支持「Kimi K2.6 全面勝出」或「Kimi K2.6 全面落後」。實務上,若你的任務接近它出現亮點的 benchmark,最合理的做法是把它放進內部測試名單,而不是直接拿外部零散分數下定論 。
第一,GPT-5.5 Pro 只在 VentureBeat 表中的部分列出現;沒有數字的地方不能自動假設它比較強或比較弱 。第二,Kimi K2.6 的資料主要來自 LLM Stats 與 DocsBot,並非與全部對手同場的完整對照
。
第三,OpenAI 的 GPT-5.5 system card 提到 CoT-Control 評估,包含超過 13,000 個由 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等基準構成的任務 。這有助於理解 GPT-5.5 的評估範圍,但引用來源沒有提供 Claude Opus 4.7、DeepSeek V4、Kimi K2.6 在同一 CoT-Control 測試上的對等結果,所以不能用它來做橫向排名
。
最簡短的結論是:Claude Opus 4.7 適合無工具推理與 SWE-Bench Pro;GPT-5.5 Pro 適合工具與瀏覽;GPT-5.5 適合終端機工作流;DeepSeek V4 適合成本敏感但能控管幻覺風險的場景;Kimi K2.6 則值得納入測試,但不宜只憑零散 benchmark 判定勝負 。
Comments
0 comments