下表的「—」代表引用資料沒有找到該模型在該項目的分數,並不代表分數是零。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 同 DeepSeek-V4-Pro-Max 多數來自同一個共享比較;Kimi K2.6 則來自 Kimi 相關發布與模型卡資料 。
OpenAI 形容 GPT-5.5 是為複雜任務而設,例如 coding、research 同 data analysis 。在 VentureBeat 的共享比較中,GPT-5.5 於 Terminal-Bench 2.0 得 82.7%,高過 Claude Opus 4.7 的 69.4% 同 DeepSeek-V4-Pro-Max 的 67.9%
。同一表格亦列出 GPT-5.5 在 GPQA Diamond 得 93.6%、SWE-Bench Pro 得 58.6%、BrowseComp 得 84.4%
。
要小心的是,GPT-5.5 Pro 是另一個比較點。同一共享表格中,GPT-5.5 Pro 在 BrowseComp 達 90.1%,Humanity’s Last Exam with tools 達 57.2%;但這些分數不應直接併入基本版 GPT-5.5,尤其當你要比較成本、延遲或模型設定時 。
採購角度上,BenchLM 列出 GPT-5.5 有 1M-token context window;另有價格報告列 GPT-5.5 為每百萬 input tokens $5、每百萬 output tokens $30 。這些價格只宜當作訊號,落 budget 前仍要核對供應商即時價格。
Claude Opus 4.7 在這組模型入面,軟件修復相關訊號最突出。LLM Stats 列出它在 SWE-Bench Verified 得 87.6%,共享比較則列出它在 SWE-Bench Pro 得 64.3% 。它亦在共享比較中領先 GPQA Diamond,分數 94.2%;Humanity’s Last Exam without tools 為 46.9%;MCP Atlas 為 79.1%
。
LLM Stats 報告 Claude Opus 4.7 有 1M-token context window,價格為每百萬 token $5/$25 。不過,可比性要打個折扣:Anthropic 說明部分 benchmark 使用內部實作或更新後的 harness parameters,部分分數不能直接同公開 leaderboard 分數比較
。
如果你想要開放權重,Kimi K2.6 是本文引用材料中最清楚的候選。發布報道描述它是開放權重 1T 參數 MoE 模型,有 32B active parameters、384 experts、native multimodality、INT4 quantization 及 256K context 。Hugging Face 模型卡列出它在 SWE-Bench Verified 得 80.2%、SWE-Bench Pro 得 58.6%、Terminal-Bench 2.0 得 66.7%,LiveCodeBench v6 為 89.6
。
同一發布報道亦列出 Kimi K2.6 在 Humanity’s Last Exam with tools 得 54.0,在 BrowseComp 得 83.2 。LLM Stats 列 Kimi K2.6 為 262K context,價格欄為 $0.95/$4.00,並標示 Open Source
。限制是,Kimi 的數字不是同 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 完全同一張共享表格得來;所以細微分差應視為「值得測試」的提示,而不是板上釘釘的勝負
。
DeepSeek-V4-Pro-Max 更像是「性價比候選」,而不是明顯全能冠軍。LLM Stats 列出它的 size 為 1.6T、context 為 1M、SWE-Bench Verified 為 80.6%,成本欄為 $1.74/$3.48 。共享比較中,它在 GPQA Diamond 得 90.1%、Humanity’s Last Exam without tools 得 37.7%、Humanity’s Last Exam with tools 得 48.2%、Terminal-Bench 2.0 得 67.9%、SWE-Bench Pro 得 55.4%、BrowseComp 得 83.4%、MCP Atlas 得 73.6%
。
這些數字令 DeepSeek-V4-Pro-Max 很值得放入成本敏感場景測試。不過,同一共享表格中,多數 benchmark 行仍由 GPT-5.5、GPT-5.5 Pro 或 Claude Opus 4.7 領先;所以若要用它取代 premium model,應先用你自己的任務驗證 。
不同來源未必用同一方法報價,context window 亦未必由同一個供應商頁面提供。以下只應當作採購前的訊號,不是最終報價。
因為每個 benchmark 測的能力唔一樣。GPQA Diamond 同 Humanity’s Last Exam 偏向硬推理;Terminal-Bench 2.0 同 SWE-Bench 系列偏向編程、agentic software work;BrowseComp 在共享比較中則衡量瀏覽式檢索表現 。一個模型可以在某項第一、另一項落後,未必矛盾,只是題型、工具權限同評測 harness 不同。
即使 benchmark 名稱相同,實作都可能有差異。LLM Stats 列 Claude Opus 4.7 在 SWE-Bench Verified 得 87.6%;LMCouncil 在其設定下則列 Claude Opus 4.7 為 83.5% ± 1.7 。Anthropic 亦說明部分結果使用內部實作或更新後 harness parameters,限制了同公開 leaderboard 直接比較的可能
。
因此,一兩個百分點的差距,不應單獨決定 production rollout。公開 benchmark 最適合用來收窄 shortlist;最後決定,應該由你自己的測試集來做。
在真正轉用某個模型前,最好用你實際會用的任務,測試頭兩至三個候選。
如果你想先挑最高端候選,應該把 GPT-5.5 同 Claude Opus 4.7 放在一起測:GPT-5.5 有本文引用中最強的 Terminal-Bench 2.0 成績;Claude Opus 4.7 則在引用的 SWE-Bench Pro 同 SWE-Bench Verified 成績最突出 。如果你需要開放權重,先看 Kimi K2.6
。如果成本是最大限制,就把 DeepSeek-V4-Pro-Max 放入 shortlist,但不要未測就當它可以無縫取代 premium options
。
Comments
0 comments