表中的破折號代表引用資料中沒有找到該模型的對應分數,不代表零分。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 與 DeepSeek-V4-Pro-Max 多數來自同一份共享比較;Kimi K2.6 的數字則來自 Kimi 相關來源 。
OpenAI 將 GPT-5.5 定位為面向複雜任務的模型,包括 coding、研究與資料分析 。在共享比較中,GPT-5.5 的 Terminal-Bench 2.0 為 82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9%
。同一表中,它也在 GPQA Diamond 拿到 93.6%、SWE-Bench Pro 拿到 58.6%、BrowseComp 拿到 84.4%
。
要注意的是,GPT-5.5 Pro 是另一個比較點。共享表中,GPT-5.5 Pro 的 BrowseComp 為 90.1%,Humanity’s Last Exam with tools 為 57.2%;這些分數不應直接併入基本版 GPT-5.5,特別是在比較成本、延遲或推理設定時 。
採購面可以把資料當成訊號而非報價:BenchLM 列出 GPT-5.5 具 100 萬 token context window;另有價格報導列出 GPT-5.5 為每百萬 input token $5、每百萬 output token $30 。正式編列預算前,仍應以供應商即時價格為準。
Claude Opus 4.7 在這組模型中的軟體修復訊號最強。LLM Stats 列出它在 SWE-Bench Verified 達 87.6%,共享比較則列出它在 SWE-Bench Pro 達 64.3% 。同一共享比較中,它也在 GPQA Diamond 達 94.2%、Humanity’s Last Exam no tools 達 46.9%、MCP Atlas 達 79.1%,均為該表領先結果
。
LLM Stats 另列出 Claude Opus 4.7 具 100 萬 token context window,價格為每百萬 token $5/$25 。不過,可比性仍要小心:Anthropic 說明部分 benchmark 使用內部實作或更新後的 harness 參數,有些分數不能與公開排行榜直接比較
。
Kimi K2.6 是引用資料中最清楚的開放權重選項。發布報導描述它為開放權重 1T 參數 MoE 模型,具 32B active parameters、384 experts、原生多模態、INT4 quantization 與 256K context window 。其 Hugging Face 模型卡列出 SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7%,以及 LiveCodeBench v6 89.6
。
同一發布報導還列出 Kimi K2.6 在 Humanity’s Last Exam with tools 為 54.0,BrowseComp 為 83.2 。LLM Stats 則列出 Kimi K2.6 具 262K context、價格欄位為 $0.95/$4.00,並標示為 Open Source
。限制在於:Kimi 的分數不是來自 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 那張同場表,所以接近的分差最好視為測試線索,而非定案勝負
。
DeepSeek-V4-Pro-Max 更像是性價比候選,而不是全面基準冠軍。LLM Stats 列出它的 size 為 1.6T、context 為 100 萬 token、SWE-Bench Verified 為 80.6%,成本欄位為 $1.74/$3.48 。在共享比較中,它的 GPQA Diamond 為 90.1%、Humanity’s Last Exam no tools 為 37.7%、Humanity’s Last Exam with tools 為 48.2%、Terminal-Bench 2.0 為 67.9%、SWE-Bench Pro 為 55.4%、BrowseComp 為 83.4%、MCP Atlas 為 73.6%
。
這些數字代表 DeepSeek-V4-Pro-Max 很值得放進成本敏感工作負載的候選名單。但同一共享表中,多數列仍由 GPT-5.5、GPT-5.5 Pro 或 Claude Opus 4.7 領先;若要把它用來替代高價模型,最好先用自己的任務驗證品質、穩定性與失敗型態 。
價格與 context window 不一定由同一來源或同一供應商報告,下表適合做初步篩選,不適合當最終報價。
不同 benchmark 測的是不同能力。GPQA Diamond 與 Humanity’s Last Exam 偏向高難推理;Terminal-Bench 2.0 與 SWE-Bench 系列偏向 coding 與代理式軟體工程;BrowseComp 則在共享比較中衡量瀏覽與檢索風格的表現 。一個模型在某列領先、另一列落後,並不矛盾。
就算名稱相同,benchmark 也可能因實作而不同。LLM Stats 列出 Claude Opus 4.7 的 SWE-Bench Verified 為 87.6%,LMCouncil 則在其設定下列為 83.5% ± 1.7 。Anthropic 也說明部分結果使用內部實作或更新後 harness 參數,限制了與公開排行榜的直接可比性
。
所以,一兩個百分點的差距不應單獨決定正式上線。公開基準測試適合幫你縮小候選名單;真正的採用決策,仍應看自己的任務。
正式導入前,建議把前兩到三個候選模型放到同一套內部測試裡。
如果你要高階閉源模型的短名單,先把 GPT-5.5 與 Claude Opus 4.7 並排測:GPT-5.5 在引用資料中擁有最強 Terminal-Bench 2.0 結果,Claude Opus 4.7 則在 SWE-Bench Pro 與 SWE-Bench Verified 訊號最強 。如果你需要開放權重,先看 Kimi K2.6
。如果成本是硬限制,把 DeepSeek-V4-Pro-Max 放進評估,但不要只因價格就把它視為高價模型的即插即用替代品;先用你的任務驗證
。
Comments
0 comments