比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro 與 Kimi K2.6,最容易犯的錯不是看錯數字,而是把不同來源、不同推理設定、不同時間點的數字硬塞進同一張總榜。公開基準常混有廠商自報與第三方整理,方法論也不一定完全一致;因此,這四個模型更適合用用途來分流,而不是只問誰第一。[4][
18]
本文以可查到明確數值的 DeepSeek V4 Pro(Reasoning, Max Effort)作為 DeepSeek 代表。Artificial Analysis 的開放模型表同列 Kimi K2.6 與 DeepSeek V4 Pro 的 Intelligence、上下文長度、Price 欄位與輸出速度,是目前較適合拿來看開放權重模型取捨的資料。[23]
先講結論:不同工作,第一候選不同
| 用途 | 優先考慮 | 為什麼 |
|---|---|---|
| 綜合能力、具經濟價值的任務 | GPT-5.5 | GPT-5.5 high 在 Artificial Analysis Intelligence Index 得分 59;GPT-5.5 xhigh 在 GDPval-AA 報告 Elo 1785,領先 Claude Opus 4.7 max 約 30 點。[ |
| 深度推理、審稿、專業判斷 | Claude Opus 4.7 | LLM Stats 整理共同 10 項基準時,Claude Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;優勢集中在推理與審查型任務。[ |
| 終端機操作、瀏覽、長時間工具使用 | GPT-5.5 | LLM Stats 指出 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。[ |
| 開放權重路線,重視速度與價格性能 | Kimi K2.6 | Artificial Analysis 開放模型表列出 Kimi K2.6:Intelligence 54、256k context、Price 欄位 $1.7、112 tokens/s。[ |
| 長上下文、大量處理、低 API 單價 | DeepSeek V4 Pro/DeepSeek V4 系列 | Artificial Analysis 顯示 DeepSeek V4 Pro 有 1M context;Mashable 報告 DeepSeek V4 的 API 單價低於 GPT-5.5 與 Claude Opus 4.7。[ |
四個模型的主要訊號
| 模型 | 基準測試看到的強項 | 價格與部署訊號 |
|---|---|---|
| GPT-5.5 | GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59;GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785,據報較 Claude Opus 4.7 max 高約 30 點。[ | Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $30。[ |
| Claude Opus 4.7 | LLM Stats 的共同 10 項基準整理為 6 勝 4 負;Mashable 表中 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。[ | Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $25。[ |
| Kimi K2.6 | Artificial Analysis 開放模型表中 Intelligence 為 54;The Decoder 轉述 Moonshot AI 發表值:HLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2。[ | Artificial Analysis 同表列出 256k context、Price 欄位 $1.7、112 tokens/s。[ |
| DeepSeek V4 Pro | Artificial Analysis 開放模型表中 Intelligence 為 52;DataCamp 整理稱 DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7。[ | Artificial Analysis 同表列出 1M context、Price 欄位 $2.2、36 tokens/s;Mashable 報告 DeepSeek V4 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48。[ |
GPT-5.5 對 Claude Opus 4.7:不是誰碾壓誰,而是題型不同
GPT-5.5 與 Claude Opus 4.7 都是前沿閉源模型,但勝負會隨基準測試而變。以 Mashable 報告的數字看,Claude Opus 4.7 在 SWE-Bench Pro 與 GPQA Diamond 領先;GPT-5.5 則在 Terminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verified 領先。[9]
| 基準測試 | GPT-5.5 | Claude Opus 4.7 | Mashable 表中領先者 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 |
| Humanity's Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity's Last Exam with tools | 52.2% | 54.7% | Claude Opus 4.7 |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 |
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 |
| ARC-AGI-1 Verified | 94.5% | 92.0% | GPT-5.5 |
LLM Stats 的歸納則是:在雙方都有回報的 10 項基準中,Claude Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;Opus 4.7 偏強於推理、審查與專業任務,GPT-5.5 偏強於長時間工具使用。[4]
但這裡要特別小心。LLM Stats 也提醒,這些分數多來自各供應商高推理層級的自報結果,形式上可以對照,方法論卻未必完全相同。[4] 甚至像 Humanity's Last Exam 這類項目,不同來源呈現出的領先方向也可能不同。[
4][
9]
Kimi K2.6 對 DeepSeek V4 Pro:開放權重要看速度還是上下文
Kimi K2.6 與 DeepSeek V4 Pro 不宜直接拿來和 GPT-5.5、Claude Opus 4.7 做單一總分競賽;更實際的角度,是把它們視為開放權重部署或實驗的候選。
| 指標 | Kimi K2.6 | DeepSeek V4 Pro |
|---|---|---|
| Artificial Analysis Intelligence | 54 | 52 |
| Context window | 256k | 1.00M |
| Price 欄位 | $1.7 | $2.2 |
| Output speed | 112 tokens/s | 36 tokens/s |
只看這張表,Kimi K2.6 在 Intelligence 與輸出速度上較有利;DeepSeek V4 Pro 的明顯優勢則是 1M context。[23] The Decoder 也轉述 Moonshot AI 發表值,稱 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。[
20]
不過,Kimi K2.6 的公開實驗並不是與 GPT-5.5、Claude Opus 4.7 完全同條件對打。Hugging Face 模型卡說明,Kimi K2.6 以 thinking mode、temperature 1.0、top-p 1.0、262,144 token 上下文長度等設定評估,主要比較對象也包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。[18]
DeepSeek V4 Pro 則更像是用長上下文與成本換取接近前沿模型能力的方案,而不是純性能冠軍。DataCamp 整理指出,DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7,但定位是以較低成本提供 near-frontier 性能。[16]
價格比較:API 單價、表格 Price、評測成本不能混著看
看價格時,至少要分清三種數字。
第一是 API token 單價。Mashable 報告 DeepSeek V4 為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48;GPT-5.5 為 $5/$30;Claude Opus 4.7 為 $5/$25。[3]
第二是 Artificial Analysis 模型表中的 Price 欄位。該表列出 Kimi K2.6 為 $1.7、DeepSeek V4 Pro 為 $2.2,但這不應直接等同於 Mashable 報告的 API token 單價。[23]
第三是跑完整個基準測試的成本。Artificial Analysis 文章指出,執行 Intelligence Index 的成本為 DeepSeek V4 Pro $1,071、Kimi K2.6 $948、Claude Opus 4.7 $4,811。[2]
所以,說 DeepSeek 便宜、Kimi 便宜或 Claude 昂貴之前,必須先確認自己比較的是 API 單價、基準測試執行成本,還是真實業務中包含輸出長度、重試、工具呼叫與延遲的總成本。[2][
3][
23]
安全性與可靠性是另一條軸線
Claude Opus 4.7 的安全與可靠性訊號值得另外看。Mashable 轉述 Anthropic 說法,稱 Claude Opus 4.7 有 92% honesty rate,且 sycophancy 較少。[15] Anthropic 自家發布也表示,Claude Opus 4.7 在內部 research-agent benchmark 的 6 個模組總分並列第一,達 0.715;在 General Finance 模組中,分數由 Opus 4.6 的 0.767 提升到 0.813。[
17]
但這些並不是 SWE-Bench Pro、GPQA Diamond、BrowseComp 那類能力基準。真正上線時,應把能力、成本、速度、幻覺風險、可稽核性分開評估。[15][
17]
實務建議:比起固定一個模型,路由更像正解
如果是生產環境,硬把所有任務交給同一個模型,通常不是最穩的做法。MindStudio 的程式任務比較指出,GPT-5.5 在相同 coding task 中比 Claude Opus 4.7 少用 72% 輸出 token;但對複雜、推理負荷高的大型程式碼庫,Opus 4.7 的細緻程度可能足以支撐較高成本。[28]
較務實的配置是:標準生成、修改、終端機與工具型任務先試 GPT-5.5;深度審查、專業判斷與高風險推理交給 Claude Opus 4.7;開放權重與低成本實驗測 Kimi K2.6;長上下文、大量文件或低 API 單價需求則測 DeepSeek V4 Pro。[3][
4][
23][
28]
最終判斷
目前公開資料更支持用途分流,而不是宣布單一總冠軍。GPT-5.5 的亮點在綜合能力與經濟價值任務;Claude Opus 4.7 適合推理、審稿與專業判斷;Kimi K2.6 是開放權重路線中速度與價格性能突出的選項;DeepSeek V4 Pro 則以長上下文與 DeepSeek V4 系列較低 API 單價吸引人。[3][
4][
23][
26][
27]
還要注意,Artificial Analysis 內部不同頁面也會因更新時間與推理設定而呈現不同畫面:GPT-5.5 high 模型頁列出 Intelligence 59;另一個模型列表頁則顯示 Claude Opus 4.7 Adaptive Reasoning, Max Effort 以 Intelligence 57 位居第一。[27][
30] 因此,基準測試適合作為篩選起點;最後仍應用自己的真實任務、預算、延遲要求與失敗容忍度,做小規模並行測試。[
4][
18][
28]




