如果你只問「邊個模型最勁」,答案其實唔夠用。GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6 呢四個模型,公開 benchmark 的推論設定、評估時間、第三方整理或供應商自報方式都唔完全一樣;硬砌成一條總排名,好容易睇錯重點。[4][
18]
本文會將 DeepSeek 主要放在有明確公開數字的 DeepSeek V4 Pro(Reasoning, Max Effort)去比較。Artificial Analysis 的開放模型表同時列出 Kimi K2.6 同 DeepSeek V4 Pro 的 Intelligence、上下文長度、Price 欄同輸出速度,較適合做同類型參考。[23]
一句講晒:按用途揀,唔好迷信總榜
| 用途 | 第一候選 | 點解 |
|---|---|---|
| 總合性能、具經濟價值任務 | GPT-5.5 | GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59;GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785。[ |
| 深推理、審閱、專業判斷 | Claude Opus 4.7 | LLM Stats 整理共通 10 個 benchmark,Claude Opus 4.7 以 6 勝 4 負領先 GPT-5.5。[ |
| 終端機操作、瀏覽、長時間工具使用 | GPT-5.5 | LLM Stats 指 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。[ |
| 開放權重取向,重視速度同性價比 | Kimi K2.6 | Artificial Analysis 開放模型表列 Kimi K2.6 為 Intelligence 54、256k context、Price 欄 $1.7、112 tokens/s。[ |
| 長上下文、大量處理、低 API 價 | DeepSeek V4 Pro/DeepSeek V4 系 | Artificial Analysis 列 DeepSeek V4 Pro 為 1M context;Mashable 報道 DeepSeek V4 API 價格低於 GPT-5.5 同 Claude Opus 4.7。[ |
四個模型的主要訊號
| 模型 | Benchmark 上見到的強項 | 價格同運作上的特點 |
|---|---|---|
| GPT-5.5 | GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59;GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785,據報較 Claude Opus 4.7 max 高約 30 分。[ | Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $30。[ |
| Claude Opus 4.7 | LLM Stats 的共通 10 benchmark 整理為 6 勝 4 負;Mashable 表中 Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。[ | Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $25。[ |
| Kimi K2.6 | Artificial Analysis 開放模型表列 Intelligence 54;The Decoder 引述 Moonshot AI 發表值,指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。[ | Artificial Analysis 同一表列 256k context、Price 欄 $1.7、112 tokens/s。[ |
| DeepSeek V4 Pro | Artificial Analysis 開放模型表列 Intelligence 52;DataCamp 整理指 DeepSeek V4 在純能力上並未超越 GPT-5.5 或 Claude Opus 4.7。[ | Artificial Analysis 同一表列 1M context、Price 欄 $2.2、36 tokens/s;Mashable 報道 DeepSeek V4 API 價為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48。[ |
GPT-5.5 vs Claude Opus 4.7:前沿模型唔係一刀切
GPT-5.5 同 Claude Opus 4.7 的勝負,會隨 benchmark 類型轉。Mashable 報道的主要數字顯示,Claude Opus 4.7 在 SWE-Bench Pro 同 GPQA Diamond 較高;GPT-5.5 則在 Terminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verified 較高。[9]
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Mashable 表中領先者 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 |
| Humanity's Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity's Last Exam with tools | 52.2% | 54.7% | Claude Opus 4.7 |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 |
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 |
| ARC-AGI-1 Verified | 94.5% | 92.0% | GPT-5.5 |
另一邊,LLM Stats 將兩者共通 10 個 benchmark 整理後,指 Claude Opus 4.7 領先 6 個、GPT-5.5 領先 4 個。它的解讀係:Opus 4.7 較強在推理同審閱類測試,GPT-5.5 較強在長時間工具使用類測試。[4]
不過,呢度要留神。LLM Stats 亦提醒,相關分數來自各供應商高推理層級的自報結果,形式上可以比較,但方法論未必完全一致。[4] 例如 Humanity's Last Exam 相關項目,在不同來源下睇到的領先方向亦可能有差異。[
4][
9]
Kimi K2.6 vs DeepSeek V4 Pro:開放權重取向,要速度定上下文?
Kimi K2.6 同 DeepSeek V4 Pro,與其硬同封閉前沿模型鬥總分,不如當成開放權重取向的部署候選去睇。Artificial Analysis 開放模型表的主要操作數字如下。[23]
| 指標 | Kimi K2.6 | DeepSeek V4 Pro |
|---|---|---|
| Artificial Analysis Intelligence | 54 | 52 |
| Context window | 256k | 1.00M |
| Price 欄 | $1.7 | $2.2 |
| Output speed | 112 tokens/s | 36 tokens/s |
單睇呢張表,Kimi K2.6 在 Intelligence 同輸出速度較着數;DeepSeek V4 Pro 則勝在 1M context。[23] The Decoder 亦引述 Moonshot AI 發表值,指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。[
20]
但 Kimi K2.6 的公開實驗唔等於同 GPT-5.5、Claude Opus 4.7 做完全同條件對決。Hugging Face 模型卡列明,Kimi K2.6 以 thinking mode、temperature 1.0、top-p 1.0、262,144 tokens 上下文長度等條件評估;主要比較對象亦係 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。[18]
DeepSeek V4 Pro 更似係用長上下文同成本去打市場,而唔係以絕對能力稱王。DataCamp 整理指,DeepSeek V4 在純能力上未能超越 GPT-5.5 或 Claude Opus 4.7,但定位係用較低成本提供 near-frontier 表現。[16]
睇價錢:唔好將幾種數字撈埋一齊
比較價格時,最少要分清三種數字。
第一種係 API token 單價。Mashable 報道,DeepSeek V4 為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48;GPT-5.5 為 $5/$30;Claude Opus 4.7 為 $5/$25。[3]
第二種係 Artificial Analysis 模型表的 Price 欄。Kimi K2.6 顯示為 $1.7,DeepSeek V4 Pro 為 $2.2;但呢個欄位唔應該直接當成 Mashable 的 API token 單價去比較。[23]
第三種係跑 benchmark 的實際成本。Artificial Analysis 文章指,跑 Intelligence Index 時 DeepSeek V4 Pro 成本為 $1,071,Kimi K2.6 為 $948,Claude Opus 4.7 為 $4,811。[2]
所以,話「DeepSeek 平」、「Kimi 抵」、「Claude 貴」之前,要先講清楚你講緊 API 單價、benchmark 成本,定係實際產品入面連同輸出 token 量、重試次數同 latency 一齊計的總成本。[2][
3][
23]
安全性同可信度:唔可以用能力分數完全代替
Claude Opus 4.7 方面,Mashable 報道 Anthropic 的說法,指其 honesty rate 為 92%,並且較少 sycophancy,即較少過度迎合用戶。[15] Anthropic 自身發表亦指,Claude Opus 4.7 在內部 research-agent benchmark 六個模組合計 0.715,並列最高;在 General Finance 模組由 Opus 4.6 的 0.767 提升至 0.813。[
17]
但呢些同 SWE-Bench Pro、GPQA Diamond、BrowseComp 呢類能力 benchmark 唔係同一條軸。實際落地時,應該分開睇能力分數、成本、速度、幻覺風險、審計同追溯容易度。[15][
17]
真正上 production:多數唔係一個模型打晒
如果係真實產品或工程流程,與其固定一個模型處理所有任務,更現實係做 routing:簡單、標準、成本敏感的任務交畀一個模型;高風險、高推理負荷的任務交畀另一個模型。
MindStudio 的編程比較指,GPT-5.5 在相同 coding tasks 上比 Claude Opus 4.7 少用 72% output tokens;但對於大型 codebase 入面複雜、推理要求高的任務,Opus 4.7 的詳盡程度可能足以抵消較高成本。[28]
實務上,一個合理起步方法係:標準生成、修正、終端機或工具型任務先試 GPT-5.5;深度 review、專業判斷或高風險推理先試 Claude Opus 4.7;想做開放權重試驗同高速 agent pipeline 先試 Kimi K2.6;長上下文、大量文件或成本敏感 API 工作則先試 DeepSeek V4 Pro/DeepSeek V4 系。[3][
4][
23][
28]
最終判斷
以現有公開資料睇,GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6 無一個可以穩陣講成所有用途的單一勝者。GPT-5.5 強在總合同經濟價值任務,Claude Opus 4.7 強在推理同審閱,Kimi K2.6 強在開放權重取向的速度同性價比,DeepSeek V4 Pro 則強在長上下文同 DeepSeek V4 系低 API 價。[3][
4][
23][
26][
27]
另外,就算同樣係 Artificial Analysis,亦有 GPT-5.5 high 模型頁顯示 Intelligence 59,而另一個模型列表頁則顯示 Claude Opus 4.7 Adaptive Reasoning, Max Effort 以 Intelligence 57 排首位;頁面更新時間、納入模型範圍同推理設定都會影響觀感。[27][
30]
最穩陣做法係:將 benchmark 當起點,而唔係終點。最後應該用自己團隊的真實任務、小批量流量、預算、latency 要求同失敗容忍度,並行測試幾個候選模型,再決定 routing 規則。[4][
18][
28]




