睇 AI model benchmark,最容易中伏嘅位係一句「邊個最強」講晒。今次 GPT-5.5、Claude Opus 4.7、Kimi K2.6 同 DeepSeek V4,答案其實要按任務拆開睇。
最接近「同枱比較」嘅資料,覆蓋 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 同 DeepSeek-V4-Pro-Max;Kimi K2.6 嘅數字就要由 Hugging Face model card 同 eval 檔案補入,所以唔可以當成同一個 head-to-head 測試跑出嚟嘅結果 [6][
25][
37]。
仲有一個重要細節:共同表格入面嘅 DeepSeek 係 DeepSeek-V4-Pro-Max;另一個 SWE-Bench Verified 來源講嘅係 DeepSeek V4-Pro,兩者唔應該混為一談 [6][
15]。
如果你只想快手揀模型
- 複雜 reasoning、但唔用工具: 先試 Claude Opus 4.7。佢喺 GPQA Diamond 同 Humanity’s Last Exam(HLE)無工具版本都領先 [
6]。
- Terminal / agentic 任務: GPT-5.5 最突出。Terminal-Bench 2.0 有 82.7%,高過 Claude Opus 4.7 嘅 69.4% 同 DeepSeek-V4-Pro-Max 嘅 67.9% [
6]。
- 需要工具、瀏覽或外部操作嘅 reasoning: GPT-5.5 Pro 喺有資料嘅項目領先:HLE with tools 57.2%,BrowseComp 90.1% [
6]。
- Coding,加上想試可自行部署嘅權重: Kimi K2.6 要獨立評估。Hugging Face 卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、Terminal-Bench 2.0 66.7 [
25][
37];另有來源指 K2.6 權重喺 Hugging Face,可用 vLLM、SGLang 或 KTransformers 跑 [
7]。
- 成本比第一名更重要: DeepSeek V4 喺呢批 benchmark 行未攞第一,但公開價格係每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48;同源比較列出 GPT-5.5 為 $5/$30,Claude Opus 4.7 為 $5/$25 [
14][
19]。
Benchmark 總表
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | 目前可見領先者 |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | 未列 | 94.2% [ | DeepSeek-V4-Pro-Max 90.1% [ | 未列 | Claude Opus 4.7 [ |
| Humanity’s Last Exam,無工具 | 41.4% [ | 43.1% [ | 46.9% [ | DeepSeek-V4-Pro-Max 37.7% [ | 未列 | Claude Opus 4.7 [ |
| Humanity’s Last Exam,有工具 | 52.2% [ | 57.2% [ | 54.7% [ | DeepSeek-V4-Pro-Max 48.2% [ | 未列 | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82.7% [ | 未列 | 69.4% [ | DeepSeek-V4-Pro-Max 67.9% [ | 66.7 [ | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58.6% [ | 未列 | 64.3% [ | DeepSeek-V4-Pro-Max 55.4% [ | 58.6 [ | Claude Opus 4.7 [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | DeepSeek-V4-Pro-Max 83.4% [ | 未列 | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | 未列 | 79.1% [ | DeepSeek-V4-Pro-Max 73.6% [ | 未列 | Claude Opus 4.7 [ |
| SWE-Bench Verified | 未列 | 未列 | 87.6%,來自另一個比較 [ | DeepSeek V4-Pro 80.6%,不是 Pro-Max [ | 80.2 [ | 未有同一條共同比較線 [ |
「未列」意思係相關來源冇提供該格數字,唔代表模型得零分。
Reasoning:Claude 無工具較強,GPT-5.5 Pro 用工具反超
喺 GPQA Diamond,Claude Opus 4.7 同 GPT-5.5 差距好細:94.2% 對 93.6%;DeepSeek-V4-Pro-Max 則係 90.1% [6]。去到 Humanity’s Last Exam 無工具版本,Claude 優勢明顯啲:46.9%,對比 GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7% [
6]。
但一開放工具,排序就變。HLE with tools 入面,GPT-5.5 Pro 有 57.2%,Claude Opus 4.7 有 54.7%,GPT-5.5 有 52.2%,DeepSeek-V4-Pro-Max 有 48.2% [6]。所以比較準確嘅講法係:純 reasoning 先睇 Claude;工具增強型 reasoning 先睇 GPT-5.5 Pro [
6]。
Coding 同 agentic 任務:GPT-5.5 喺 Terminal-Bench 拉開距離
今次最搶眼嘅差距係 Terminal-Bench 2.0。GPT-5.5 做到 82.7%,明顯高過 Claude Opus 4.7 嘅 69.4% 同 DeepSeek-V4-Pro-Max 嘅 67.9% [6]。Kimi K2.6 嘅 model card 列出 Terminal-Bench 2.0 為 66.7;另一個 LLM Stats leaderboard 亦列 Kimi K2.6 為 0.667、Claude Opus 4.7 為 0.694 [
25][
33]。
SWE-Bench Pro / SWE Pro 就係另一幅圖:Claude Opus 4.7 以 64.3% 領先,GPT-5.5 為 58.6%,DeepSeek-V4-Pro-Max 為 55.4% [6]。Kimi K2.6 喺 Hugging Face 卡同樣列出 SWE-Bench Pro 58.6,但因為來源同測試批次唔係同一個共同表格,最好視為「值得測」而唔係直接判定同分 [
6][
25]。
SWE-Bench Verified 更加唔適合砌成四模型總排名。Kimi K2.6 有 80.2,來自 model card 同 eval 檔案 [25][
37];另一個 DeepSeek V4 來源列出 Claude Opus 4.7 為 87.6%、DeepSeek V4-Pro 為 80.6%,但嗰條比較唔係完整覆蓋 GPT-5.5,而且講嘅 DeepSeek 版本係 V4-Pro,唔係 V4-Pro-Max [
15]。
逐個模型點睇
GPT-5.5 / GPT-5.5 Pro
GPT-5.5 最大亮點係 Terminal-Bench 2.0:82.7%,係共同表格中呢一行嘅最高分 [6]。GPT-5.5 Pro 唔係每一行都有數字,但有列出嘅地方都好強:HLE with tools 57.2%,BrowseComp 90.1%,兩者都係該行最高 [
6]。
實務上,如果你做嘅係 terminal 入面多步執行、agent 操作、或者工程自動化任務,GPT-5.5 值得第一個試;如果任務要配合工具、搜尋或 browsing,GPT-5.5 Pro 會更有吸引力 [6]。
Claude Opus 4.7
Claude Opus 4.7 贏嘅範圍比較平均:GPQA Diamond 94.2%、HLE 無工具 46.9%、SWE-Bench Pro / SWE Pro 64.3%、MCP Atlas / MCPAtlas Public 79.1%,都係共同表格中該行第一 [6]。
不過,Claude 喺 Terminal-Bench 2.0 輸畀 GPT-5.5,喺 HLE with tools 同 BrowseComp 就輸畀 GPT-5.5 Pro [6]。所以如果你要揀一個「純推理」或者接近 SWE-Bench Pro 類 coding 任務嘅首選,Claude Opus 4.7 係好自然嘅候選;但做 terminal agent 或 browsing-heavy 任務,就唔一定係第一順位 [
6]。
Kimi K2.6
Kimi K2.6 最大問題唔係分數低,而係資料來源唔同:佢唔喺主要共同比較表入面,所以唔應該硬同 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 做一刀切排名 [6][
25][
37]。
但作為 coding 模型,Kimi K2.6 仍然值得留意。Hugging Face 卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1 [25][
37]。另外,有來源指 K2.6 權重喺 Hugging Face,可經 vLLM、SGLang 或 KTransformers 執行;對需要 self-hosted 或本地實驗嘅團隊,呢點係同純 API 模型好唔同嘅考慮 [
7]。
DeepSeek V4
共同表格入面嘅 DeepSeek 係 DeepSeek-V4-Pro-Max [6]。喺列出嘅行入面,佢未有攞第一:GPQA Diamond 90.1%、HLE 無工具 37.7%、HLE 有工具 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6% [
6]。
DeepSeek V4 呢輪較突出嘅位,反而係價格。Mashable 同 DataCamp 列出 DeepSeek V4 API 價格為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48;同一比較下,GPT-5.5 為 $5/$30,Claude Opus 4.7 為 $5/$25 [14][
19]。如果你嘅產品或內部流程對成本非常敏感,DeepSeek V4 值得放入自己 eval;但單睇呢張 benchmark 表,就唔應該話佢係總冠軍 [
6][
14][
19]。
比較時要記住嘅限制
- 冇一個測試同時完整覆蓋四個模型所有項目。 共同表格包括 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Max;Kimi K2.6 係由 Hugging Face model card 同 eval 檔案補入 [
6][
25][
37]。
- DeepSeek V4 有版本差異。 共同表格係 DeepSeek-V4-Pro-Max;SWE-Bench Verified 另一個數字就係 DeepSeek V4-Pro [
6][
15]。
- GPT-5.5 Pro 唔係每行都有資料。 共同表格只喺部分 benchmark 列出 Pro,所以唔可以將佢喺 HLE with tools 或 BrowseComp 嘅優勢自動外推到全部測試 [
6]。
- Kimi K2.6 最好自己跑 eval。 佢嘅 Hugging Face 數字有參考價值,但同 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 唔係同一張共同表格直接比較 [
6][
25][
37]。
總結
如果只睇共同表格,Claude Opus 4.7 贏 GPQA Diamond、HLE 無工具、SWE-Bench Pro 同 MCP Atlas;GPT-5.5 贏 Terminal-Bench 2.0;GPT-5.5 Pro 贏 HLE 有工具同 BrowseComp [6]。
Kimi K2.6 係一個好值得 coding 團隊測試嘅候選,尤其係你重視可用權重、自行部署或本地實驗;但佢唔應該被當成已經同其他三個模型完成同場直跑 [7][
25][
37]。DeepSeek V4 喺呢批 benchmark 未係第一,但憑較低公開 API 價格,對成本敏感場景仍然值得納入評估 [
6][
14][
19]。




