比較前線 AI 模型,最易中伏嘅位係將單一 benchmark 當成「總冠軍」。比較穩陣嘅讀法係:GPT-5.5 有最強整體排名信號,Claude Opus 4.7 喺多個硬推理同軟件工程項目跑出,DeepSeek V4 嘅 API 成本優勢最清楚,而 Kimi K2.6 喺 coding 同 agentic 工作上值得留意,但同 GPT-5.5、Opus 4.7 直接對打嘅證據較少。[2][
16][
15][
18][
19]
快速結論
| 你最重視… | 較有根據嘅選擇 | 點解 |
|---|---|---|
| 整體智能排名信號 | GPT-5.5 | Artificial Analysis 將 GPT-5.5 xhigh 列為 60、GPT-5.5 high 列為 59,高過 Claude Opus 4.7 Adaptive Reasoning Max Effort 的 57。[ |
| 硬推理、軟件工程 | Claude Opus 4.7,GPT-5.5 緊隨其後 | VentureBeat 共享表格入面,Claude 領先 GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP Atlas;GPT-5.5 贏 Terminal-Bench 2.0 同基本 BrowseComp,GPT-5.5 Pro 則喺有列出嘅 HLE with tools 同 BrowseComp 領先。[ |
| 旗艦級 API 成本 | DeepSeek V4 | Mashable 列 DeepSeek V4 為每 100 萬 input tokens $1.74、output tokens $3.48,低過 GPT-5.5 的 $5/$30 同 Claude Opus 4.7 的 $5/$25。[ |
| 已披露 coding/競賽編程數據 | DeepSeek V4 Pro | Together AI 列 DeepSeek V4 Pro 為 93.5% LiveCodeBench、Codeforces 3206、80.6% SWE-Bench Verified、76.2% SWE-Bench Multilingual。[ |
| Kimi K2.6 評估 | 有潛力,但未算定案 | Kimi K2.6 有 coding 同 agentic 數據,但現有 Kimi 相關證據多數係同 GPT-5.4、Claude Opus 4.6 比,而唔係直接對 GPT-5.5、Claude Opus 4.7。[ |
整體排名:GPT-5.5 佔上風
現有來源入面,最乾淨嘅整體信號來自 Artificial Analysis。佢列 GPT-5.5 xhigh 的 Intelligence Index 為 60、GPT-5.5 high 為 59;Claude Opus 4.7 Adaptive Reasoning Max Effort 則為 57。[2]
Kimi K2.6 喺可見嘅綜合指標片段入面低過呢個 GPT-5.5/Claude 梯隊。OpenRouter 列 Kimi K2.6 為 53.9 Intelligence、47.1 Coding、66.0 Agentic;LLMBase 的 DeepSeek V4 Flash High vs Kimi K2.6 比較亦列 Kimi 為 53.9 Intelligence、47.1 Coding。[3][
1] 同一個 LLMBase 比較列 DeepSeek V4 Flash High 為 44.9 Intelligence、39.8 Coding,但要留意,呢個係 Flash 版本,唔係 DeepSeek V4 Pro 或 Pro-Max。[
1]
重點係:整體排名對 GPT-5.5 vs Claude Opus 4.7 有清晰信號,但目前並無一條完整、同場四方 leaderboard,同時列出 GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro-Max 同 Kimi K2.6。[2]
同場 benchmark:Claude 同 GPT-5.5 各有勝負
VentureBeat 的共享 benchmark 表,係現有資料中較適合用來比較 DeepSeek-V4-Pro-Max、GPT-5.5、部分列出的 GPT-5.5 Pro,以及 Claude Opus 4.7 的來源。[16]
| Benchmark | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro(有列出時) | Claude Opus 4.7 | 呢份來源最高結果 |
|---|---|---|---|---|---|
| GPQA Diamond | 90.1% | 93.6% | — | 94.2% | Claude Opus 4.7[ |
| Humanity’s Last Exam,no tools | 37.7% | 41.4% | 43.1% | 46.9% | Claude Opus 4.7[ |
| Humanity’s Last Exam,with tools | 48.2% | 52.2% | 57.2% | 54.7% | GPT-5.5 Pro[ |
| Terminal-Bench 2.0 | 67.9% | 82.7% | — | 69.4% | GPT-5.5[ |
| SWE-Bench Pro/SWE Pro | 55.4% | 58.6% | — | 64.3% | Claude Opus 4.7[ |
| BrowseComp | 83.4% | 84.4% | 90.1% | 79.3% | GPT-5.5 Pro[ |
| MCP Atlas/MCPAtlas Public | 73.6% | 75.3% | — | 79.1% | Claude Opus 4.7[ |
所以,唔係一面倒。Claude Opus 4.7 喺 GPQA Diamond、HLE no-tools、SWE-Bench Pro 同 MCP Atlas 較有說服力;GPT-5.5 基本版則喺 Terminal-Bench 2.0 同 BrowseComp 表現較強,而 GPT-5.5 Pro 喺 VentureBeat 有列出嘅 HLE with tools 同 BrowseComp 最高。[16]
DeepSeek-V4-Pro-Max 喺幾項都算貼近,但喺呢張共享表入面,未有一項贏過 GPT-5.5 或 Claude Opus 4.7 的最佳結果。最接近係 BrowseComp:DeepSeek-V4-Pro-Max 83.4%,GPT-5.5 84.4%,Claude Opus 4.7 79.3%。[16]
Coding:要睇你寫緊咩 code
如果係 repository 層面嘅軟件工程任務,Claude Opus 4.7 喺 VentureBeat 共享表的 SWE-Bench Pro 結果最強:64.3%,高過 GPT-5.5 的 58.6% 同 DeepSeek-V4-Pro-Max 的 55.4%。[16]
不過 DeepSeek V4 Pro 有現有來源入面最完整嘅 coding 指標披露。Together AI 列 DeepSeek V4 Pro 為 93.5% LiveCodeBench、Codeforces 3206、80.6% SWE-Bench Verified、76.2% SWE-Bench Multilingual。[25] NVIDIA 的 model card 亦按 DeepSeek V4 Flash、V4 Pro 等版本拆出 GPQA Diamond、HLE、LiveCodeBench、Codeforces 等 benchmark,其中 V4-Pro Max 顯示 LiveCodeBench 93.5、Codeforces 3206。[
31]
Kimi K2.6 亦有值得留意嘅 coding 證據,但最強嘅 Kimi 相關表格多數係同上一代或較早競爭對手比較。Lorka 列 Kimi K2.6 為 58.6% SWE-Bench Pro、54.0% HLE-Full with tools、90.5% GPQA-Diamond、79.4% MMMU-Pro,表格比較對象包括 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro。[18] Verdent 則列 Kimi K2.6 為 80.2% SWE-Bench Verified、66.7% Terminal-Bench 2.0、54.0% HLE with tools、89.6% LiveCodeBench v6,並提到 Opus 4.7 喺 SWE-Bench Verified 以 87.6% 領先。[
19]
實際結論係:Kimi K2.6 值得放入 coding 同 agent workflow 測試名單,但現有證據未足以話佢喺整體上擊敗 GPT-5.5 或 Claude Opus 4.7。[18][
19]
收費:DeepSeek V4 成本優勢最清楚
如果 API 成本係核心考慮,DeepSeek V4 係最有價格說服力嗰個。Mashable 列 DeepSeek V4 為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48;GPT-5.5 為 $5/$30,Claude Opus 4.7 為 $5/$25。[15]
| 模型/版本 | 列出 input 價格 | 列出 output 價格 | 備註 |
|---|---|---|---|
| GPT-5.5 | 每 100 萬 tokens $5 | 每 100 萬 tokens $30 | Mashable 喺呢個比較列出 1M context window。[ |
| Claude Opus 4.7 | 每 100 萬 tokens $5 | 每 100 萬 tokens $25 | Mashable 喺呢個比較列出 1M context window。[ |
| DeepSeek V4 | 每 100 萬 tokens $1.74 | 每 100 萬 tokens $3.48 | Mashable 喺呢個比較列出 1M context window。[ |
| DeepSeek V4 Flash | 每 100 萬 tokens $0.14 | 每 100 萬 tokens $0.28 | LLMBase 喺 DeepSeek V4 Flash High vs Kimi K2.6 比較列 blended price 為 $0.18。[ |
| Kimi K2.6 | 每 100 萬 tokens $0.95 | 每 100 萬 tokens $4.00 | LLMBase 喺同一比較列 blended price 為 $1.71。[ |
但唔好假設所有 endpoint 都有同一個 context limit。Mashable 喺收費比較中列 DeepSeek V4、GPT-5.5、Claude Opus 4.7 都係 1M context window;但 OpenRouter 的 DeepSeek V4 Pro listing 顯示 256K max tokens、66K max output tokens。[15][
3] 真正落 production 前,要核實你實際會 call 嘅 provider、模型版本同 reasoning mode。
逐個模型點用
GPT-5.5:想要最穩陣整體排名,佢係預設選擇
如果你嘅決策主要睇現有整體排名,GPT-5.5 係較安全嘅 default。Artificial Analysis 列 GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59,係提供片段入面 Intelligence Index 的頭兩位。[2]
佢喺 VentureBeat 共享表亦有兩個突出項目:Terminal-Bench 2.0 為 82.7%,基本 GPT-5.5 的 BrowseComp 為 84.4%;而 GPT-5.5 Pro 喺有列出時 BrowseComp 為 90.1%。[16]
Claude Opus 4.7:硬推理同軟件工程多項任務更合拍
Claude Opus 4.7 喺整體排名緊貼 GPT-5.5:Artificial Analysis 將 Claude Opus 4.7 Adaptive Reasoning Max Effort 的 Intelligence Index 列為 57。[2] 喺 VentureBeat 共享表,佢喺 GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP Atlas 都領先 GPT-5.5 同 DeepSeek-V4-Pro-Max。[
16]
Anthropic 自家發布資料亦提到內部 research-agent benchmark:Claude Opus 4.7 喺六個 module 的整體分數並列第一,為 0.715;General Finance 分數為 0.813,高過 Opus 4.6 的 0.767。[17] 不過呢類屬於廠方內部 benchmark,應視為補充背景,而唔係中立 leaderboard 證據。[
17]
DeepSeek V4:如果版本配合工作,性價比最突出
DeepSeek V4 最明顯嘅優勢係價錢。Mashable 比較中,佢每 100 萬 input/output tokens 價格係 $1.74/$3.48,明顯低過 GPT-5.5 的 $5/$30 同 Claude Opus 4.7 的 $5/$25。[15]
DeepSeek V4 Pro 亦有強 coding 指標,包括 Together AI 列出嘅 93.5% LiveCodeBench、Codeforces 3206、80.6% SWE-Bench Verified、76.2% SWE-Bench Multilingual。[25] 取捨係:喺 VentureBeat 共享表,DeepSeek-V4-Pro-Max 即使部分項目接近,例如 BrowseComp,都仍然落後於 GPT-5.5 或 Claude Opus 4.7 的最佳結果。[
16]
Kimi K2.6:coding/agent 值得試,但四方比較未夠實
Kimi K2.6 最難下定論,因為現有 Kimi-focused benchmark 多數係同 GPT-5.4、Claude Opus 4.6 比,而唔係直接同 GPT-5.5、Claude Opus 4.7 比。[18][
19] 但佢嘅信號唔弱:OpenRouter 列 Kimi K2.6 為 53.9 Intelligence、47.1 Coding、66.0 Agentic;Verdent 則列 80.2% SWE-Bench Verified 同 89.6% LiveCodeBench v6。[
3][
19]
所以唔應該理解成 Kimi K2.6「唔掂」。更準確係:直接證據較薄。如果 Kimi 嘅價格、部署路線或者 agentic 行為啱你現有 stack,佢值得做實測;但就現有資料而言,未足以稱佢為對 GPT-5.5 或 Claude Opus 4.7 的整體勝者。[18][
19]
揀之前要留意
- 版本名好重要。 DeepSeek V4 喺來源中有 V4、V4 Flash、V4 Pro、DeepSeek-V4-Pro-Max 等叫法;價格、限制同 benchmark 結果會因版本同 reasoning setting 而變。[
1][
15][
25][
31]
- Kimi 比較無咁直接。 現有較強嘅 Kimi K2.6 benchmark 表,經常係同 GPT-5.4、Claude Opus 4.6 比,而唔係 GPT-5.5、Claude Opus 4.7。[
18][
19]
- Humanity’s Last Exam no-tools 數字有不一致。 LLM Stats 同 VentureBeat 報 GPT-5.5 41.4%、Claude Opus 4.7 46.9%;但 Mashable 的 GPT vs Claude 片段報 GPT-5.5 40.6%、Opus 4.7 31.2%。[
7][
16][
9]
- 內部 benchmark 唔等於獨立 leaderboard。 Anthropic 的 Opus 4.7 發布文章有內部 research-agent 成績,但閱讀時應同跨供應商公開比較分開看。[
17]
- 價格同 context limit 會因 provider 而變。 同一模型家族喺唔同 endpoint 可能有唔同 context window、token limit 同 output cap。[
3][
15]
底線
如果你最重視現有整體智能排名,揀 GPT-5.5 較有根據。[2] 如果你嘅工作似 GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP Atlas 呢類硬推理或軟件工程項目,Claude Opus 4.7 更有說服力。[
16] 如果你重視 price-performance,而且可以驗證自己要用嘅 V4 版本,DeepSeek V4 嘅 API 價格明顯低過 GPT-5.5 同 Claude Opus 4.7,DeepSeek V4 Pro 亦有強 coding 指標。[
15][
25] 至於 Kimi K2.6,應視為有潛力嘅 coding/agentic 候選,但以現有直接證據,未足以稱為整體擊敗 GPT-5.5 或 Claude Opus 4.7。[
18][
19]




