如果只想要一個「冠軍名單」,呢組比較好容易睇錯。現有資料並唔係由同一個獨立實驗室、同一套設定,一次過測 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6;而係來自不同 benchmark、不同模型變體、供應商公布數字同二手分析 [2][
3][
7][
21]。
較穩陣嘅讀法係:GPT-5.5 係證據最完整嘅全能型領先者;Claude Opus 4.7 在多個 coding 同知識測試有突出勝位;DeepSeek V4 最搶眼係性價比;Kimi K2.6 技術規格吸引,但資料不足以同其餘三個硬排 [1][
2][
3][
7][
22][
24]。
先講答案:唔係一個模型通殺
GPT-5.5:目前最有根據嘅 all-rounder。 Artificial Analysis 片段顯示,GPT-5.5 xhigh 在 Intelligence Index 得 60 分,GPT-5.5 high 得 59 分,Claude Opus 4.7 得 57 分 [2]。BrowseComp 方面,GPT-5.5 得 84.4%,DeepSeek V4 得 83.4%,Claude Opus 4.7 得 79.3%;GPT-5.5 Pro 則高至 90.1% [
3]。
Claude Opus 4.7:寫 code、知識問答特別有競爭力。 在 SWE-Bench Pro,Claude Opus 4.7 以 64.3% 高過 GPT-5.5 的 58.6% [22][
24]。在 GPQA Diamond,Claude 94.2% 亦略高於 GPT-5.5 的 93.6% [
8][
22]。不過 Terminal-Bench 2.0 反過來由 GPT-5.5 明顯領先,82.7% 對 Claude 的 69.4% [
22][
24]。
DeepSeek V4:最似性價比挑戰者。 VentureBeat 指 BrowseComp 入面 DeepSeek V4 有 83.4%,只比 GPT-5.5 低 1.0 個百分點,亦高過 Claude Opus 4.7 的 79.3% [3]。Mashable 同時列出 API 價格:DeepSeek V4 每 100 萬 input tokens 為 US$1.74、每 100 萬 output tokens 為 US$3.48;GPT-5.5 為 US$5/US$30,Claude Opus 4.7 為 US$5/US$25 [
1]。
Kimi K2.6:值得留意,但唔應該夾硬排位。 DocsBot 將 Kimi K2.6 形容為 open-source、原生多模態、agentic 模型,使用 1T 參數 MoE 架構、32B activated parameters、256K context [7]。但提供資料未有足夠直接對齊 GPT-5.5、Claude Opus 4.7 同 DeepSeek V4 的 benchmark 數字,因此唔適合放入同一張「四強排行榜」[
7]。
一眼睇晒
| 模型 | 最有力嘅已知證據 | 關鍵數字 | 實際點理解 |
|---|---|---|---|
| GPT-5.5 | Artificial Analysis 可見片段排最前 [ | Intelligence Index:60 xhigh、59 high [ | 最穩陣嘅全能起點,但唔代表每個項目都贏 |
| Claude Opus 4.7 | SWE-Bench、GPQA、部分 agentic/金融任務表現強 [ | Intelligence Index:57 [ | 如果重點係軟件工程、review、知識推理,值得優先測 |
| DeepSeek V4 | BrowseComp 幾乎貼住 GPT-5.5 [ | BrowseComp:83.4% [ | 當成本同網頁研究能力好重要時,性價比最搶眼 |
| Kimi K2.6 | 被描述為開源、多模態、agentic、長 context 模型 [ | 1T 參數 MoE、32B activated parameters、256K context [ | 技術上值得試,但現有資料不足以公平量化排名 |
點解唔可以當「跑分聯賽榜」?
最大問題係資料來源唔完全一致。DataCamp 在相關 frontier model 比較中提醒,benchmark 數字有時係 vendor-reported,即由供應商自己公布;而且不同測試可能用不同 harness configuration,即測試框架同設定未必一樣 [21]。呢點對 AI benchmark 好關鍵:同一個模型,一改推理強度、工具設定、context 用法,分數可以有明顯變化。
模型版本亦唔完全一樣。Artificial Analysis 提到 GPT-5.5 xhigh、GPT-5.5 high,以及 Claude Opus 4.7 的 Adaptive Reasoning/Max Effort 設定 [2];VentureBeat 講 DeepSeek 時則涉及 DeepSeek-V4-Pro-Max [
3]。換言之,呢啲數字更似「不同參賽版本嘅截圖」,而唔係四個模型用同一套規則跑完嘅終局排名。
所以更實際嘅問題唔係「邊個永遠第一」,而係:你要做嘅 workload 係寫 code、查資料、長任務代理、金融分析,定係低成本批量處理?
總體能力:GPT-5.5 暫時最有全局領先證據
在可引用的 Artificial Analysis Intelligence Index 片段中,GPT-5.5 xhigh 以 60 分排第一,GPT-5.5 high 以 59 分排第二,Claude Opus 4.7 Adaptive Reasoning/Max Effort 以 57 分排第三 [2]。
呢個片段支持一個溫和但清楚嘅結論:在該 index 入面,GPT-5.5 領先 Claude Opus 4.7 [2]。但同一組可見資料未提供 DeepSeek V4 同 Kimi K2.6 足夠完整、可直接引用的 index 數字,所以唔應該用呢個片段硬做四模型總排名 [
2][
7]。
BrowseComp:DeepSeek V4 追得最貼
BrowseComp 可以粗略理解為同網頁瀏覽、查找資料相關的 benchmark。呢項係目前最清楚見到 GPT-5.5、Claude Opus 4.7 同 DeepSeek V4 三者同場的數字。VentureBeat 列出:GPT-5.5 Pro 90.1%、GPT-5.5 84.4%、DeepSeek V4 83.4%、Claude Opus 4.7 79.3% [3]。
| 模型或版本 | BrowseComp 分數 | 點睇 |
|---|---|---|
| GPT-5.5 Pro | 90.1% | 呢個片段入面明顯最高 [ |
| GPT-5.5 | 84.4% | 僅僅高過 DeepSeek V4 [ |
| DeepSeek V4 | 83.4% | 只落後 GPT-5.5 1.0 個百分點 [ |
| Claude Opus 4.7 | 79.3% | 落後於 GPT-5.5 同 DeepSeek V4 [ |
| Kimi K2.6 | 未見直接可比數字 | 暫時唔公平排位 [ |
不過,VentureBeat 亦指出,DeepSeek-V4-Pro-Max 雖然接近頂尖,但在可直接比較的 benchmark 上,未算整體推翻 GPT-5.5 或 Claude Opus 4.7 [3]。所以 BrowseComp 的合理解讀係:DeepSeek V4 在網頁研究類任務非常有競爭力,但單靠一個強項未足以判定總冠軍 [
3]。
Coding:Claude 贏 SWE,GPT 贏 Terminal
如果你揀模型係為咗寫 code、修 bug、跑開發工具,就更加唔應該只睇總分。現有數字顯示,Claude Opus 4.7 在 SWE-Bench Pro 領先,但 GPT-5.5 在 Terminal-Bench 2.0 明顯領先 [22][
24]。
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 結論 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude 領先 [ |
| SWE-Bench Verified | 未見可直接引用 GPT-5.5 數字 | 87.6% | Claude 數字強,但唔係四模型完整比較 [ |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 明顯領先 [ |
簡單講:如果你最在意 real-world software engineering benchmark,Claude Opus 4.7 的證據好強;如果你需要模型處理 terminal、工具執行、電腦操作式任務,GPT-5.5 的數字更突出 [20][
22][
24]。
至於 DeepSeek V4 同 Kimi K2.6,提供資料未有足夠同場、同格式 coding 數字,唔適宜同上表一樣逐項排 [3][
7]。VentureBeat 形容 DeepSeek V4 在多個可比較 benchmark 上接近頂尖,但其可見片段最清楚的直接數字仍是 BrowseComp [
3]。Kimi K2.6 方面,DocsBot 提供較多是架構同能力描述,而非完整對齊三個對手的 benchmark 表 [
7]。
推理、知識同專業任務:領先者會按題型轉
在高難度知識同推理測試,GPT-5.5 同 Claude Opus 4.7 好接近,甚至會因為有冇工具而調轉勝負。GPQA Diamond 方面,GPT-5.5 是 93.6%,Claude Opus 4.7 是 94.2% [8][
22]。Humanity’s Last Exam 不用工具時,GPT-5.5 以 40.6% 高過 Claude 的 31.2%;但加工具後,Claude 以 54.7% 略高於 GPT-5.5 的 52.2% [
8]。
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 目前數字領先者 |
|---|---|---|---|
| GPQA Diamond | 93.6% | 94.2% | Claude 小勝 [ |
| Humanity’s Last Exam | 40.6% | 31.2% | GPT-5.5 [ |
| Humanity’s Last Exam with tools | 52.2% | 54.7% | Claude 小勝 [ |
專業同 agentic benchmark 亦係互有勝負。Vellum 列出 GPT-5.5 在 GDPval 得 84.9%,高過 Claude Opus 4.7 的 80.3%;OSWorld-Verified 是 78.7% 對 78.0%;但 MCP Atlas 則是 Claude 79.1% 高過 GPT-5.5 的 75.3% [22]。OpenAI 列出的 FinanceAgent v1.1 亦是 Claude Opus 4.7 64.4% 高過 GPT-5.5 60.0% [
24]。
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 結論 |
|---|---|---|---|
| GDPval | 84.9% | 80.3% | GPT-5.5 領先 [ |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 微領先 [ |
| MCP Atlas | 75.3% | 79.1% | Claude 領先 [ |
| FinanceAgent v1.1 | 60.0% | 64.4% | Claude 領先 [ |
Anthropic 另外引用內部 research-agent benchmark,指 Claude Opus 4.7 在 6 個模組中並列最高 overall score 0.715,並在 General Finance 模組得 0.813,高過 Opus 4.6 的 0.767 [6]。不過呢個係 Anthropic 內部 benchmark,而且未有同時覆蓋四個模型,所以更適合作為 Claude agentic 能力的輔助證據,而唔係獨立四強排名 [
6]。
價格同 context:DeepSeek V4 最搶鏡
真正落地用模型,成本往往同 benchmark 一樣重要。token 可以理解為模型處理文字/資料的基本計費單位;context window 則係模型一次過可參考的內容容量。
Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬 input tokens US$1.74、每 100 萬 output tokens US$3.48,context window 為 100 萬 tokens [1]。同一來源列出 GPT-5.5 為每 100 萬 input tokens US$5、output tokens US$30;Claude Opus 4.7 則為 US$5/US$25,兩者同樣標示 100 萬 tokens context window [
1]。
| 模型 | 每 100 萬 input tokens | 每 100 萬 output tokens | 來源列出的 context |
|---|---|---|---|
| DeepSeek V4 | US$1.74 | US$3.48 | 100 萬 tokens [ |
| GPT-5.5 | US$5 | US$30 | 100 萬 tokens [ |
| Claude Opus 4.7 | US$5 | US$25 | 100 萬 tokens [ |
| Kimi K2.6 | 未見可直接比較價格 | 未見可直接比較價格 | 256K tokens [ |
Kimi K2.6 在呢部分屬於另一種情況。DocsBot 指它有 256K context、1T 參數 MoE 架構、32B activated parameters,並支援多達 300 個 sub-agents、4,000 個 coordinated steps 的 agent swarm 任務編排 [7]。呢啲是重要技術規格,但仍然不能取代直接、同場、同設定的 benchmark 同價格比較 [
7]。
如果要揀模型,可以咁諗
| 你最重視… | 可優先試 | 原因 |
|---|---|---|
| 最強已證明綜合表現 | GPT-5.5 | Artificial Analysis 可見片段領先,BrowseComp 亦高過 Claude Opus 4.7 並略高於 DeepSeek V4 [ |
| SWE-Bench 導向軟件工程 | Claude Opus 4.7 | SWE-Bench Pro 高過 GPT-5.5,SWE-Bench Verified 亦有 87.6% [ |
| Terminal、工具執行、電腦操作式任務 | GPT-5.5 | Terminal-Bench 2.0 明顯高過 Claude,GDPval 同 OSWorld-Verified 亦領先 [ |
| 網頁研究+低 API 成本 | DeepSeek V4 | BrowseComp 83.4%,而引用價格明顯低過 GPT-5.5 同 Claude Opus 4.7 [ |
| 試開源、多模態、agentic 長任務模型 | Kimi K2.6 | DocsBot 形容它是 open-source、原生多模態、agentic,具 256K context;但 benchmark 對齊仍不足 [ |
底線
今次比較最重要嘅結論係:冇一個模型可以用現有資料證明「全面通殺」。 GPT-5.5 係目前最有證據支持的全能領先者,因為它在 Artificial Analysis 片段排最前,BrowseComp 同多個專業 benchmark 亦表現強 [2][
3][
22][
24]。
Claude Opus 4.7 仍然係頂級模型,尤其在 SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond,以及部分 agentic/金融任務有明確優勢 [20][
22][
24]。DeepSeek V4 最大賣點係性價比:BrowseComp 幾乎追到 GPT-5.5,同時引用 API 價格低好多 [
1][
3]。至於 Kimi K2.6,應該視為值得測試的技術選項,而唔係在現有資料下硬排第幾;要公平比較,仍需要更多直接、同設定的 benchmark 同價格數字 [
7]。




