GPT-5.5:目前最有根據嘅 all-rounder。 Artificial Analysis 片段顯示,GPT-5.5 xhigh 在 Intelligence Index 得 60 分,GPT-5.5 high 得 59 分,Claude Opus 4.7 得 57 分 。BrowseComp 方面,GPT-5.5 得 84.4%,DeepSeek V4 得 83.4%,Claude Opus 4.7 得 79.3%;GPT-5.5 Pro 則高至 90.1%
。
Claude Opus 4.7:寫 code、知識問答特別有競爭力。 在 SWE-Bench Pro,Claude Opus 4.7 以 64.3% 高過 GPT-5.5 的 58.6% 。在 GPQA Diamond,Claude 94.2% 亦略高於 GPT-5.5 的 93.6%
。不過 Terminal-Bench 2.0 反過來由 GPT-5.5 明顯領先,82.7% 對 Claude 的 69.4%
。
DeepSeek V4:最似性價比挑戰者。 VentureBeat 指 BrowseComp 入面 DeepSeek V4 有 83.4%,只比 GPT-5.5 低 1.0 個百分點,亦高過 Claude Opus 4.7 的 79.3% 。Mashable 同時列出 API 價格:DeepSeek V4 每 100 萬 input tokens 為 US$1.74、每 100 萬 output tokens 為 US$3.48;GPT-5.5 為 US$5/US$30,Claude Opus 4.7 為 US$5/US$25
。
Kimi K2.6:值得留意,但唔應該夾硬排位。 DocsBot 將 Kimi K2.6 形容為 open-source、原生多模態、agentic 模型,使用 1T 參數 MoE 架構、32B activated parameters、256K context 。但提供資料未有足夠直接對齊 GPT-5.5、Claude Opus 4.7 同 DeepSeek V4 的 benchmark 數字,因此唔適合放入同一張「四強排行榜」
。
最大問題係資料來源唔完全一致。DataCamp 在相關 frontier model 比較中提醒,benchmark 數字有時係 vendor-reported,即由供應商自己公布;而且不同測試可能用不同 harness configuration,即測試框架同設定未必一樣 。呢點對 AI benchmark 好關鍵:同一個模型,一改推理強度、工具設定、context 用法,分數可以有明顯變化。
模型版本亦唔完全一樣。Artificial Analysis 提到 GPT-5.5 xhigh、GPT-5.5 high,以及 Claude Opus 4.7 的 Adaptive Reasoning/Max Effort 設定 ;VentureBeat 講 DeepSeek 時則涉及 DeepSeek-V4-Pro-Max
。換言之,呢啲數字更似「不同參賽版本嘅截圖」,而唔係四個模型用同一套規則跑完嘅終局排名。
所以更實際嘅問題唔係「邊個永遠第一」,而係:你要做嘅 workload 係寫 code、查資料、長任務代理、金融分析,定係低成本批量處理?
在可引用的 Artificial Analysis Intelligence Index 片段中,GPT-5.5 xhigh 以 60 分排第一,GPT-5.5 high 以 59 分排第二,Claude Opus 4.7 Adaptive Reasoning/Max Effort 以 57 分排第三 。
呢個片段支持一個溫和但清楚嘅結論:在該 index 入面,GPT-5.5 領先 Claude Opus 4.7 。但同一組可見資料未提供 DeepSeek V4 同 Kimi K2.6 足夠完整、可直接引用的 index 數字,所以唔應該用呢個片段硬做四模型總排名
。
BrowseComp 可以粗略理解為同網頁瀏覽、查找資料相關的 benchmark。呢項係目前最清楚見到 GPT-5.5、Claude Opus 4.7 同 DeepSeek V4 三者同場的數字。VentureBeat 列出:GPT-5.5 Pro 90.1%、GPT-5.5 84.4%、DeepSeek V4 83.4%、Claude Opus 4.7 79.3% 。
| 模型或版本 | BrowseComp 分數 | 點睇 |
|---|---|---|
| GPT-5.5 Pro | 90.1% | 呢個片段入面明顯最高 |
| GPT-5.5 | 84.4% | 僅僅高過 DeepSeek V4 |
| DeepSeek V4 | 83.4% | 只落後 GPT-5.5 1.0 個百分點 |
| Claude Opus 4.7 | 79.3% | 落後於 GPT-5.5 同 DeepSeek V4 |
| Kimi K2.6 | 未見直接可比數字 | 暫時唔公平排位 |
不過,VentureBeat 亦指出,DeepSeek-V4-Pro-Max 雖然接近頂尖,但在可直接比較的 benchmark 上,未算整體推翻 GPT-5.5 或 Claude Opus 4.7 。所以 BrowseComp 的合理解讀係:DeepSeek V4 在網頁研究類任務非常有競爭力,但單靠一個強項未足以判定總冠軍
。
如果你揀模型係為咗寫 code、修 bug、跑開發工具,就更加唔應該只睇總分。現有數字顯示,Claude Opus 4.7 在 SWE-Bench Pro 領先,但 GPT-5.5 在 Terminal-Bench 2.0 明顯領先 。
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 結論 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude 領先 |
| SWE-Bench Verified | 未見可直接引用 GPT-5.5 數字 | 87.6% | Claude 數字強,但唔係四模型完整比較 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 明顯領先 |
簡單講:如果你最在意 real-world software engineering benchmark,Claude Opus 4.7 的證據好強;如果你需要模型處理 terminal、工具執行、電腦操作式任務,GPT-5.5 的數字更突出 。
至於 DeepSeek V4 同 Kimi K2.6,提供資料未有足夠同場、同格式 coding 數字,唔適宜同上表一樣逐項排 。VentureBeat 形容 DeepSeek V4 在多個可比較 benchmark 上接近頂尖,但其可見片段最清楚的直接數字仍是 BrowseComp
。Kimi K2.6 方面,DocsBot 提供較多是架構同能力描述,而非完整對齊三個對手的 benchmark 表
。
在高難度知識同推理測試,GPT-5.5 同 Claude Opus 4.7 好接近,甚至會因為有冇工具而調轉勝負。GPQA Diamond 方面,GPT-5.5 是 93.6%,Claude Opus 4.7 是 94.2% 。Humanity’s Last Exam 不用工具時,GPT-5.5 以 40.6% 高過 Claude 的 31.2%;但加工具後,Claude 以 54.7% 略高於 GPT-5.5 的 52.2%
。
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 目前數字領先者 |
|---|---|---|---|
| GPQA Diamond | 93.6% | 94.2% | Claude 小勝 |
| Humanity’s Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity’s Last Exam with tools | 52.2% | 54.7% | Claude 小勝 |
專業同 agentic benchmark 亦係互有勝負。Vellum 列出 GPT-5.5 在 GDPval 得 84.9%,高過 Claude Opus 4.7 的 80.3%;OSWorld-Verified 是 78.7% 對 78.0%;但 MCP Atlas 則是 Claude 79.1% 高過 GPT-5.5 的 75.3% 。OpenAI 列出的 FinanceAgent v1.1 亦是 Claude Opus 4.7 64.4% 高過 GPT-5.5 60.0%
。
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 結論 |
|---|---|---|---|
| GDPval | 84.9% | 80.3% | GPT-5.5 領先 |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 微領先 |
| MCP Atlas | 75.3% | 79.1% | Claude 領先 |
| FinanceAgent v1.1 | 60.0% | 64.4% | Claude 領先 |
Anthropic 另外引用內部 research-agent benchmark,指 Claude Opus 4.7 在 6 個模組中並列最高 overall score 0.715,並在 General Finance 模組得 0.813,高過 Opus 4.6 的 0.767 。不過呢個係 Anthropic 內部 benchmark,而且未有同時覆蓋四個模型,所以更適合作為 Claude agentic 能力的輔助證據,而唔係獨立四強排名
。
真正落地用模型,成本往往同 benchmark 一樣重要。token 可以理解為模型處理文字/資料的基本計費單位;context window 則係模型一次過可參考的內容容量。
Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬 input tokens US$1.74、每 100 萬 output tokens US$3.48,context window 為 100 萬 tokens 。同一來源列出 GPT-5.5 為每 100 萬 input tokens US$5、output tokens US$30;Claude Opus 4.7 則為 US$5/US$25,兩者同樣標示 100 萬 tokens context window
。
| 模型 | 每 100 萬 input tokens | 每 100 萬 output tokens | 來源列出的 context |
|---|---|---|---|
| DeepSeek V4 | US$1.74 | US$3.48 | 100 萬 tokens |
| GPT-5.5 | US$5 | US$30 | 100 萬 tokens |
| Claude Opus 4.7 | US$5 | US$25 | 100 萬 tokens |
| Kimi K2.6 | 未見可直接比較價格 | 未見可直接比較價格 | 256K tokens |
Kimi K2.6 在呢部分屬於另一種情況。DocsBot 指它有 256K context、1T 參數 MoE 架構、32B activated parameters,並支援多達 300 個 sub-agents、4,000 個 coordinated steps 的 agent swarm 任務編排 。呢啲是重要技術規格,但仍然不能取代直接、同場、同設定的 benchmark 同價格比較
。
今次比較最重要嘅結論係:冇一個模型可以用現有資料證明「全面通殺」。 GPT-5.5 係目前最有證據支持的全能領先者,因為它在 Artificial Analysis 片段排最前,BrowseComp 同多個專業 benchmark 亦表現強 。
Comments
0 comments