GPT-5.5:目前證據中最穩的全能型。 在 Artificial Analysis 的 Intelligence Index 片段中,GPT-5.5 xhigh 為 60 分、GPT-5.5 high 為 59 分,Claude Opus 4.7 則為 57 分 。BrowseComp 中,GPT-5.5 為 84.4%,DeepSeek V4 為 83.4%,Claude Opus 4.7 為 79.3%
。
Claude Opus 4.7:程式與知識測試很強。 Claude 在 SWE-Bench Pro 以 64.3% 領先 GPT-5.5 的 58.6%,在 GPQA Diamond 也以 94.2% 小幅領先 GPT-5.5 的 93.6% 。但在 Terminal-Bench 2.0,GPT-5.5 以 82.7% 明顯高於 Claude Opus 4.7 的 69.4%
。
DeepSeek V4:性價比最搶眼。 VentureBeat 引述的 BrowseComp 數字顯示,DeepSeek V4 為 83.4%,只比 GPT-5.5 的 84.4% 低 1.0 個百分點,並高於 Claude Opus 4.7 的 79.3% 。Mashable 同時列出 DeepSeek V4 的 API 價格為每 100 萬 input tokens 1.74 美元、每 100 萬 output tokens 3.48 美元;GPT-5.5 則為 5/30 美元,Claude Opus 4.7 為 5/25 美元
。
Kimi K2.6:規格有看頭,但不能硬排。 DocsBot 將 Kimi K2.6 描述為開放原始碼、原生多模態、代理式模型,採 1T 參數 MoE 架構、32B 啟用參數與 256K 上下文 。問題是,提供的資料沒有足夠的直接基準測試數字,無法把它與 GPT-5.5、Claude Opus 4.7、DeepSeek V4 放進同一張可靠排名表
。
基準測試像考試,但這裡不是同一張考卷。DataCamp 在相關前沿模型比較中提醒,部分基準測試數字是 vendor-reported,也就是由供應商自行回報;不同測試還可能使用不同 harness 設定 。這代表某個模型在一種設定中領先,換到另一種設定可能就不一樣。
模型版本也不完全一致。Artificial Analysis 提到 GPT-5.5 xhigh、GPT-5.5 high,以及 Claude Opus 4.7 的 Adaptive Reasoning、Max Effort 設定 。VentureBeat 則提到 DeepSeek-V4-Pro-Max
。這些設定差異會影響推理、程式、工具使用與代理式任務的結果。
所以,最公平的問題不是:誰永遠第一?而是:你要解決的任務,哪個模型的證據最強?
目前資料中最清楚的整體指標,是 Artificial Analysis 的 Intelligence Index 片段。GPT-5.5 xhigh 以 60 分排第一,GPT-5.5 high 以 59 分排第二,Claude Opus 4.7 則在 Adaptive Reasoning、Max Effort 設定下為 57 分 。
這支持一個審慎結論:在這個指標片段中,GPT-5.5 對 Claude Opus 4.7 有小幅但明確的優勢 。不過,同一片段沒有提供 DeepSeek V4 與 Kimi K2.6 可直接引用的完整四方比較數字,因此不能把它當成四個模型的總決賽成績單
。
BrowseComp 是目前較清楚的三方直接比較。VentureBeat 列出 GPT-5.5 Pro 為 90.1%、GPT-5.5 為 84.4%、DeepSeek V4 為 83.4%、Claude Opus 4.7 為 79.3% 。
| 模型或版本 | BrowseComp 數字 | 解讀 |
|---|---|---|
| GPT-5.5 Pro | 90.1% | 在這組數字中明顯領先 |
| GPT-5.5 | 84.4% | 略高於 DeepSeek V4 |
| DeepSeek V4 | 83.4% | 只比 GPT-5.5 低 1.0 個百分點 |
| Claude Opus 4.7 | 79.3% | 落後於 GPT-5.5 與 DeepSeek V4 |
| Kimi K2.6 | 無可直接比較數字 | 不能公平排名 |
VentureBeat 也指出,DeepSeek-V4-Pro-Max 雖然接近頂尖模型,但在可直接比較的基準測試上,並未整體取代 GPT-5.5 或 Claude Opus 4.7 。換句話說,DeepSeek V4 在 BrowseComp 很亮眼,但不能只憑單一強項就宣布總冠軍
。
程式類測試沒有單一贏家。Claude Opus 4.7 在 SWE-Bench Pro 得 64.3%,高於 GPT-5.5 的 58.6% 。Vellum 也列出 Claude Opus 4.7 在 SWE-Bench Verified 為 87.6%
。但 Terminal-Bench 2.0 反過來由 GPT-5.5 領先:GPT-5.5 為 82.7%,Claude Opus 4.7 為 69.4%
。
| 基準測試 | GPT-5.5 | Claude Opus 4.7 | 誰領先 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 |
| SWE-Bench Verified | 無可直接引用的 GPT-5.5 數字 | 87.6% | Claude 數字很強,但不是完整四方比較 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 明顯領先 |
對 DeepSeek V4 與 Kimi K2.6 而言,提供資料不足以在同一張程式測試表中公平列出。VentureBeat 指出 DeepSeek V4 在多個可比較基準上接近頂尖模型,但可直接引用、最清楚的數字仍以 BrowseComp 為主 。Kimi K2.6 的資料則主要是模型架構與能力描述,而不是完整的跨模型測試矩陣
。
知識與推理測試中,GPT-5.5 和 Claude Opus 4.7 的差距很近,領先者取決於題型與工具設定。GPQA Diamond 中,GPT-5.5 為 93.6%,Claude Opus 4.7 為 94.2% 。Humanity’s Last Exam 不使用工具時,GPT-5.5 以 40.6% 領先 Claude Opus 4.7 的 31.2%;加入工具後,Claude Opus 4.7 則以 54.7% 小幅領先 GPT-5.5 的 52.2%
。
| 基準測試 | GPT-5.5 | Claude Opus 4.7 | 這組數字中的領先者 |
|---|---|---|---|
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 小幅領先 |
| Humanity’s Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity’s Last Exam with tools | 52.2% | 54.7% | Claude Opus 4.7 小幅領先 |
專業與代理式任務也呈現互有勝負。Vellum 列出 GDPval 中 GPT-5.5 為 84.9%、Claude Opus 4.7 為 80.3%;OSWorld-Verified 中 GPT-5.5 為 78.7%、Claude 為 78.0%;MCP Atlas 則是 GPT-5.5 75.3%、Claude 79.1% 。OpenAI 列出的 FinanceAgent v1.1 中,GPT-5.5 為 60.0%,Claude Opus 4.7 為 64.4%
。
Anthropic 也提到一個內部 research-agent benchmark:Claude Opus 4.7 在六個模組中並列最高總分 0.715,在 General Finance 模組得 0.813,高於 Opus 4.6 的 0.767 。但這是內部基準,且沒有同時完整涵蓋四個模型,因此較適合作為 Claude 代理式能力的參考,不宜當作獨立四方排名
。
若要把模型放進產品或工作流程,價格往往和分數一樣重要。Mashable 引述的 API 價格中,DeepSeek V4 為每 100 萬 input tokens 1.74 美元、每 100 萬 output tokens 3.48 美元,並列出 100 萬 tokens 的上下文視窗 。同一來源列出 GPT-5.5 為每 100 萬 input tokens 5 美元、output tokens 30 美元;Claude Opus 4.7 為 input tokens 5 美元、output tokens 25 美元,同樣標示 100 萬 tokens 上下文
。
Kimi K2.6 在這裡是特殊案例。DocsBot 描述它具備 256K 上下文、1T 參數 MoE 架構、32B 啟用參數,並可做最多 300 個子代理與 4,000 個協調步驟的任務編排 。這些都是重要技術訊號,但仍不能替代直接、可比較的基準測試與價格資料
。
這場比較沒有一個模型「通吃」所有項目。GPT-5.5 是目前資料中最有把握的全能型,因為它領先 Artificial Analysis 片段,且在 BrowseComp 與多個專業基準中表現強 。Claude Opus 4.7 仍是頂尖模型,特別是在 SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond,以及部分金融代理任務上
。DeepSeek V4 則是最值得注意的性價比挑戰者,因為它在 BrowseComp 幾乎追上 GPT-5.5,引用資料中的 API 價格又低得多
。
Comments
0 comments