在 OpenAI 的 GPT-5.5 發布頁中,GPT-5.5 在 ARC-AGI-1 Verified 拿到 95.0%,Claude Opus 4.7 為 93.5%;在 ARC-AGI-2 Verified,GPT-5.5 為 85.0%,Claude Opus 4.7 為 75.8% 。
這說明一件事:在這兩個抽象推理指標上,GPT-5.5 的公布分數高於 Claude Opus 4.7 。但它不等於 GPT-5.5 在所有任務都更好,也不等於 API、ChatGPT 實際使用時一定重現同樣差距。
關鍵限制在測試設定。OpenAI 說明,GPT 相關評測是在研究環境中、以推理努力程度「xhigh」執行,因此某些情況下可能與正式產品版 ChatGPT 的輸出略有不同 。換句話說,這是重要證據,但不是無條件的結論。
如果你的產品重點不是單題推理,而是讓模型連續呼叫工具、串接流程、處理外部上下文,MCP-Atlas 的訊號就值得看。相關分析報告 Claude Opus 4.7 在 MCP-Atlas 得到 79.1%,GPT-5.5 為 75.3%,並把這個差距連到複雜鏈式場景中的工具呼叫可靠度 。
MCP 指的是 Model Context Protocol。對開發團隊來說,它可以理解為讓模型和工具、資料來源、工作流程互相協調的一類協定脈絡。若你的應用大量依賴多工具代理、工作流編排或外部系統呼叫,這項基準給出的最佳訊號是 Claude Opus 4.7,而不是 GPT-5.5 。
但限制同樣明顯:本文引用來源沒有提供 Claude Opus 4.7、DeepSeek V4、Kimi K2.6 在 Terminal-Bench 2.0 的同樣分數表。因此,謹慎結論應該是「GPT-5.5 在代理式程式任務有強而清楚的公開訊號」,而不是「GPT-5.5 已證明在所有程式任務中打敗另外三款模型」。
DeepSeek V4 和 Kimi K2.6 都值得被納入開放權重模型的討論。只是,本文引用資料不足以把它們和 GPT-5.5、Claude Opus 4.7 放在 ARC-AGI、MCP-Atlas 或 Terminal-Bench 2.0 上做同表比較
。
DeepSeek 方面,Artificial Analysis 指出 DeepSeek V4 的發布讓 DeepSeek 回到領先開放權重模型之列 。本文可引用的最明確數字,是 DeepSeek V4 Pro Max 在 Artificial Analysis Intelligence Index 得到 52,較 DeepSeek V3.2 的 42 提高
。
Kimi 方面,Artificial Analysis 列出一篇題為 Kimi K2.6: The new leading open weights model 的分析 。這是一個很強的定位訊號,但本文所附來源沒有給出足夠分數,讓我們把 Kimi K2.6 與 DeepSeek V4、GPT-5.5、Claude Opus 4.7 放到同一批基準測試中嚴格比較
。
GPT-5.5 system card 提到 CoT-Control,這是一組用來評估模型對思考鏈相關指示可控性的測試,包含超過 13,000 項任務,並建立在 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等既有基準之上 。這對理解模型可控性有幫助,但不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 的安全對照表
。
另一則資料稱 GPT-5.5 在 cyber range,也就是網路攻防靶場類任務中有 93% 通過率;同時也指出紅隊測試在 6 小時內找到通用 jailbreak 。這兩個訊息要一起讀:資安任務能力很強,並不等於模型整體安全性已被證明
。
外部評論也提醒,GPT-5.5 的安全評估高度依賴 OpenAI 自身說法,這限制了外界能從供應商公布資料推論出的結論 。因此,安全敏感場景不能只看能力榜單,還需要獨立測試、紅隊驗證與部署層面的風險控制。
第二,也不該因為 Claude Opus 4.7 在 MCP-Atlas 領先,就反過來說 Claude 全面勝過 GPT-5.5 。MCP-Atlas 更貼近工具調度與鏈式流程可靠度,和抽象推理、程式任務不是同一件事。
第三,沒有共同基準測試時,不應硬把 DeepSeek V4 與 Kimi K2.6 排到 GPT-5.5、Claude Opus 4.7 前後。Artificial Analysis 的資料顯示它們在開放權重生態中重要,但不足以建立四款模型的全球總排名
。
最誠實的排名方式不是一張總榜,而是按任務拆開:GPT-5.5 在可引用的 ARC-AGI 分數中領先 Claude Opus 4.7,也有最清楚的代理式程式任務分數;Claude Opus 4.7 在 MCP-Atlas 領先;DeepSeek V4 與 Kimi K2.6 是開放權重陣營的重要候選,但本文引用資料不足以把它們與兩款封閉模型做嚴格同表排名
。
如果你是在做產品或平台選型,最好的方法不是看榜單截圖,而是用自己的資料、提示、工具鏈、延遲要求與風險門檻做實測。基準測試可以縮小候選名單,但真正決定模型是否適合的,仍是你的實際工作負載。
Comments
0 comments