看 GPT-5.5 與 Claude Opus 4.7 的基準測試,最實用的結論不是誰一統天下,而是它們各自適合不同工作。LLM Stats 的比較也採同一個角度:這些分數不是通用冠軍榜,而是工作負載訊號 [2]。目前可見資料顯示,GPT-5.5 在終端機式執行、FrontierMath 與 BrowseComp 類研究任務上較強;Claude Opus 4.7 則在更難的軟體工程題與 MCP/工具編排上較突出 [
21][
27][
28][
32]。
基準測試速覽
| 測試/領域 | GPT-5.5 | Claude Opus 4.7 | 怎麼讀 |
|---|---|---|---|
| SWE-Bench Verified | 88.7% | 87.6% | 幾乎平手;GPT-5.5 領先 1.1 個百分點,不能單獨視為決定性差距 [ |
| SWE-Bench Pro | 58.6% | 64.3% | 更難的軟體工程任務中,Claude 優勢明顯 [ |
| Terminal-Bench 2.0 | 82.7% | 69.4% reported | 終端機導向任務中 GPT-5.5 較強,但 Opus 公開分數在不同來源中呈現方式不完全一致 [ |
| MCP Atlas | 75.3% | 77.3–79.1% | 工具呼叫與多工具編排上,Claude 較佔優勢 [ |
| FrontierMath Tier 1–3 | 51.7% | 43.8% | 數學密集推理中,GPT-5.5 領先 [ |
| FrontierMath Tier 4 | 35.4% | 22.9% | 更難的數學層級,GPT-5.5 仍明顯領先 [ |
| GPQA Diamond | 93.6% | 94.2% | 幾乎平手;Claude 小幅領先 [ |
| Humanity’s Last Exam,無工具 | 41.4% | 46.9% | 廣泛考題式推理中,Claude 較高 [ |
| Humanity’s Last Exam,使用工具 | 52.2% | 54.7% | 工具設定下 Claude 仍小幅領先 [ |
| BrowseComp | 84.4% | 79.3% | BrowseComp 類網頁研究任務中,GPT-5.5 報告分數較高 [ |
這張表有兩列要特別保留彈性。Terminal-Bench 2.0 上,LLM Stats 與其他摘要把 Opus 4.7 列為 69.4%,但也有比較只列 GPT-5.5 的 82.7%,沒有給出 Opus 的公開數字 [1][
18][
27]。MCP Atlas 方面,BenchLM 的公開快照顯示 Claude Opus 4.7 為 77.3%、GPT-5.5 為 75.3%;其他報告則引用 Claude 79.1% 對 GPT-5.5 75.3% [
21][
27][
32]。方向性結論仍相當穩定:終端機式執行看起來 GPT-5.5 更強,MCP/工具編排則是 Claude Opus 4.7 更強。
程式能力:別只看 Verified,Pro 更像硬仗
在程式能力上,SWE-Bench Verified 很容易成為標題焦點,但真正值得細看的其實是 SWE-Bench Pro。SWE-bench 測試模型解決真實 GitHub issue 的能力,而 Pro 版本被描述為更難、問題更複雜 [17]。在 SWE-Bench Verified 上,GPT-5.5 為 88.7%,Claude Opus 4.7 為 87.6%,比較像實務上的平手 [
1][
18]。
更硬的訊號來自 SWE-Bench Pro:Claude Opus 4.7 為 64.3%,GPT-5.5 為 58.6%,Claude 領先 5.7 個百分點 [32]。Pro 的題型也更接近大型專案中的麻煩問題:一份概覽指出,Verified set 有 500 個任務、12 個 Python repository;Pro set 則有 1,865 個任務、41 個 repository,涵蓋 Python、Go、TypeScript 與 JavaScript,平均修改檔案數也從 Verified 約 1 個增加到 Pro 的 4.1 個 [
22]。
實務含義很清楚:如果你的工作是多檔案 bug 修復、pull request 修補、重構,或生產環境中的程式代理,Claude Opus 4.7 值得先測。MindStudio 的程式比較也指出,Opus 4.7 在大型 codebase 中需要較廣架構推理的任務上表現較強 [3]。
代理與工具:終端機看 GPT-5.5,編排看 Claude
若工作流高度依賴終端機、shell 指令、CLI 自動化或逐步操作電腦,GPT-5.5 的理由較充分。Terminal-Bench 2.0 上,GPT-5.5 報告為 82.7%,Claude Opus 4.7 報告為 69.4% [18][
27]。不過,因部分公開比較沒有列出 Opus 的對應數字,這裡最好把它當成方向性訊號,而不是精確排行榜真理 [
1]。
工具編排則是 Claude 較有說服力。MCP Atlas 是測試模型透過 Model Context Protocol 整合與外部工具進行工具呼叫的基準測試 [21]。BenchLM 的公開快照顯示,Claude Opus 4.7 為 77.3%,GPT-5.5 為 75.3% [
21];另有報告把同一組比較列為 79.1% 對 75.3% [
27][
32]。如果你的 agent 需要連續調用多個 API、服務與工具,Claude Opus 4.7 會是更合適的第一個測試對象。
推理與研究:數學、考題、瀏覽不是同一件事
把 reasoning 當成單一能力很容易誤判。OpenAI 的 GPT-5.5 表格顯示,在 FrontierMath Tier 1–3 上,GPT-5.5 為 51.7%,Claude Opus 4.7 為 43.8%;在 FrontierMath Tier 4 上,GPT-5.5 為 35.4%,Claude 為 22.9% [28]。也就是說,數學密集型推理目前更偏向 GPT-5.5。
但 GPQA Diamond 與 Humanity’s Last Exam 給出的訊號不同。GPQA Diamond 幾乎平手:GPT-5.5 為 93.6%,Claude Opus 4.7 為 94.2% [28]。Humanity’s Last Exam 則是 Claude 較高:無工具設定下為 46.9% 對 GPT-5.5 的 41.4%,使用工具設定下為 54.7% 對 GPT-5.5 的 52.2% [
28]。
至於 BrowseComp 類研究任務,GPT-5.5 更突出:報告分數為 84.4%,Claude Opus 4.7 為 79.3% [5][
27]。如果你的自動化流程以網頁搜尋、資料瀏覽與研究整理為主,GPT-5.5 會是更合理的起點。
該選哪一個模型?
優先試 GPT-5.5,如果你要的是:
- 終端機執行、shell 自動化、CLI 型 agent,或一步一步操作電腦的工作流;Terminal-Bench 2.0 比較中 GPT-5.5 較高 [
18][
27]。
- 數學密集型推理;FrontierMath Tier 1–3 與 Tier 4 都是 GPT-5.5 領先 [
28]。
- BrowseComp 類網頁研究或高度依賴瀏覽的分析;GPT-5.5 報告為 84.4%,Claude Opus 4.7 為 79.3% [
5][
27]。
優先試 Claude Opus 4.7,如果你要的是:
- 複雜 codebase 變更、多檔案 bug 修復,或 SWE-Bench Pro 這類硬工程任務;該基準測試上 Claude 以 64.3% 對 GPT-5.5 的 58.6% 領先 [
32]。
- MCP、API 與多工具編排型 agent;MCP Atlas 快照中 Claude Opus 4.7 高於 GPT-5.5 [
21][
27][
32]。
- 依賴大型 codebase 架構推理的工作流;MindStudio 的比較指出 Opus 4.7 在大型 codebase 的廣泛架構推理上較強 [
3]。
看基準測試時,先打個折
公開跑分不應被當成最終上線真相。Anthropic 在 Claude Opus 4.7 發布說明中提到測試 harness、內部實作與方法更新,並指出部分分數不能直接與公開 leaderboard 分數比較 [19]。另一方面,針對 GPT-5.5 的 builder 取向摘要也提醒,部分基準分數屬於 OpenAI 報告,第三方重現仍有限 [
31]。
真正的部署決策,最好做一輪小型內部評估:拿你最近的 ticket、repository、工具鏈、prompt 與通過/失敗標準,讓兩個模型跑同一組任務。排行榜能給方向;最後該選誰,還是取決於你的工作負載、延遲容忍度、工具環境與失敗成本。
結論
如果你需要的是一般自動化、終端機執行、數學密集推理與 BrowseComp 類研究,GPT-5.5 看起來是較好的預設起點 [27][
28]。如果你的核心成果是困難程式修復、生產級 coding agent 或多工具編排,Claude Opus 4.7 會是更強的候選模型 [
21][
32]。最穩妥的判斷是:GPT-5.5 強在廣泛執行、數學與研究;Claude Opus 4.7 強在高難度軟體工程與工具型 agent 工作流。




