一句講晒:Claude Opus 4.7 同 GPT-5.5 唔係「邊個全面贏晒」咁簡單,而係要睇你拎嚟做咩。Claude Opus 4.7 喺 SWE-bench Pro、GPQA Diamond、MCP Atlas 比較突出;GPT-5.5 就喺 Terminal-Bench 2.0、OSWorld-Verified、BrowseComp、FrontierMath 較強 [6][
14][
15][
29][
34]。
更重要係,benchmark 並唔係同一把尺量到底。Artificial Analysis 將 GPT-5.5 放喺 xhigh 條件,同 Claude Opus 4.7 嘅 Non-reasoning、High Effort 條件比較;LLM Stats 亦提醒,兩個模型嘅分數更似係指出「適合邊類工作負載」,而唔係直接揀出一個總冠軍 [3][
4]。
Benchmark 快速對照
| 用途 | Benchmark | Claude Opus 4.7 | GPT-5.5 | 點樣解讀 |
|---|---|---|---|---|
| 編程修 issue | SWE-bench Pro | 64.3% | 58.6% | 實際 GitHub issue 解決類工作,Claude 數字較高 [ |
| 終端機/CLI 工作 | Terminal-Bench 2.0 | 69.4% | 82.7% | 檔案操作、script 執行、多步 CLI workflow,GPT-5.5 明顯領先 [ |
| 電腦使用 | OSWorld-Verified | 78.0% | 78.7% | 差距好細,但公開數字係 GPT-5.5 高 0.7 個百分點 [ |
| 搜尋/瀏覽 Agent | BrowseComp | 79.3% | 84.4% | 搜尋同瀏覽任務偏向 GPT-5.5;GPT-5.5 Pro 另列為 90.1% [ |
| MCP 工具使用 | MCP Atlas | 79.1% | 75.3% | 工具使用唔係一律 GPT-5.5 贏,呢項 Claude 較高 [ |
| 科學推理 | GPQA Diamond | 94.2–94.3% | 93.6% | 差距細,但 Claude Opus 4.7 略高 [ |
| 高難度數學 | FrontierMath T1-3/T4 | 43.8%/22.9% | 51.7%/35.4% | 數學難題方面 GPT-5.5 較清楚領先 [ |
| 綜合推理 | HLE,no tools | 31.2% 或 46.9% | 40.6% 或 41.4% | 不同來源數字有衝突,唔適合作為唯一 tie-breaker [ |
| 工具輔助推理 | HLE,with tools | 54.7% | 52.2% | 有工具條件下,Claude 數字略高 [ |
編程:Claude 較似「讀大 repo」,GPT-5.5 較似「落 terminal 做嘢」
如果你關心嘅係真實 GitHub issue 修復,SWE-bench Pro 會係最值得睇嘅指標之一。公開數字顯示,Claude Opus 4.7 係 64.3%,GPT-5.5 係 58.6%,Claude 高出一截 [6][
34]。Vellum 亦將呢個差距解讀為 Anthropic 喺真實 issue 解決場景仍然較有優勢 [
34]。
但一轉去 Terminal-Bench 2.0,畫面即刻反轉。呢個 benchmark 量度嘅係真實 CLI workflow,包括檔案操作、script 執行、多步終端機任務;GPT-5.5 係 82.7%,Claude Opus 4.7 係 69.4% [6][
14][
23]。如果你嘅產品要 AI 幫手跑 shell command、改檔、巡 repo、執 script,GPT-5.5 值得優先試。
定性比較都大致同方向。Mindstudio 指出,GPT-5.5 喺需要精準工具使用同檔案導航嘅 coding 問題上稍強;Claude Opus 4.7 就較適合跨大型 codebase 做架構層面推理 [5]。換句話講:你係想佢「深讀大工程再改好設計」,定係「喺 terminal 入面一步步做完任務」,會影響選擇。
SWE-bench Verified 就要小心睇。APIYI 同 LLM Stats 都列出 Claude Opus 4.7 嘅 SWE-bench Verified 為 87.6%,但就現有資料而言,GPT-5.5 喺完全相同條件下嘅對應數字未夠清楚 [8][
30]。同一個 benchmark 名,如果模型模式、測試 harness、重試規則唔同,結果可以唔同 [
3][
23]。
Agent 同工具使用:GPT-5.5 覆蓋面廣,但 Claude 有反擊位
OpenAI 發布資料列出 OSWorld-Verified:GPT-5.5 係 78.7%,Claude Opus 4.7 係 78.0% [15]。差距只有 0.7 個百分點,實務上可能要再睇任務設計、工具穩定性同失敗復原能力;但按公開數字,GPT-5.5 略高 [
15]。
BrowseComp 嘅差距較明顯。OpenAI 同一份資料顯示,GPT-5.5 係 84.4%,GPT-5.5 Pro 係 90.1%,Claude Opus 4.7 係 79.3% [15]。如果你做嘅係搜尋、瀏覽、資料搜集型 agent,GPT-5.5 系列可以放喺優先候選。
不過,唔好將「工具使用」四個字直接等同 GPT-5.5 贏。MCP Atlas 入面,Claude Opus 4.7 係 79.1%,GPT-5.5 係 75.3% [15]。所以評估 agent 時,最好拆開測:瀏覽器搜尋、GUI 電腦操作、MCP 型工具調用、terminal automation,各自跑自己嘅樣本集。
推理:GPQA 偏 Claude,FrontierMath 偏 GPT-5.5
科學同專業知識推理方面,GPQA Diamond 顯示 Claude Opus 4.7 係 94.2–94.3%,GPT-5.5 係 93.6% [14][
29]。差距唔算大,但按提供資料,Claude Opus 4.7 略佔上風 [
14][
29]。
數學就相反。FrontierMath T1-3 入面,GPT-5.5 係 51.7%,Claude Opus 4.7 係 43.8%;更難嘅 FrontierMath T4,GPT-5.5 係 35.4%,Claude Opus 4.7 係 22.9% [14]。如果你嘅 workload 涉及高難度數學、形式化推理、反覆驗算,GPT-5.5 應該先試。
HLE 暫時唔適合作最後判官
Humanity’s Last Exam,簡稱 HLE,係今次比較入面最要打醒十二分精神嘅一項。Mashable 列出 no-tools 條件下 GPT-5.5 係 40.6%,Claude Opus 4.7 係 31.2%,即 GPT-5.5 領先 [6]。但 o-mega 同 RDWorld 則列出 no-tools 條件下 GPT-5.5 係 41.4%,Claude Opus 4.7 係 46.9%,變成 Claude 領先 [
14][
23]。
到 with tools 條件,Mashable 同 RDWorld 都列出 GPT-5.5 係 52.2%,Claude Opus 4.7 係 54.7%,Claude 略高 [6][
23]。問題係 no-tools 數字來源之間差異太大,所以 HLE 可以參考,但唔好單靠佢決定「綜合推理邊個贏」。
Context、成本、排行榜:有用,但唔好當成拍板理由
Context window 方面,來源寫法亦有差異。Artificial Analysis 將 GPT-5.5 標示為 922k tokens,Claude Opus 4.7 為 1,000k tokens [3]。但 LLM Stats 就指兩個模型都以 1M-token context 推出,而且 input price 同一個級別 [
4]。實際採購或接 API 前,仍然要按你用嘅產品層級、推理模式、工具調用方式,再確認真正上限同收費。
排行榜可以幫你判斷模型大概係咪一線,但未必幫你做最後決定。BenchLM 將 Claude Opus 4.7 列為 provisional leaderboard 110 個模型中第 2、verified leaderboard 14 個模型中第 2 [1]。同一來源系列下,GPT-5.5 則係 provisional leaderboard 112 個模型中第 5、verified leaderboard 16 個模型中第 2 [
17]。呢啲排名足以說明兩者都係頂級模型,但落到產品,錯誤類型、延遲、成本、工具調用穩定性往往更關鍵。
應該先測邊個?
可以先測 Claude Opus 4.7 嘅情況:
- 你嘅任務似 SWE-bench Pro:要修真實 code issue、跨多個檔案理解 bug [
6][
34]
- 你重視大型 codebase 架構理解、重構、code review 質素 [
5]
- 你主要處理 GPQA Diamond 類型嘅高難度科學或專業知識問題 [
14][
29]
- 你嘅工具調用更接近 MCP Atlas 呈現嘅場景 [
15]
可以先測 GPT-5.5 嘅情況:
- 你要 AI 做 terminal/CLI automation、檔案操作、script 執行 [
6][
14][
23]
- 你重視 OSWorld-Verified 類型嘅電腦使用能力 [
15]
- 你嘅 agent 核心係搜尋、瀏覽、資料蒐集 [
15]
- 你需要 FrontierMath 類型嘅高難度數學推理 [
14]
最後點揀?
Claude Opus 4.7 嘅強項比較集中喺 SWE-bench Pro、GPQA Diamond、MCP Atlas [6][
14][
15][
29][
34]。GPT-5.5 則喺 Terminal-Bench 2.0、OSWorld-Verified、BrowseComp、FrontierMath 較亮眼 [
6][
14][
15][
23]。
所以真正問題唔係「Claude Opus 4.7 定 GPT-5.5 邊個一定贏」,而係「你想自動化邊種工作」。如果係複雜代碼修改、科學問答、架構層面理解,Claude Opus 4.7 值得先試;如果係 terminal automation、瀏覽搜尋、電腦操作、高難度數學,GPT-5.5 會係更合理嘅第一候選。




