問 GPT-5.5 同 Claude Opus 4.7 邊個寫 code 更好,最容易踩中的坑,是把「coding」當成一個單一能力。實際上,修一個現有 repo 的 bug、令 test pass、整理 PR diff,跟一個 agent 在 terminal 入面反覆行命令、讀 log、再調整下一步,是兩種不同工作。
公開數字顯示:Claude Opus 4.7 在 repo 修正、測試通過類 benchmark 較有利;GPT-5.5 則在 Terminal-Bench 2.0 這類 CLI agent 評測有較強訊號。[16][
18][
29]
一句講晒
如果你要的是「改現有 codebase、修 bug、產出可開 PR 的 patch」,先試 Claude Opus 4.7。相反,如果你要的是「會自己跑 build、行 test、睇 log、調 CLI 工具的開發 agent」,先試 GPT-5.5。[16][
18]
快速選擇表
| 你要做的事 | 先試邊個 | 公開根據 | 點解要小心 |
|---|---|---|---|
| 改 repo、fix bug、令 test pass、出 PR patch | Claude Opus 4.7 | SWE-bench Pro:Claude 64.3%;報道列 GPT-5.5 58.6%、Claude 64.3%。[ | SWE-bench 有多個變體,供應商可能強調自己較有利的指標。[ |
| Terminal/CLI 型 coding agent | GPT-5.5 | Terminal-Bench 2.0:GPT-5.5 82.7、Claude Opus 4.7 69.4。[ | 它主要量度命令列規劃、迭代同工具協調,不等於所有 code quality。[ |
| 瀏覽、搜尋、工具呼叫混合的開發輔助 | 混合評估 | BrowseComp:GPT-5.5 84.4%、Claude 79.3%;MCP Atlas:GPT-5.5 75.3%、Claude 79.1%。[ | 工具使用評測不是 coding 專用評測。 |
| 長時間 agent loop 控制 | Claude Opus 4.7 亦值得列入 | Anthropic 稱 Opus 4.7 是其用於複雜推理和 agentic coding 的最強 generally available 模型;另有 xhigh effort 相關設定。[ | 實際表現好受 harness、prompt、權限、測試環境影響。 |
Claude Opus 4.7 更有說服力的場景
Claude Opus 4.7 最值得先試的,是「讀現有 codebase → 找出失敗原因 → 做小 patch → 令 test pass」這類工作。Anthropic 對外標示 Opus 4.7 在 SWE-bench Pro 有 64.3%,而比較 GPT-5.5 的報道亦把 Claude Opus 4.7 在同一指標列為較高分,GPT-5.5 為 58.6%。[16][
29]
這個方向亦符合 Anthropic 對 Opus 4.7 的定位。Anthropic 的 Claude API release notes 指出,2026年4月16日推出 Claude Opus 4.7,並稱它是該公司用於複雜推理和 agentic coding 的最強 generally available 模型。[24]
功能上,Opus 4.7 亦明顯針對長任務作調整。它加入 beta 功能 task budgets1] Anthropic 亦在品質報告更新中表示,Opus 4.7 用戶預設使用
xhigh effort,其他模型則預設為 high effort。[27]
所以,如果你的工作包括以下幾類,Claude Opus 4.7 應該排在 A/B test 的前面:
- 在現有 repo 重現 bug,再做修正
- 分析 failed tests,做最小改動 patch
- 產出可交給 reviewer 的 PR diff
- 讀懂較多 codebase context,再穩定地修改
但這不等於「所有 coding Claude 都一定贏」。SWE-bench 系列本身有多個變體,而且有分析提醒,供應商可能突出對自己較有利的指標。[4] 因此,SWE-bench Pro 分數適合用來篩選候選模型,不適合直接當成你公司 repo 的最終答案。
GPT-5.5 更有說服力的場景
GPT-5.5 的強項訊號,較集中在 terminal/CLI 型開發 agent。VentureBeat 整理的 Terminal-Bench 2.0 表格顯示,GPT-5.5 為 82.7,Claude Opus 4.7 為 69.4。[18]
這個差距之所以值得留意,是因為 Terminal-Bench 2.0 並不是單純叫模型生成一段 code。該 benchmark 被描述為模擬複雜命令列工作流,需要 planning、iteration 同 tool coordination。[16] 換句話講,它更接近一個 agent 自己執行命令、讀 terminal output、縮窄錯誤來源、再行下一輪 test 的工作方式。
以下工作流,可以先把 GPT-5.5 放在比較名單前面:
- 反覆執行 build、test、lint、migration 指令
- 讀 log 和 terminal output,再決定下一個命令
- 串連多個 CLI 工具去解決問題
- 重點不是生成新 code,而是操作開發環境和排錯流程
不過,Terminal-Bench 2.0 高分不等於所有 bug fix 或 PR quality 都較好。CLI workflow 能力和最終 patch 質素有重疊,但不是同一條評分軸。[16][
18]
工具使用評測:唔係一面倒
如果把範圍擴大到瀏覽和工具呼叫,結果並不單向。OpenAI 介紹 GPT-5.5 的表格顯示,BrowseComp 是 GPT-5.5 84.4%、Claude Opus 4.7 79.3%;但 MCP Atlas 則是 GPT-5.5 75.3%、Claude Opus 4.7 79.1%。[8]
所以,單講「邊個工具使用能力強」其實太粗疏。你要分清楚:是大量搜尋和瀏覽的開發助手?是控制本機 terminal 的 agent?還是針對現有 repo 做修補的 patch generator?不同場景,需要的能力不一樣。
睇 benchmark 時,三個伏要避開
第一,唔好把 overall ranking 當 coding ranking。例如 BenchLM 的 overall ranking 顯示 GPT-5.4 為 88 分、Claude Opus 4.7 為 86 分;但這不是 GPT-5.5,而且也不是 coding 專用評測。[13]
第二,唔好用一個 SWE-bench Pro 分數判斷所有 coding 能力。SWE-bench 有多個變體,供應商亦可能挑選較有利的指標來呈現結果。[4]
第三,唔好把 terminal benchmark 等同 code quality benchmark。Terminal-Bench 2.0 更偏向命令列規劃、反覆嘗試同工具協調;至於模型能否交出 reviewer 願意 merge 的 patch,仍然要另外驗證。[16][
18]
實際團隊應該點樣 A/B test?
公開 benchmark 最有用的地方,是幫你收窄候選名單。真正決定要喺自己 repo 入面做。比較 GPT-5.5 同 Claude Opus 4.7 時,盡量保持條件一致:
- 同一個 branch、同一個 commit 開始
- 給同一份 issue 描述和重現步驟
- 用同一組 test command 和 timeout
- 給同一套工具權限,例如 terminal、filesystem、package manager
- 設定相近的時間或 token budget
- 用同一把尺做 code review
評分亦不應只看「答啱未」。對開發團隊來講,更實用的指標包括:
- 第一次嘗試是否已經 test pass
- 需要幾多次 retry 或人手介入
- diff 是否過大、是否改到不相關地方
- 有沒有引入 security、performance、type safety regression
- reviewer 是否真的願意 merge
- 成本和 latency 是否配合團隊日常用量
最後建議
如果你的主要目標是 issue 修復、bug fix、test pass、PR patch,先試 Claude Opus 4.7。公開 SWE-bench Pro 訊號對 Claude Opus 4.7 較有利。[16][
29]
如果你的主要目標是 terminal 命令執行、log 分析、build/test 迭代、CLI 工具組合,先試 GPT-5.5。Terminal-Bench 2.0 的公開報道顯示 GPT-5.5 高於 Claude Opus 4.7。[18]
最安全的結論其實好簡單:改 codebase 的 coding,Claude Opus 4.7 先上;terminal 自動化為主的 agentic coding,GPT-5.5 先上。最後用你自己的 repo、測試和 review 標準,揀出更常交到可 merge code 的那一個。




