| SWE-bench 有多種變體,廠商也可能強調對自己有利的指標。 |
| 終端機/CLI 型開發代理 | GPT-5.5 | VentureBeat 整理的 Terminal-Bench 2.0 表格中,GPT-5.5 為 82.7、Claude Opus 4.7 為 69.4。 | Terminal-Bench 2.0 看的是命令列工作流程中的規劃、反覆嘗試與工具協調,不等於所有程式碼品質。 |
| 瀏覽、搜尋、工具呼叫混合的開發輔助 | 視任務而定 | OpenAI 資料顯示 BrowseComp 為 GPT-5.5 84.4%、Claude Opus 4.7 79.3%;但 MCP Atlas 為 GPT-5.5 75.3%、Claude Opus 4.7 79.1%。 | 工具使用評測不全是 coding 評測。 |
| 長時間代理迴圈控制 | Claude Opus 4.7 也很值得測 | Anthropic 將 Opus 4.7 描述為自家用於複雜推理與代理式編程的最強 generally available 模型。 | 實際表現會受測試框架、prompt、權限與環境影響。 |
Claude Opus 4.7 最值得先試的場景,是面對一個已經存在的程式碼庫:讀失敗測試、推斷原因、做出較小的 patch,最後讓測試綠燈。Anthropic 在自家 coding 頁面標示 Opus 4.7 在 SWE-bench Pro 領先、分數為 64.3%;另有報導也把 GPT-5.5 與 Claude Opus 4.7 在同一指標下整理為 58.6% 對 64.3%。
這也符合 Anthropic 對 Opus 4.7 的定位。Anthropic 的 Claude API release notes 指出,2026 年 4 月 16 日推出的 Claude Opus 4.7,是其用於複雜推理與代理式 coding 的最強 generally available 模型。
功能上,Opus 4.7 也更明顯在支援長時間代理任務。它新增 beta 功能 task budgets Anthropic 也表示,Opus 4.7 使用者預設會使用
xhigh effort。
因此,如果你的需求包括以下幾種,Claude Opus 4.7 會是自然的第一候選:
但這不代表「所有寫程式任務都是 Claude 勝出」。SWE-bench 系列本身有不同版本,資料也提醒廠商可能各自凸顯較有利的 benchmark;所以公開分數最好當成篩選候選模型的起點,而不是最終答案。
這個差距之所以重要,是因為 Terminal-Bench 2.0 不是單純要求模型寫一段程式碼。該評測描述的是複雜命令列工作流程,需要規劃、反覆嘗試與工具協調。 換句話說,它更接近開發者日常中那種「跑測試 → 看錯誤 → 改命令 → 再跑一次」的代理式工作。
如果你的流程長這樣,GPT-5.5 應該優先進入測試:
如果把範圍放寬到瀏覽、搜尋與工具呼叫,結果其實相當混合。OpenAI 的 GPT-5.5 介紹資料顯示,BrowseComp 中 GPT-5.5 為 84.4%、Claude Opus 4.7 為 79.3%;但 MCP Atlas 中 GPT-5.5 為 75.3%、Claude Opus 4.7 為 79.1%。
所以「哪個模型比較會用工具」這個問題,不能直接等同於「哪個模型比較會寫程式」。你要先拆清楚:是搜尋資料比較多?是操作本機終端機比較多?還是要修改大型程式碼庫並交出可 review 的 PR?
第一,不要把整體模型排名當成 coding 排名。例如 BenchLM 的 overall ranking 顯示 GPT-5.4 為 88 分、Claude Opus 4.7 為 86 分;但那不是 GPT-5.5,也不是 coding 專用評測。
第三,不要把終端機 benchmark 當成程式碼品質 benchmark。Terminal-Bench 2.0 更接近命令列規劃、迭代與工具協調能力;模型產出的 patch 是否夠小、夠安全、能否被 reviewer 接受,仍然要另外檢查。
公開 benchmark 可以幫你縮小候選範圍,但真正決策應該回到自己的 repo。建議用同一批任務做 A/B test:
評估時也不要只看「有沒有答對」,更要看工程團隊真正會在意的指標:
如果目標是操作終端機、讀 log、反覆跑 build 與 test、串接 CLI 工具,則先測 GPT-5.5;Terminal-Bench 2.0 的公開報導顯示 GPT-5.5 分數高於 Claude Opus 4.7。
最保守也最實用的結論是:程式碼修補型任務,先看 Claude Opus 4.7;終端機自動化與代理式開發,先看 GPT-5.5。最後,請用你自己的 repo 決定勝負。
Comments
0 comments