先講結論:這不是「誰比較會寫程式」的一刀切問題。從提供的公開資料來看,Claude Opus 4.6 在 SWE-Bench Verified 這類儲存庫修 bug 測試上最有說服力;GPT-5.3-Codex 是 OpenAI 陣營在 Terminal-Bench 2.0 終端機代理流程中的強勢選項;GPT-5.4 的 coding 成績相對像是小幅改進,而不是壓倒性升級 [1][
3][
5][
7][
9]。
真正容易踩坑的是測法。SWE-Bench 的不同版本不能直接互比,Terminal-Bench 的公開榜單則不只測模型,也測搭配的 agent harness,也就是代理框架與執行流程 [1][
6][
7][
10]。
快速選型:先看你的工作負載
| 你的主要場景 | 優先測試的模型 | 依據 | 主要但書 |
|---|---|---|---|
| 類似 SWE-Bench Verified 的儲存庫 bug 修復 | Claude Opus 4.6 | 多份報告把 Opus 4.6 的 SWE-Bench Verified 成績列在約 79.2% 到 80.8% [ | 請拿 Verified 對 Verified 比,不要把 SWE-Bench Pro Public 當成同一個測試 [ |
| 終端機代理、shell 操作、長流程 coding 任務 | GPT-5.3-Codex,但要固定 harness 再比 | GPT-5.4 相關比較列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%,高於 GPT-5.4 的 75.1% 與 Claude Opus 4.6 的 65.4% [ | 公開榜單排名的是 agent/model 組合;Claude Opus 4.6 搭配 ForgeCode 時也出現 79.8% [ |
| 只在 OpenAI 模型中挑 coding 模型 | GPT-5.4 可測,但預期是漸進式差距 | 同一份比較中,GPT-5.4 在 SWE-Bench Pro 為 57.7%,GPT-5.3-Codex 為 56.8% [ | 同一比較也顯示 GPT-5.4 在 Terminal-Bench 2.0 低於 GPT-5.3-Codex [ |
| 工具很多、MCP 系統很重的 coding agent | GPT-5.4 值得單獨評估 | GPT-5.4 分析指出,工具搜尋可按需載入工具定義,使 MCP token 使用量降低 47% [ | token 省不省,和 bug 修復基準測試是否贏,是兩件不同的事 [ |
最大陷阱:分數看起來像排行榜,其實不是同一場比賽
SWE-Bench Verified 與 SWE-Bench Pro Public 不能混比
Claude Opus 4.6 最強的證據來自 SWE-Bench Verified。引用資料中,它在這個版本的成績分別被列為 79.2%、79.4% 或 80.8% [3][
5][
7][
9]。
GPT-5.3-Codex 的 SWE-Bench 敘事比較複雜。GPT-5.4 相關分析把 GPT-5.3-Codex 在 SWE-Bench Pro 的分數列為 56.8%,但另兩份 Opus 與 Codex 的比較則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% [3][
6][
7]。這不是叫你把分數平均,而是提醒你:測試版本不同,不能草率排座次。多個來源也明確提醒,SWE-Bench Verified 與 SWE-Bench Pro Public 並不能直接互換比較 [
6][
7][
10]。
至於 GPT-5.4,在這批資料中最乾淨的 OpenAI 對 OpenAI coding 優勢,是同一份分析裡的 SWE-Bench Pro:GPT-5.4 為 57.7%,GPT-5.3-Codex 為 56.8% [3]。另一份整理也提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字,同時警告 Claude 與 GPT 的 broader 比較不是 apples-to-apples [
10]。
Terminal-Bench 2.0 測到的不只是模型
Terminal-Bench 2.0 更容易被誤讀,因為公開 leaderboard 列的是「agent/model 組合」,不是孤立的基礎模型能力 [1]。同一個模型換了代理框架,分數就可能差很多。
在該榜單中,GPT-5.3-Codex 搭配 SageAgent 為 78.4%,搭配 Droid 為 77.3%,搭配 Simple Codex 為 75.1% [1]。Claude Opus 4.6 則在搭配 ForgeCode 時為 79.8%,搭配 Capy 時為 75.3%,搭配 Terminus 2 時為 62.9% [
1]。
這個落差已經足以改變「看起來的冠軍」。GPT-5.4 相關比較把 GPT-5.3-Codex 在 Terminal-Bench 2.0 列為 77.3%,高於 Claude Opus 4.6 的 65.4% [3]。但公開榜單也有 ForgeCode/Claude Opus 4.6 的 79.8%,高於 SageAgent/GPT-5.3-Codex 的 78.4% [
1]。所以,若你在評估終端機代理工作流,務必先固定 harness,再談模型勝負。
三個模型怎麼看?
Claude Opus 4.6:最適合先拿來測 Verified 風格 bug 修復
如果你的 coding 品質代理指標是 SWE-Bench Verified,Claude Opus 4.6 是這批資料中最有根據的起點。它的 Verified 成績集中在約 79% 到 81%:GPT-5.4 分析列為 79.2%,Opus-vs-Codex 比較列為 79.4%,其他 benchmark roundup 則列到 80.8% [3][
5][
6][
7][
9]。
但這不代表 Opus 4.6 在所有 coding 任務都贏。它在 Terminal-Bench 的故事比較分裂:比較文列出 65.4%,公開榜單則顯示 Opus 4.6 搭配 ForgeCode 可到 79.8%,搭配 Terminus 2 則是 62.9% [1][
3][
7][
9]。換句話說,它是 Verified 型儲存庫修復的安全首選,不是萬用 coding 冠軍。
GPT-5.3-Codex:OpenAI 陣營的終端機代理強者
如果你的工作像 Terminal-Bench 這類 agentic shell 任務,GPT-5.3-Codex 是 OpenAI 模型中很該列入 bakeoff 的選項。比較報告列出它在 Terminal-Bench 2.0 為 77.3%;公開榜單也列出 GPT-5.3-Codex 搭配 SageAgent 為 78.4%、搭配 Droid 為 77.3%、搭配 Simple Codex 為 75.1% [1][
3][
7][
9]。
它的 SWE-Bench 成績則必須小心解讀。有些報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%,另一些則列 SWE-Bench Pro 為 56.8% [3][
6][
7][
9]。既然來源已提醒這些版本不能直接互比,你就應該用自己要採用的同一個 SWE-Bench 版本與評估設定來判斷它 [
6][
7][
10]。
GPT-5.4:coding 分數小幅前進,工具使用才是更值得看的點
就這批 benchmark 而言,GPT-5.4 不像是 coding 能力大爆發。主要的同源比較顯示,它在 SWE-Bench Pro 小幅領先 GPT-5.3-Codex,57.7% 對 56.8%;但在 Terminal-Bench 2.0 反而較低,75.1% 對 77.3% [3]。
更有辨識度的是工具使用。GPT-5.4 分析指出,工具搜尋會按需載入工具定義,而不是把所有定義一次塞進上下文,因此 MCP token 使用量降低 47% [3]。若你建的是工具很多的 coding agent,這可能是系統層面的實際優勢;但它仍應和 benchmark accuracy 分開衡量。
實務比較時,避免這四個錯誤
- 先決定 benchmark 版本,再宣布贏家。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成同一欄分數 [
6][
7][
10]。
- 終端機任務要固定 agent harness。 Terminal-Bench 2.0 公開榜單顯示,同一模型搭配不同 agent,準確率可能有明顯差異 [
1]。
- 把 coding accuracy 與工具效率分開看。 GPT-5.4 的 47% MCP token 降幅,對工具密集系統有參考價值,但不等於 SWE-Bench 或 Terminal-Bench 勝利 [
3]。
- 把跨來源排名當方向,不要當定論。 這批資料支持的是「不同測法有不同贏家」,而不是單一模型全面稱霸 [
1][
3][
6][
7][
10]。
結論
若你要做 Verified 風格的儲存庫 bug 修復,先測 Claude Opus 4.6;若你要跑終端機代理流程,GPT-5.3-Codex 一定要放進比較;若你需要最新 OpenAI 模型,或想評估工具搜尋帶來的 token 效率,GPT-5.4 值得另外測 [1][
3][
5][
7][
9]。
最穩妥的答案不是「某一個模型統治 coding」,而是:勝負會隨 benchmark 版本、agent harness,以及你真正要跑的工作負載而變 [1][
6][
7][
10]。




