如果你只想問:GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6 邊個最識寫 code?答案未必係一個名。按目前引用報告,Claude Opus 4.6 在 SWE-Bench Verified 最有優勢;GPT-5.3-Codex 是 OpenAI 模型中 Terminal-Bench 2.0 表現較突出的選擇;GPT-5.4 相比 GPT-5.3-Codex 的直接 coding 提升,較像小幅進步而不是大勝 [1][
3][
5][
7][
9]。
真正要小心的是測試方法。SWE-Bench 有不同版本,Terminal-Bench 2.0 的公開榜又是 agent/model 配對,不是單獨模型裸跑分數;把它們硬併成一張總排名,很容易睇錯 [1][
6][
7][
10]。
先講結論:按工作揀模型
| 你的工作 | 優先測試 | 理據 | 但要小心 |
|---|---|---|---|
| 類似 SWE-Bench Verified 的 repository 修 bug | Claude Opus 4.6 | 多份報告指 Opus 4.6 在 SWE-Bench Verified 約 79.2% 至 80.8% [ | 只應同其他 Verified 結果比較,不應直接同 SWE-Bench Pro Public 當同一個測試 [ |
| Terminal/命令列 agent coding 工作流 | GPT-5.3-Codex,但要固定 harness 測 | 一份 GPT-5.4 對比列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%,高過 GPT-5.4 的 75.1% 同 Claude Opus 4.6 的 65.4% [ | 公開榜排的是 agent/model 配對;Claude Opus 4.6 配 ForgeCode 時可達 79.8% [ |
| 只在 OpenAI 模型之間揀 coding model | GPT-5.4 可以試,但預期是漸進式提升 | 同一份比較列出 GPT-5.4 在 SWE-Bench Pro 為 57.7%,GPT-5.3-Codex 為 56.8% [ | 同一比較中,GPT-5.4 在 Terminal-Bench 2.0 反而低過 GPT-5.3-Codex [ |
| 工具調用很多的 MCP 系統 | GPT-5.4 值得另開測試 | GPT-5.4 分析指 tool search 透過按需要載入工具定義,令 MCP token 用量減少 47% [ | Token 省了,不等於修 bug benchmark 一定贏 [ |
最大陷阱:這些 benchmark 不是同一把尺
SWE-Bench Verified 同 SWE-Bench Pro Public 不是同一個訊號
Claude Opus 4.6 最強的論據來自 SWE-Bench Verified。引用報告把它列在 79.2%、79.4% 或 80.8% 左右 [3][
5][
6][
7][
9]。如果你的工作接近真實 repository 修 bug,這是一個很有參考價值的起點。
GPT-5.3-Codex 就較難一句講完。有 GPT-5.4 分析列出 GPT-5.3-Codex 在 SWE-Bench Pro 為 56.8%;另外兩份 Opus-vs-Codex 對比則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% [3][
6][
7]。這不是叫你把分數平均,而是提醒你:benchmark 版本不同,分數不能隨便橫向比較。多個來源都明確指出 SWE-Bench Verified 同 SWE-Bench Pro Public 不是直接可比 [
6][
7][
10]。
GPT-5.4 在這批來源中最乾淨的 OpenAI 對 OpenAI coding 優勢,是同一分析內 SWE-Bench Pro 的 57.7% 對 GPT-5.3-Codex 的 56.8% [3]。另一份摘要亦提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字,同時提醒 Claude 與 GPT 的 broader comparison 不能當作 apples-to-apples [
10]。
Terminal-Bench 2.0 要看 agent harness
Terminal-Bench 2.0 更容易令人誤會,因為公開 leaderboard 排的是 agent/model 配對,不是單純模型本身 [1]。同一個 GPT-5.3-Codex,在榜上可以是 SageAgent 配對的 78.4%、Droid 配對的 77.3%、Simple Codex 配對的 75.1% [
1]。Claude Opus 4.6 亦一樣:ForgeCode 配對為 79.8%,Capy 配對為 75.3%,Terminus 2 配對為 62.9% [
1]。
這個差距足以改變誰是贏家。一份 GPT-5.4 對比說 GPT-5.3-Codex 在 Terminal-Bench 2.0 以 77.3% 高過 Claude Opus 4.6 的 65.4% [3];但公開榜上,ForgeCode/Claude Opus 4.6 的 79.8% 又高過 SageAgent/GPT-5.3-Codex 的 78.4% [
1]。所以,如果你測的是 terminal-agent 任務,請先固定同一個 harness,再談模型輸贏。
三個模型逐個睇
Claude Opus 4.6:Verified 式修 bug 的最穩起點
如果你用 SWE-Bench Verified 作為 coding 能力代理指標,Claude Opus 4.6 是這批來源中最有力的首選。它的 Verified 分數集中在約 79% 至 81%:GPT-5.4 分析列 79.2%,Opus-vs-Codex 對比列 79.4%,其他 benchmark roundup 則列 80.8% [3][
5][
6][
7][
9]。
但這不代表 Opus 4.6 在所有 coding 工作都通殺。它的 Terminal-Bench 表現相當受 agent 配對影響:部分比較報告列 65.4%,但公開榜顯示配 ForgeCode 時為 79.8%,配 Terminus 2 時為 62.9% [1][
3][
7][
9]。簡單講,Opus 4.6 很適合先拿來測 repository 修復,但不要直接封它做所有 coding 場景的冠軍。
GPT-5.3-Codex:OpenAI 陣營的 terminal-agent 強項
如果你的工作像 Terminal-Bench 那類 agentic shell/命令列任務,GPT-5.3-Codex 是 OpenAI 模型中最值得優先放入 bakeoff 的一個。對比報告列它在 Terminal-Bench 2.0 為 77.3%;公開榜亦列出 GPT-5.3-Codex 配 SageAgent 為 78.4%、配 Droid 為 77.3%、配 Simple Codex 為 75.1% [1][
3][
7][
9]。
它在 SWE-Bench 的解讀則要更謹慎。有報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%,亦有報告列它在 SWE-Bench Pro 為 56.8% [3][
6][
7][
9]。由於來源提醒這些變體不能直接互換,評估 GPT-5.3-Codex 時,最好用你實際會採用的同一個 SWE-Bench 版本同評測設定 [
6][
7][
10]。
GPT-5.4:coding 是小升級,工具效率更值得看
從提供的 benchmark 來看,GPT-5.4 並不像是 coding 上的大幅拋離。主要同源比較顯示,它在 SWE-Bench Pro 以 57.7% 微幅高過 GPT-5.3-Codex 的 56.8%;但在 Terminal-Bench 2.0,GPT-5.4 的 75.1% 又低過 GPT-5.3-Codex 的 77.3% [3]。
GPT-5.4 更有特色的數據,其實是工具使用。該分析指 GPT-5.4 的 tool search 會按需要載入工具定義,而不是把所有工具定義塞進上下文,令 MCP token 用量減少 47% [3]。對工具很多的 coding agent,這可能是實際系統優勢;但它應該同 SWE-Bench 或 Terminal-Bench 的準確率分開量度 [
3]。
實戰比較時,別被分數呃到
- 先決定 benchmark 版本,再決定贏家。SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成一欄分數 [
6][
7][
10]。
- Terminal 任務要固定 agent harness。公開 Terminal-Bench 2.0 leaderboard 顯示,同一模型配不同 agent,準確率可以有明顯差異 [
1]。
- 把 coding 準確率同工具效率分開看。GPT-5.4 報稱 47% MCP token 減幅,對工具重的系統有用,但它不是 SWE-Bench 或 Terminal-Bench 勝利的同義詞 [
3]。
- 混合來源排名只可當方向感。這批來源支持的是不同 benchmark 下有不同贏家;硬說一個模型全面第一,會誇大證據 [
1][
3][
6][
7][
10]。
底線
如果你要修 repository bug,先測 Claude Opus 4.6;如果你做 terminal-agent coding workflow,GPT-5.3-Codex 一定要入圍;如果你想用最新 OpenAI 模型,或者想驗證工具搜尋帶來的 token 效率,才把 GPT-5.4 放到另一組測試重點 [1][
3][
5][
7][
9]。
最安全的結論不是某一個模型全面稱霸,而是:贏家會隨 benchmark 版本、agent harness,以及你真正要跑的 workload 而變 [1][
6][
7][
10]。




