GPT-5.3-Codex 的 SWE-Bench 敘事比較複雜。GPT-5.4 相關分析把 GPT-5.3-Codex 在 SWE-Bench Pro 的分數列為 56.8%,但另兩份 Opus 與 Codex 的比較則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% 。這不是叫你把分數平均,而是提醒你:測試版本不同,不能草率排座次。多個來源也明確提醒,SWE-Bench Verified 與 SWE-Bench Pro Public 並不能直接互換比較
。
至於 GPT-5.4,在這批資料中最乾淨的 OpenAI 對 OpenAI coding 優勢,是同一份分析裡的 SWE-Bench Pro:GPT-5.4 為 57.7%,GPT-5.3-Codex 為 56.8% 。另一份整理也提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字,同時警告 Claude 與 GPT 的 broader 比較不是 apples-to-apples
。
在該榜單中,GPT-5.3-Codex 搭配 SageAgent 為 78.4%,搭配 Droid 為 77.3%,搭配 Simple Codex 為 75.1% 。Claude Opus 4.6 則在搭配 ForgeCode 時為 79.8%,搭配 Capy 時為 75.3%,搭配 Terminus 2 時為 62.9%
。
這個落差已經足以改變「看起來的冠軍」。GPT-5.4 相關比較把 GPT-5.3-Codex 在 Terminal-Bench 2.0 列為 77.3%,高於 Claude Opus 4.6 的 65.4% 。但公開榜單也有 ForgeCode/Claude Opus 4.6 的 79.8%,高於 SageAgent/GPT-5.3-Codex 的 78.4%
。所以,若你在評估終端機代理工作流,務必先固定 harness,再談模型勝負。
如果你的 coding 品質代理指標是 SWE-Bench Verified,Claude Opus 4.6 是這批資料中最有根據的起點。它的 Verified 成績集中在約 79% 到 81%:GPT-5.4 分析列為 79.2%,Opus-vs-Codex 比較列為 79.4%,其他 benchmark roundup 則列到 80.8% 。
但這不代表 Opus 4.6 在所有 coding 任務都贏。它在 Terminal-Bench 的故事比較分裂:比較文列出 65.4%,公開榜單則顯示 Opus 4.6 搭配 ForgeCode 可到 79.8%,搭配 Terminus 2 則是 62.9% 。換句話說,它是 Verified 型儲存庫修復的安全首選,不是萬用 coding 冠軍。
如果你的工作像 Terminal-Bench 這類 agentic shell 任務,GPT-5.3-Codex 是 OpenAI 模型中很該列入 bakeoff 的選項。比較報告列出它在 Terminal-Bench 2.0 為 77.3%;公開榜單也列出 GPT-5.3-Codex 搭配 SageAgent 為 78.4%、搭配 Droid 為 77.3%、搭配 Simple Codex 為 75.1% 。
它的 SWE-Bench 成績則必須小心解讀。有些報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%,另一些則列 SWE-Bench Pro 為 56.8% 。既然來源已提醒這些版本不能直接互比,你就應該用自己要採用的同一個 SWE-Bench 版本與評估設定來判斷它
。
就這批 benchmark 而言,GPT-5.4 不像是 coding 能力大爆發。主要的同源比較顯示,它在 SWE-Bench Pro 小幅領先 GPT-5.3-Codex,57.7% 對 56.8%;但在 Terminal-Bench 2.0 反而較低,75.1% 對 77.3% 。
更有辨識度的是工具使用。GPT-5.4 分析指出,工具搜尋會按需載入工具定義,而不是把所有定義一次塞進上下文,因此 MCP token 使用量降低 47% 。若你建的是工具很多的 coding agent,這可能是系統層面的實際優勢;但它仍應和 benchmark accuracy 分開衡量。
Comments
0 comments