Claude Opus 4.6 最強的論據來自 SWE-Bench Verified。引用報告把它列在 79.2%、79.4% 或 80.8% 左右 。如果你的工作接近真實 repository 修 bug,這是一個很有參考價值的起點。
GPT-5.3-Codex 就較難一句講完。有 GPT-5.4 分析列出 GPT-5.3-Codex 在 SWE-Bench Pro 為 56.8%;另外兩份 Opus-vs-Codex 對比則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% 。這不是叫你把分數平均,而是提醒你:benchmark 版本不同,分數不能隨便橫向比較。多個來源都明確指出 SWE-Bench Verified 同 SWE-Bench Pro Public 不是直接可比
。
GPT-5.4 在這批來源中最乾淨的 OpenAI 對 OpenAI coding 優勢,是同一分析內 SWE-Bench Pro 的 57.7% 對 GPT-5.3-Codex 的 56.8% 。另一份摘要亦提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字,同時提醒 Claude 與 GPT 的 broader comparison 不能當作 apples-to-apples
。
Terminal-Bench 2.0 更容易令人誤會,因為公開 leaderboard 排的是 agent/model 配對,不是單純模型本身 。同一個 GPT-5.3-Codex,在榜上可以是 SageAgent 配對的 78.4%、Droid 配對的 77.3%、Simple Codex 配對的 75.1%
。Claude Opus 4.6 亦一樣:ForgeCode 配對為 79.8%,Capy 配對為 75.3%,Terminus 2 配對為 62.9%
。
這個差距足以改變誰是贏家。一份 GPT-5.4 對比說 GPT-5.3-Codex 在 Terminal-Bench 2.0 以 77.3% 高過 Claude Opus 4.6 的 65.4% ;但公開榜上,ForgeCode/Claude Opus 4.6 的 79.8% 又高過 SageAgent/GPT-5.3-Codex 的 78.4%
。所以,如果你測的是 terminal-agent 任務,請先固定同一個 harness,再談模型輸贏。
如果你用 SWE-Bench Verified 作為 coding 能力代理指標,Claude Opus 4.6 是這批來源中最有力的首選。它的 Verified 分數集中在約 79% 至 81%:GPT-5.4 分析列 79.2%,Opus-vs-Codex 對比列 79.4%,其他 benchmark roundup 則列 80.8% 。
但這不代表 Opus 4.6 在所有 coding 工作都通殺。它的 Terminal-Bench 表現相當受 agent 配對影響:部分比較報告列 65.4%,但公開榜顯示配 ForgeCode 時為 79.8%,配 Terminus 2 時為 62.9% 。簡單講,Opus 4.6 很適合先拿來測 repository 修復,但不要直接封它做所有 coding 場景的冠軍。
如果你的工作像 Terminal-Bench 那類 agentic shell/命令列任務,GPT-5.3-Codex 是 OpenAI 模型中最值得優先放入 bakeoff 的一個。對比報告列它在 Terminal-Bench 2.0 為 77.3%;公開榜亦列出 GPT-5.3-Codex 配 SageAgent 為 78.4%、配 Droid 為 77.3%、配 Simple Codex 為 75.1% 。
它在 SWE-Bench 的解讀則要更謹慎。有報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%,亦有報告列它在 SWE-Bench Pro 為 56.8% 。由於來源提醒這些變體不能直接互換,評估 GPT-5.3-Codex 時,最好用你實際會採用的同一個 SWE-Bench 版本同評測設定
。
從提供的 benchmark 來看,GPT-5.4 並不像是 coding 上的大幅拋離。主要同源比較顯示,它在 SWE-Bench Pro 以 57.7% 微幅高過 GPT-5.3-Codex 的 56.8%;但在 Terminal-Bench 2.0,GPT-5.4 的 75.1% 又低過 GPT-5.3-Codex 的 77.3% 。
GPT-5.4 更有特色的數據,其實是工具使用。該分析指 GPT-5.4 的 tool search 會按需要載入工具定義,而不是把所有工具定義塞進上下文,令 MCP token 用量減少 47% 。對工具很多的 coding agent,這可能是實際系統優勢;但它應該同 SWE-Bench 或 Terminal-Bench 的準確率分開量度
。
如果你要修 repository bug,先測 Claude Opus 4.6;如果你做 terminal-agent coding workflow,GPT-5.3-Codex 一定要入圍;如果你想用最新 OpenAI 模型,或者想驗證工具搜尋帶來的 token 效率,才把 GPT-5.4 放到另一組測試重點 。
Comments
0 comments