studioglobal
熱門探索內容
答案已發布7 個來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6:最佳 coding 模型要看測法

沒有一個模型能在所有 coding 場景通吃:Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%,GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%,GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。 若是儲存庫 bug 修復,先測 Claude Opus 4.6;若是終端機代理工作流,把 GPT 5.3 Codex 納入候選;若是 OpenAI only 或工具密集系統,再特別評估 GPT 5.4 的工具搜尋與 MCP token 節省 [1][3]。

4.8K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

先講結論:這不是「誰比較會寫程式」的一刀切問題。從提供的公開資料來看,Claude Opus 4.6 在 SWE-Bench Verified 這類儲存庫修 bug 測試上最有說服力;GPT-5.3-Codex 是 OpenAI 陣營在 Terminal-Bench 2.0 終端機代理流程中的強勢選項;GPT-5.4 的 coding 成績相對像是小幅改進,而不是壓倒性升級 [1][3][5][7][9]

真正容易踩坑的是測法。SWE-Bench 的不同版本不能直接互比,Terminal-Bench 的公開榜單則不只測模型,也測搭配的 agent harness,也就是代理框架與執行流程 [1][6][7][10]

快速選型:先看你的工作負載

你的主要場景優先測試的模型依據主要但書
類似 SWE-Bench Verified 的儲存庫 bug 修復Claude Opus 4.6多份報告把 Opus 4.6 的 SWE-Bench Verified 成績列在約 79.2% 到 80.8% [3][5][7][9]請拿 Verified 對 Verified 比,不要把 SWE-Bench Pro Public 當成同一個測試 [6][7][10]
終端機代理、shell 操作、長流程 coding 任務GPT-5.3-Codex,但要固定 harness 再比GPT-5.4 相關比較列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%,高於 GPT-5.4 的 75.1% 與 Claude Opus 4.6 的 65.4% [3]公開榜單排名的是 agent/model 組合;Claude Opus 4.6 搭配 ForgeCode 時也出現 79.8% [1]
只在 OpenAI 模型中挑 coding 模型GPT-5.4 可測,但預期是漸進式差距同一份比較中,GPT-5.4 在 SWE-Bench Pro 為 57.7%,GPT-5.3-Codex 為 56.8% [3]同一比較也顯示 GPT-5.4 在 Terminal-Bench 2.0 低於 GPT-5.3-Codex [3]
工具很多、MCP 系統很重的 coding agentGPT-5.4 值得單獨評估GPT-5.4 分析指出,工具搜尋可按需載入工具定義,使 MCP token 使用量降低 47% [3]token 省不省,和 bug 修復基準測試是否贏,是兩件不同的事 [3]

最大陷阱:分數看起來像排行榜,其實不是同一場比賽

SWE-Bench Verified 與 SWE-Bench Pro Public 不能混比

Claude Opus 4.6 最強的證據來自 SWE-Bench Verified。引用資料中,它在這個版本的成績分別被列為 79.2%、79.4% 或 80.8% [3][5][7][9]

GPT-5.3-Codex 的 SWE-Bench 敘事比較複雜。GPT-5.4 相關分析把 GPT-5.3-Codex 在 SWE-Bench Pro 的分數列為 56.8%,但另兩份 Opus 與 Codex 的比較則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% [3][6][7]。這不是叫你把分數平均,而是提醒你:測試版本不同,不能草率排座次。多個來源也明確提醒,SWE-Bench Verified 與 SWE-Bench Pro Public 並不能直接互換比較 [6][7][10]

至於 GPT-5.4,在這批資料中最乾淨的 OpenAI 對 OpenAI coding 優勢,是同一份分析裡的 SWE-Bench Pro:GPT-5.4 為 57.7%,GPT-5.3-Codex 為 56.8% [3]。另一份整理也提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字,同時警告 Claude 與 GPT 的 broader 比較不是 apples-to-apples [10]

Terminal-Bench 2.0 測到的不只是模型

Terminal-Bench 2.0 更容易被誤讀,因為公開 leaderboard 列的是「agent/model 組合」,不是孤立的基礎模型能力 [1]。同一個模型換了代理框架,分數就可能差很多。

在該榜單中,GPT-5.3-Codex 搭配 SageAgent 為 78.4%,搭配 Droid 為 77.3%,搭配 Simple Codex 為 75.1% [1]。Claude Opus 4.6 則在搭配 ForgeCode 時為 79.8%,搭配 Capy 時為 75.3%,搭配 Terminus 2 時為 62.9% [1]

這個落差已經足以改變「看起來的冠軍」。GPT-5.4 相關比較把 GPT-5.3-Codex 在 Terminal-Bench 2.0 列為 77.3%,高於 Claude Opus 4.6 的 65.4% [3]。但公開榜單也有 ForgeCode/Claude Opus 4.6 的 79.8%,高於 SageAgent/GPT-5.3-Codex 的 78.4% [1]。所以,若你在評估終端機代理工作流,務必先固定 harness,再談模型勝負。

三個模型怎麼看?

Claude Opus 4.6:最適合先拿來測 Verified 風格 bug 修復

如果你的 coding 品質代理指標是 SWE-Bench Verified,Claude Opus 4.6 是這批資料中最有根據的起點。它的 Verified 成績集中在約 79% 到 81%:GPT-5.4 分析列為 79.2%,Opus-vs-Codex 比較列為 79.4%,其他 benchmark roundup 則列到 80.8% [3][5][6][7][9]

但這不代表 Opus 4.6 在所有 coding 任務都贏。它在 Terminal-Bench 的故事比較分裂:比較文列出 65.4%,公開榜單則顯示 Opus 4.6 搭配 ForgeCode 可到 79.8%,搭配 Terminus 2 則是 62.9% [1][3][7][9]。換句話說,它是 Verified 型儲存庫修復的安全首選,不是萬用 coding 冠軍。

GPT-5.3-Codex:OpenAI 陣營的終端機代理強者

如果你的工作像 Terminal-Bench 這類 agentic shell 任務,GPT-5.3-Codex 是 OpenAI 模型中很該列入 bakeoff 的選項。比較報告列出它在 Terminal-Bench 2.0 為 77.3%;公開榜單也列出 GPT-5.3-Codex 搭配 SageAgent 為 78.4%、搭配 Droid 為 77.3%、搭配 Simple Codex 為 75.1% [1][3][7][9]

它的 SWE-Bench 成績則必須小心解讀。有些報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%,另一些則列 SWE-Bench Pro 為 56.8% [3][6][7][9]。既然來源已提醒這些版本不能直接互比,你就應該用自己要採用的同一個 SWE-Bench 版本與評估設定來判斷它 [6][7][10]

GPT-5.4:coding 分數小幅前進,工具使用才是更值得看的點

就這批 benchmark 而言,GPT-5.4 不像是 coding 能力大爆發。主要的同源比較顯示,它在 SWE-Bench Pro 小幅領先 GPT-5.3-Codex,57.7% 對 56.8%;但在 Terminal-Bench 2.0 反而較低,75.1% 對 77.3% [3]

更有辨識度的是工具使用。GPT-5.4 分析指出,工具搜尋會按需載入工具定義,而不是把所有定義一次塞進上下文,因此 MCP token 使用量降低 47% [3]。若你建的是工具很多的 coding agent,這可能是系統層面的實際優勢;但它仍應和 benchmark accuracy 分開衡量。

實務比較時,避免這四個錯誤

  1. 先決定 benchmark 版本,再宣布贏家。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成同一欄分數 [6][7][10]
  2. 終端機任務要固定 agent harness。 Terminal-Bench 2.0 公開榜單顯示,同一模型搭配不同 agent,準確率可能有明顯差異 [1]
  3. 把 coding accuracy 與工具效率分開看。 GPT-5.4 的 47% MCP token 降幅,對工具密集系統有參考價值,但不等於 SWE-Bench 或 Terminal-Bench 勝利 [3]
  4. 把跨來源排名當方向,不要當定論。 這批資料支持的是「不同測法有不同贏家」,而不是單一模型全面稱霸 [1][3][6][7][10]

結論

若你要做 Verified 風格的儲存庫 bug 修復,先測 Claude Opus 4.6;若你要跑終端機代理流程,GPT-5.3-Codex 一定要放進比較;若你需要最新 OpenAI 模型,或想評估工具搜尋帶來的 token 效率,GPT-5.4 值得另外測 [1][3][5][7][9]

最穩妥的答案不是「某一個模型統治 coding」,而是:勝負會隨 benchmark 版本、agent harness,以及你真正要跑的工作負載而變 [1][6][7][10]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • 沒有一個模型能在所有 coding 場景通吃:Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%,GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%,GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。
  • 若是儲存庫 bug 修復,先測 Claude Opus 4.6;若是終端機代理工作流,把 GPT 5.3 Codex 納入候選;若是 OpenAI only 或工具密集系統,再特別評估 GPT 5.4 的工具搜尋與 MCP token 節省 [1][3]。
  • 別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜;Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

大家也會問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6:最佳 coding 模型要看測法」的簡短答案是什麼?

沒有一個模型能在所有 coding 場景通吃:Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%,GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%,GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。

最值得優先驗證的重點是什麼?

沒有一個模型能在所有 coding 場景通吃:Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%,GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%,GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。 若是儲存庫 bug 修復,先測 Claude Opus 4.6;若是終端機代理工作流,把 GPT 5.3 Codex 納入候選;若是 OpenAI only 或工具密集系統,再特別評估 GPT 5.4 的工具搜尋與 MCP token 節省 [1][3]。

接下來在實務上該怎麼做?

別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜;Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

下一步適合探索哪個相關主題?

繼續閱讀「Claude Security 公測版:Anthropic 的企業程式碼漏洞掃描工具」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「Grok 4.3 API 解讀:1M 上下文、低 token 價格,xAI 想搶下哪個入口?」交叉比對。

開啟相關頁面

繼續深入研究

來源

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...