studioglobal
熱門發現
答案已發布7 來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6:揀 coding model,要先睇你點測

沒有一個模型可以通殺:Claude Opus 4.6 的 SWE Bench Verified 訊號最強,報告約 79.2%–80.8%;GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項;GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。 如果你主要修 repository bug,先試 Claude Opus 4.6;如果做 terminal agent 工作流,GPT 5.3 Codex 必須入圍;如果是工具很重的 MCP 系統,GPT 5.4 報稱 47% MCP token 減幅值得另外測 [1][3]。

4.5K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

如果你只想問:GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6 邊個最識寫 code?答案未必係一個名。按目前引用報告,Claude Opus 4.6 在 SWE-Bench Verified 最有優勢;GPT-5.3-Codex 是 OpenAI 模型中 Terminal-Bench 2.0 表現較突出的選擇;GPT-5.4 相比 GPT-5.3-Codex 的直接 coding 提升,較像小幅進步而不是大勝 [1][3][5][7][9]

真正要小心的是測試方法。SWE-Bench 有不同版本,Terminal-Bench 2.0 的公開榜又是 agent/model 配對,不是單獨模型裸跑分數;把它們硬併成一張總排名,很容易睇錯 [1][6][7][10]

先講結論:按工作揀模型

你的工作優先測試理據但要小心
類似 SWE-Bench Verified 的 repository 修 bugClaude Opus 4.6多份報告指 Opus 4.6 在 SWE-Bench Verified 約 79.2% 至 80.8% [3][5][7][9]只應同其他 Verified 結果比較,不應直接同 SWE-Bench Pro Public 當同一個測試 [6][7][10]
Terminal/命令列 agent coding 工作流GPT-5.3-Codex,但要固定 harness 測一份 GPT-5.4 對比列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%,高過 GPT-5.4 的 75.1% 同 Claude Opus 4.6 的 65.4% [3]公開榜排的是 agent/model 配對;Claude Opus 4.6 配 ForgeCode 時可達 79.8% [1]
只在 OpenAI 模型之間揀 coding modelGPT-5.4 可以試,但預期是漸進式提升同一份比較列出 GPT-5.4 在 SWE-Bench Pro 為 57.7%,GPT-5.3-Codex 為 56.8% [3]同一比較中,GPT-5.4 在 Terminal-Bench 2.0 反而低過 GPT-5.3-Codex [3]
工具調用很多的 MCP 系統GPT-5.4 值得另開測試GPT-5.4 分析指 tool search 透過按需要載入工具定義,令 MCP token 用量減少 47% [3]Token 省了,不等於修 bug benchmark 一定贏 [3]

最大陷阱:這些 benchmark 不是同一把尺

SWE-Bench Verified 同 SWE-Bench Pro Public 不是同一個訊號

Claude Opus 4.6 最強的論據來自 SWE-Bench Verified。引用報告把它列在 79.2%、79.4% 或 80.8% 左右 [3][5][6][7][9]。如果你的工作接近真實 repository 修 bug,這是一個很有參考價值的起點。

GPT-5.3-Codex 就較難一句講完。有 GPT-5.4 分析列出 GPT-5.3-Codex 在 SWE-Bench Pro 為 56.8%;另外兩份 Opus-vs-Codex 對比則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% [3][6][7]。這不是叫你把分數平均,而是提醒你:benchmark 版本不同,分數不能隨便橫向比較。多個來源都明確指出 SWE-Bench Verified 同 SWE-Bench Pro Public 不是直接可比 [6][7][10]

GPT-5.4 在這批來源中最乾淨的 OpenAI 對 OpenAI coding 優勢,是同一分析內 SWE-Bench Pro 的 57.7% 對 GPT-5.3-Codex 的 56.8% [3]。另一份摘要亦提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字,同時提醒 Claude 與 GPT 的 broader comparison 不能當作 apples-to-apples [10]

Terminal-Bench 2.0 要看 agent harness

Terminal-Bench 2.0 更容易令人誤會,因為公開 leaderboard 排的是 agent/model 配對,不是單純模型本身 [1]。同一個 GPT-5.3-Codex,在榜上可以是 SageAgent 配對的 78.4%、Droid 配對的 77.3%、Simple Codex 配對的 75.1% [1]。Claude Opus 4.6 亦一樣:ForgeCode 配對為 79.8%,Capy 配對為 75.3%,Terminus 2 配對為 62.9% [1]

這個差距足以改變誰是贏家。一份 GPT-5.4 對比說 GPT-5.3-Codex 在 Terminal-Bench 2.0 以 77.3% 高過 Claude Opus 4.6 的 65.4% [3];但公開榜上,ForgeCode/Claude Opus 4.6 的 79.8% 又高過 SageAgent/GPT-5.3-Codex 的 78.4% [1]。所以,如果你測的是 terminal-agent 任務,請先固定同一個 harness,再談模型輸贏。

三個模型逐個睇

Claude Opus 4.6:Verified 式修 bug 的最穩起點

如果你用 SWE-Bench Verified 作為 coding 能力代理指標,Claude Opus 4.6 是這批來源中最有力的首選。它的 Verified 分數集中在約 79% 至 81%:GPT-5.4 分析列 79.2%,Opus-vs-Codex 對比列 79.4%,其他 benchmark roundup 則列 80.8% [3][5][6][7][9]

但這不代表 Opus 4.6 在所有 coding 工作都通殺。它的 Terminal-Bench 表現相當受 agent 配對影響:部分比較報告列 65.4%,但公開榜顯示配 ForgeCode 時為 79.8%,配 Terminus 2 時為 62.9% [1][3][7][9]。簡單講,Opus 4.6 很適合先拿來測 repository 修復,但不要直接封它做所有 coding 場景的冠軍。

GPT-5.3-Codex:OpenAI 陣營的 terminal-agent 強項

如果你的工作像 Terminal-Bench 那類 agentic shell/命令列任務,GPT-5.3-Codex 是 OpenAI 模型中最值得優先放入 bakeoff 的一個。對比報告列它在 Terminal-Bench 2.0 為 77.3%;公開榜亦列出 GPT-5.3-Codex 配 SageAgent 為 78.4%、配 Droid 為 77.3%、配 Simple Codex 為 75.1% [1][3][7][9]

它在 SWE-Bench 的解讀則要更謹慎。有報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%,亦有報告列它在 SWE-Bench Pro 為 56.8% [3][6][7][9]。由於來源提醒這些變體不能直接互換,評估 GPT-5.3-Codex 時,最好用你實際會採用的同一個 SWE-Bench 版本同評測設定 [6][7][10]

GPT-5.4:coding 是小升級,工具效率更值得看

從提供的 benchmark 來看,GPT-5.4 並不像是 coding 上的大幅拋離。主要同源比較顯示,它在 SWE-Bench Pro 以 57.7% 微幅高過 GPT-5.3-Codex 的 56.8%;但在 Terminal-Bench 2.0,GPT-5.4 的 75.1% 又低過 GPT-5.3-Codex 的 77.3% [3]

GPT-5.4 更有特色的數據,其實是工具使用。該分析指 GPT-5.4 的 tool search 會按需要載入工具定義,而不是把所有工具定義塞進上下文,令 MCP token 用量減少 47% [3]。對工具很多的 coding agent,這可能是實際系統優勢;但它應該同 SWE-Bench 或 Terminal-Bench 的準確率分開量度 [3]

實戰比較時,別被分數呃到

  1. 先決定 benchmark 版本,再決定贏家。SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成一欄分數 [6][7][10]
  2. Terminal 任務要固定 agent harness。公開 Terminal-Bench 2.0 leaderboard 顯示,同一模型配不同 agent,準確率可以有明顯差異 [1]
  3. 把 coding 準確率同工具效率分開看。GPT-5.4 報稱 47% MCP token 減幅,對工具重的系統有用,但它不是 SWE-Bench 或 Terminal-Bench 勝利的同義詞 [3]
  4. 混合來源排名只可當方向感。這批來源支持的是不同 benchmark 下有不同贏家;硬說一個模型全面第一,會誇大證據 [1][3][6][7][10]

底線

如果你要修 repository bug,先測 Claude Opus 4.6;如果你做 terminal-agent coding workflow,GPT-5.3-Codex 一定要入圍;如果你想用最新 OpenAI 模型,或者想驗證工具搜尋帶來的 token 效率,才把 GPT-5.4 放到另一組測試重點 [1][3][5][7][9]

最安全的結論不是某一個模型全面稱霸,而是:贏家會隨 benchmark 版本、agent harness,以及你真正要跑的 workload 而變 [1][6][7][10]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • 沒有一個模型可以通殺:Claude Opus 4.6 的 SWE Bench Verified 訊號最強,報告約 79.2%–80.8%;GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項;GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。
  • 如果你主要修 repository bug,先試 Claude Opus 4.6;如果做 terminal agent 工作流,GPT 5.3 Codex 必須入圍;如果是工具很重的 MCP 系統,GPT 5.4 報稱 47% MCP token 減幅值得另外測 [1][3]。
  • 不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺;多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

人們還問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6:揀 coding model,要先睇你點測」的簡短答案是什麼?

沒有一個模型可以通殺:Claude Opus 4.6 的 SWE Bench Verified 訊號最強,報告約 79.2%–80.8%;GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項;GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。

首先要驗證的關鍵點是什麼?

沒有一個模型可以通殺:Claude Opus 4.6 的 SWE Bench Verified 訊號最強,報告約 79.2%–80.8%;GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項;GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。 如果你主要修 repository bug,先試 Claude Opus 4.6;如果做 terminal agent 工作流,GPT 5.3 Codex 必須入圍;如果是工具很重的 MCP 系統,GPT 5.4 報稱 47% MCP token 減幅值得另外測 [1][3]。

接下來在實務上我該做什麼?

不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺;多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

接下來我應該探索哪個相關主題?

繼續“Claude Security 公測版:Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「xAI Grok 4.3 API 解讀:1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

來源

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...