答案已發布2026年5月5日Last edited 2026年5月6日7 來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：揀 coding model，要先睇你點測

沒有一個模型可以通殺：Claude Opus 4.6 的 SWE Bench Verified 訊號最強，報告約 79.2%–80.8%；GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項；GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。如果你主要修 repository bug，先試 Claude Opus 4.6；如果做 terminal agent 工作流，GPT 5.3 Codex 必須入圍；如果是工具很重的 MCP 系統，GPT 5.4 報稱 47% MCP token 減幅值得另外測 [1][3]。

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

4.5K0

Abstract comparison of AI coding models on a benchmark leaderboard — GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic
openai.com

如果你只想問：GPT-5.4、GPT-5.3-Codex、Claude Opus 4.6 邊個最識寫 code？答案未必係一個名。按目前引用報告，Claude Opus 4.6 在 SWE-Bench Verified 最有優勢；GPT-5.3-Codex 是 OpenAI 模型中 Terminal-Bench 2.0 表現較突出的選擇；GPT-5.4 相比 GPT-5.3-Codex 的直接 coding 提升，較像小幅進步而不是大勝 ^[1]^[3]^[5]^[7]^[9]。

真正要小心的是測試方法。SWE-Bench 有不同版本，Terminal-Bench 2.0 的公開榜又是 agent/model 配對，不是單獨模型裸跑分數；把它們硬併成一張總排名，很容易睇錯 ^[1]^[6]^[7]^[10]。

先講結論：按工作揀模型

你的工作	優先測試	理據	但要小心
類似 SWE-Bench Verified 的 repository 修 bug	Claude Opus 4.6	多份報告指 Opus 4.6 在 SWE-Bench Verified 約 79.2% 至 80.8% ^[3]^[5]^[7]^[9]。	只應同其他 Verified 結果比較，不應直接同 SWE-Bench Pro Public 當同一個測試 ^[6]^[7]^[10]。
Terminal／命令列 agent coding 工作流	GPT-5.3-Codex，但要固定 harness 測	一份 GPT-5.4 對比列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%，高過 GPT-5.4 的 75.1% 同 Claude Opus 4.6 的 65.4% ^[3]。	公開榜排的是 agent/model 配對；Claude Opus 4.6 配 ForgeCode 時可達 79.8% ^[1]。
只在 OpenAI 模型之間揀 coding model	GPT-5.4 可以試，但預期是漸進式提升	同一份比較列出 GPT-5.4 在 SWE-Bench Pro 為 57.7%，GPT-5.3-Codex 為 56.8% ^[3]。	同一比較中，GPT-5.4 在 Terminal-Bench 2.0 反而低過 GPT-5.3-Codex ^[3]。
工具調用很多的 MCP 系統	GPT-5.4 值得另開測試	GPT-5.4 分析指 tool search 透過按需要載入工具定義，令 MCP token 用量減少 47% ^[3]。	Token 省了，不等於修 bug benchmark 一定贏 ^[3]。

最大陷阱：這些 benchmark 不是同一把尺

SWE-Bench Verified 同 SWE-Bench Pro Public 不是同一個訊號

Claude Opus 4.6 最強的論據來自 SWE-Bench Verified。引用報告把它列在 79.2%、79.4% 或 80.8% 左右 ^[3]^[5]^[6]^[7]^[9]。如果你的工作接近真實 repository 修 bug，這是一個很有參考價值的起點。

GPT-5.3-Codex 就較難一句講完。有 GPT-5.4 分析列出 GPT-5.3-Codex 在 SWE-Bench Pro 為 56.8%；另外兩份 Opus-vs-Codex 對比則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% ^[3]^[6]^[7]。這不是叫你把分數平均，而是提醒你：benchmark 版本不同，分數不能隨便橫向比較。多個來源都明確指出 SWE-Bench Verified 同 SWE-Bench Pro Public 不是直接可比 ^[6]^[7]^[10]。

GPT-5.4 在這批來源中最乾淨的 OpenAI 對 OpenAI coding 優勢，是同一分析內 SWE-Bench Pro 的 57.7% 對 GPT-5.3-Codex 的 56.8% ^[3]。另一份摘要亦提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字，同時提醒 Claude 與 GPT 的 broader comparison 不能當作 apples-to-apples ^[10]。

Terminal-Bench 2.0 要看 agent harness

Terminal-Bench 2.0 更容易令人誤會，因為公開 leaderboard 排的是 agent/model 配對，不是單純模型本身 ^[1]。同一個 GPT-5.3-Codex，在榜上可以是 SageAgent 配對的 78.4%、Droid 配對的 77.3%、Simple Codex 配對的 75.1% ^[1]。Claude Opus 4.6 亦一樣：ForgeCode 配對為 79.8%，Capy 配對為 75.3%，Terminus 2 配對為 62.9% ^[1]。

這個差距足以改變誰是贏家。一份 GPT-5.4 對比說 GPT-5.3-Codex 在 Terminal-Bench 2.0 以 77.3% 高過 Claude Opus 4.6 的 65.4% ^[3]；但公開榜上，ForgeCode/Claude Opus 4.6 的 79.8% 又高過 SageAgent/GPT-5.3-Codex 的 78.4% ^[1]。所以，如果你測的是 terminal-agent 任務，請先固定同一個 harness，再談模型輸贏。

三個模型逐個睇

Claude Opus 4.6：Verified 式修 bug 的最穩起點

如果你用 SWE-Bench Verified 作為 coding 能力代理指標，Claude Opus 4.6 是這批來源中最有力的首選。它的 Verified 分數集中在約 79% 至 81%：GPT-5.4 分析列 79.2%，Opus-vs-Codex 對比列 79.4%，其他 benchmark roundup 則列 80.8% ^[3]^[5]^[6]^[7]^[9]。

但這不代表 Opus 4.6 在所有 coding 工作都通殺。它的 Terminal-Bench 表現相當受 agent 配對影響：部分比較報告列 65.4%，但公開榜顯示配 ForgeCode 時為 79.8%，配 Terminus 2 時為 62.9% ^[1]^[3]^[7]^[9]。簡單講，Opus 4.6 很適合先拿來測 repository 修復，但不要直接封它做所有 coding 場景的冠軍。

GPT-5.3-Codex：OpenAI 陣營的 terminal-agent 強項

如果你的工作像 Terminal-Bench 那類 agentic shell／命令列任務，GPT-5.3-Codex 是 OpenAI 模型中最值得優先放入 bakeoff 的一個。對比報告列它在 Terminal-Bench 2.0 為 77.3%；公開榜亦列出 GPT-5.3-Codex 配 SageAgent 為 78.4%、配 Droid 為 77.3%、配 Simple Codex 為 75.1% ^[1]^[3]^[7]^[9]。

它在 SWE-Bench 的解讀則要更謹慎。有報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%，亦有報告列它在 SWE-Bench Pro 為 56.8% ^[3]^[6]^[7]^[9]。由於來源提醒這些變體不能直接互換，評估 GPT-5.3-Codex 時，最好用你實際會採用的同一個 SWE-Bench 版本同評測設定 ^[6]^[7]^[10]。

GPT-5.4：coding 是小升級，工具效率更值得看

從提供的 benchmark 來看，GPT-5.4 並不像是 coding 上的大幅拋離。主要同源比較顯示，它在 SWE-Bench Pro 以 57.7% 微幅高過 GPT-5.3-Codex 的 56.8%；但在 Terminal-Bench 2.0，GPT-5.4 的 75.1% 又低過 GPT-5.3-Codex 的 77.3% ^[3]。

GPT-5.4 更有特色的數據，其實是工具使用。該分析指 GPT-5.4 的 tool search 會按需要載入工具定義，而不是把所有工具定義塞進上下文，令 MCP token 用量減少 47% ^[3]。對工具很多的 coding agent，這可能是實際系統優勢；但它應該同 SWE-Bench 或 Terminal-Bench 的準確率分開量度 ^[3]。

實戰比較時，別被分數呃到

先決定 benchmark 版本，再決定贏家。SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成一欄分數 ^[6]^[7]^[10]。
Terminal 任務要固定 agent harness。公開 Terminal-Bench 2.0 leaderboard 顯示，同一模型配不同 agent，準確率可以有明顯差異 ^[1]。
把 coding 準確率同工具效率分開看。GPT-5.4 報稱 47% MCP token 減幅，對工具重的系統有用，但它不是 SWE-Bench 或 Terminal-Bench 勝利的同義詞 ^[3]。
混合來源排名只可當方向感。這批來源支持的是不同 benchmark 下有不同贏家；硬說一個模型全面第一，會誇大證據 ^[1]^[3]^[6]^[7]^[10]。

底線

如果你要修 repository bug，先測 Claude Opus 4.6；如果你做 terminal-agent coding workflow，GPT-5.3-Codex 一定要入圍；如果你想用最新 OpenAI 模型，或者想驗證工具搜尋帶來的 token 效率，才把 GPT-5.4 放到另一組測試重點 ^[1]^[3]^[5]^[7]^[9]。

最安全的結論不是某一個模型全面稱霸，而是：贏家會隨 benchmark 版本、agent harness，以及你真正要跑的 workload 而變 ^[1]^[6]^[7]^[10]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

沒有一個模型可以通殺：Claude Opus 4.6 的 SWE Bench Verified 訊號最強，報告約 79.2%–80.8%；GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項；GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。
如果你主要修 repository bug，先試 Claude Opus 4.6；如果做 terminal agent 工作流，GPT 5.3 Codex 必須入圍；如果是工具很重的 MCP 系統，GPT 5.4 報稱 47% MCP token 減幅值得另外測 [1][3]。
不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺；多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

人們還問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：揀 coding model，要先睇你點測」的簡短答案是什麼？

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺；多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

接下來我應該探索哪個相關主題？

繼續“Claude Security 公測版：Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「xAI Grok 4.3 API 解讀：1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 公測版：Anthropic 點樣用 AI 幫企業掃 code 漏洞

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

xAI Grok 4.3 API 解讀：1M context、低 token 價與語音平台野心

xAI Grok 4.3 API：1M context、$1.25/$2.50 定價如何改變模型與語音競爭

小米 Q5 係咪 MIX 5？最新風向更似小米 18 系列

小米 Q5 更可能唔係 MIX 5：最新線索指向小米 18 系列

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta 用 AI 查年齡：Instagram、Facebook 青少年規則點變？

Meta 新 AI 年齡核實：Instagram 同 Facebook 對青少年有咩新規？

來源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

熱門發現

答案已發布2026年5月5日Last edited 2026年5月6日7 來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：揀 coding model，要先睇你點測

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

4.5K0

先講結論：按工作揀模型

你的工作	優先測試	理據	但要小心
類似 SWE-Bench Verified 的 repository 修 bug	Claude Opus 4.6	多份報告指 Opus 4.6 在 SWE-Bench Verified 約 79.2% 至 80.8% ^[3]^[5]^[7]^[9]。	只應同其他 Verified 結果比較，不應直接同 SWE-Bench Pro Public 當同一個測試 ^[6]^[7]^[10]。
Terminal／命令列 agent coding 工作流	GPT-5.3-Codex，但要固定 harness 測	一份 GPT-5.4 對比列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%，高過 GPT-5.4 的 75.1% 同 Claude Opus 4.6 的 65.4% ^[3]。	公開榜排的是 agent/model 配對；Claude Opus 4.6 配 ForgeCode 時可達 79.8% ^[1]。
只在 OpenAI 模型之間揀 coding model	GPT-5.4 可以試，但預期是漸進式提升	同一份比較列出 GPT-5.4 在 SWE-Bench Pro 為 57.7%，GPT-5.3-Codex 為 56.8% ^[3]。	同一比較中，GPT-5.4 在 Terminal-Bench 2.0 反而低過 GPT-5.3-Codex ^[3]。
工具調用很多的 MCP 系統	GPT-5.4 值得另開測試	GPT-5.4 分析指 tool search 透過按需要載入工具定義，令 MCP token 用量減少 47% ^[3]。	Token 省了，不等於修 bug benchmark 一定贏 ^[3]。

最大陷阱：這些 benchmark 不是同一把尺

SWE-Bench Verified 同 SWE-Bench Pro Public 不是同一個訊號

Terminal-Bench 2.0 要看 agent harness

三個模型逐個睇

Claude Opus 4.6：Verified 式修 bug 的最穩起點

GPT-5.3-Codex：OpenAI 陣營的 terminal-agent 強項

GPT-5.4：coding 是小升級，工具效率更值得看

實戰比較時，別被分數呃到

先決定 benchmark 版本，再決定贏家。SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成一欄分數 ^[6]^[7]^[10]。
Terminal 任務要固定 agent harness。公開 Terminal-Bench 2.0 leaderboard 顯示，同一模型配不同 agent，準確率可以有明顯差異 ^[1]。
把 coding 準確率同工具效率分開看。GPT-5.4 報稱 47% MCP token 減幅，對工具重的系統有用，但它不是 SWE-Bench 或 Terminal-Bench 勝利的同義詞 ^[3]。
混合來源排名只可當方向感。這批來源支持的是不同 benchmark 下有不同贏家；硬說一個模型全面第一，會誇大證據 ^[1]^[3]^[6]^[7]^[10]。

底線

最安全的結論不是某一個模型全面稱霸，而是：贏家會隨 benchmark 版本、agent harness，以及你真正要跑的 workload 而變 ^[1]^[6]^[7]^[10]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

沒有一個模型可以通殺：Claude Opus 4.6 的 SWE Bench Verified 訊號最強，報告約 79.2%–80.8%；GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項；GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。
如果你主要修 repository bug，先試 Claude Opus 4.6；如果做 terminal agent 工作流，GPT 5.3 Codex 必須入圍；如果是工具很重的 MCP 系統，GPT 5.4 報稱 47% MCP token 減幅值得另外測 [1][3]。
不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺；多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

人們還問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：揀 coding model，要先睇你點測」的簡短答案是什麼？

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺；多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

接下來我應該探索哪個相關主題？

繼續“Claude Security 公測版：Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「xAI Grok 4.3 API 解讀：1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Claude Security 公測版：Anthropic 點樣用 AI 幫企業掃 code 漏洞

xAI Grok 4.3 API 解讀：1M context、低 token 價與語音平台野心

xAI Grok 4.3 API：1M context、$1.25/$2.50 定價如何改變模型與語音競爭

小米 Q5 係咪 MIX 5？最新風向更似小米 18 系列

小米 Q5 更可能唔係 MIX 5：最新線索指向小米 18 系列

Meta 用 AI 查年齡：Instagram、Facebook 青少年規則點變？

Meta 新 AI 年齡核實：Instagram 同 Facebook 對青少年有咩新規？

來源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

熱門發現

答案已發布2026年5月5日Last edited 2026年5月6日7 來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：揀 coding model，要先睇你點測

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

4.5K0

先講結論：按工作揀模型

你的工作	優先測試	理據	但要小心
類似 SWE-Bench Verified 的 repository 修 bug	Claude Opus 4.6	多份報告指 Opus 4.6 在 SWE-Bench Verified 約 79.2% 至 80.8% ^[3]^[5]^[7]^[9]。	只應同其他 Verified 結果比較，不應直接同 SWE-Bench Pro Public 當同一個測試 ^[6]^[7]^[10]。
Terminal／命令列 agent coding 工作流	GPT-5.3-Codex，但要固定 harness 測	一份 GPT-5.4 對比列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%，高過 GPT-5.4 的 75.1% 同 Claude Opus 4.6 的 65.4% ^[3]。	公開榜排的是 agent/model 配對；Claude Opus 4.6 配 ForgeCode 時可達 79.8% ^[1]。
只在 OpenAI 模型之間揀 coding model	GPT-5.4 可以試，但預期是漸進式提升	同一份比較列出 GPT-5.4 在 SWE-Bench Pro 為 57.7%，GPT-5.3-Codex 為 56.8% ^[3]。	同一比較中，GPT-5.4 在 Terminal-Bench 2.0 反而低過 GPT-5.3-Codex ^[3]。
工具調用很多的 MCP 系統	GPT-5.4 值得另開測試	GPT-5.4 分析指 tool search 透過按需要載入工具定義，令 MCP token 用量減少 47% ^[3]。	Token 省了，不等於修 bug benchmark 一定贏 ^[3]。

最大陷阱：這些 benchmark 不是同一把尺

SWE-Bench Verified 同 SWE-Bench Pro Public 不是同一個訊號

Terminal-Bench 2.0 要看 agent harness

三個模型逐個睇

Claude Opus 4.6：Verified 式修 bug 的最穩起點

GPT-5.3-Codex：OpenAI 陣營的 terminal-agent 強項

GPT-5.4：coding 是小升級，工具效率更值得看

實戰比較時，別被分數呃到

先決定 benchmark 版本，再決定贏家。SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成一欄分數 ^[6]^[7]^[10]。
Terminal 任務要固定 agent harness。公開 Terminal-Bench 2.0 leaderboard 顯示，同一模型配不同 agent，準確率可以有明顯差異 ^[1]。
把 coding 準確率同工具效率分開看。GPT-5.4 報稱 47% MCP token 減幅，對工具重的系統有用，但它不是 SWE-Bench 或 Terminal-Bench 勝利的同義詞 ^[3]。
混合來源排名只可當方向感。這批來源支持的是不同 benchmark 下有不同贏家；硬說一個模型全面第一，會誇大證據 ^[1]^[3]^[6]^[7]^[10]。

底線

最安全的結論不是某一個模型全面稱霸，而是：贏家會隨 benchmark 版本、agent harness，以及你真正要跑的 workload 而變 ^[1]^[6]^[7]^[10]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

沒有一個模型可以通殺：Claude Opus 4.6 的 SWE Bench Verified 訊號最強，報告約 79.2%–80.8%；GPT 5.3 Codex 是 OpenAI 模型中較突出的 Terminal Bench 2.0 選項；GPT 5.4 對 GPT 5.3 Codex 的直接 coding 優勢較小 [1][3][5][7][9]。
如果你主要修 repository bug，先試 Claude Opus 4.6；如果做 terminal agent 工作流，GPT 5.3 Codex 必須入圍；如果是工具很重的 MCP 系統，GPT 5.4 報稱 47% MCP token 減幅值得另外測 [1][3]。
不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺；多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

人們還問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：揀 coding model，要先睇你點測」的簡短答案是什麼？

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

不要把 SWE Bench Verified、SWE Bench Pro Public 同 Terminal Bench agent 排行榜當成同一把尺；多個來源都提醒這些數字不能直接互相比高低 [1][6][7][10]。

接下來我應該探索哪個相關主題？

繼續“Claude Security 公測版：Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「xAI Grok 4.3 API 解讀：1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

來源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...