答案已發布2026年5月5日Last edited 2026年5月6日7 個來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：最佳 coding 模型要看測法

沒有一個模型能在所有 coding 場景通吃：Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%，GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%，GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。若是儲存庫 bug 修復，先測 Claude Opus 4.6；若是終端機代理工作流，把 GPT 5.3 Codex 納入候選；若是 OpenAI only 或工具密集系統，再特別評估 GPT 5.4 的工具搜尋與 MCP token 節省 [1][3]。

使用 Studio Global AI 搜尋並查證事實探索更多內容

4.8K0

Abstract comparison of AI coding models on a benchmark leaderboard — GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic
openai.com

先講結論：這不是「誰比較會寫程式」的一刀切問題。從提供的公開資料來看，Claude Opus 4.6 在 SWE-Bench Verified 這類儲存庫修 bug 測試上最有說服力；GPT-5.3-Codex 是 OpenAI 陣營在 Terminal-Bench 2.0 終端機代理流程中的強勢選項；GPT-5.4 的 coding 成績相對像是小幅改進，而不是壓倒性升級 ^[1]^[3]^[5]^[7]^[9]。

真正容易踩坑的是測法。SWE-Bench 的不同版本不能直接互比，Terminal-Bench 的公開榜單則不只測模型，也測搭配的 agent harness，也就是代理框架與執行流程 ^[1]^[6]^[7]^[10]。

快速選型：先看你的工作負載

你的主要場景	優先測試的模型	依據	主要但書
類似 SWE-Bench Verified 的儲存庫 bug 修復	Claude Opus 4.6	多份報告把 Opus 4.6 的 SWE-Bench Verified 成績列在約 79.2% 到 80.8% ^[3]^[5]^[7]^[9]。	請拿 Verified 對 Verified 比，不要把 SWE-Bench Pro Public 當成同一個測試 ^[6]^[7]^[10]。
終端機代理、shell 操作、長流程 coding 任務	GPT-5.3-Codex，但要固定 harness 再比	GPT-5.4 相關比較列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%，高於 GPT-5.4 的 75.1% 與 Claude Opus 4.6 的 65.4% ^[3]。	公開榜單排名的是 agent/model 組合；Claude Opus 4.6 搭配 ForgeCode 時也出現 79.8% ^[1]。
只在 OpenAI 模型中挑 coding 模型	GPT-5.4 可測，但預期是漸進式差距	同一份比較中，GPT-5.4 在 SWE-Bench Pro 為 57.7%，GPT-5.3-Codex 為 56.8% ^[3]。	同一比較也顯示 GPT-5.4 在 Terminal-Bench 2.0 低於 GPT-5.3-Codex ^[3]。
工具很多、MCP 系統很重的 coding agent	GPT-5.4 值得單獨評估	GPT-5.4 分析指出，工具搜尋可按需載入工具定義，使 MCP token 使用量降低 47% ^[3]。	token 省不省，和 bug 修復基準測試是否贏，是兩件不同的事 ^[3]。

最大陷阱：分數看起來像排行榜，其實不是同一場比賽

SWE-Bench Verified 與 SWE-Bench Pro Public 不能混比

Claude Opus 4.6 最強的證據來自 SWE-Bench Verified。引用資料中，它在這個版本的成績分別被列為 79.2%、79.4% 或 80.8% ^[3]^[5]^[7]^[9]。

GPT-5.3-Codex 的 SWE-Bench 敘事比較複雜。GPT-5.4 相關分析把 GPT-5.3-Codex 在 SWE-Bench Pro 的分數列為 56.8%，但另兩份 Opus 與 Codex 的比較則列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2% ^[3]^[6]^[7]。這不是叫你把分數平均，而是提醒你：測試版本不同，不能草率排座次。多個來源也明確提醒，SWE-Bench Verified 與 SWE-Bench Pro Public 並不能直接互換比較 ^[6]^[7]^[10]。

至於 GPT-5.4，在這批資料中最乾淨的 OpenAI 對 OpenAI coding 優勢，是同一份分析裡的 SWE-Bench Pro：GPT-5.4 為 57.7%，GPT-5.3-Codex 為 56.8% ^[3]。另一份整理也提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 數字，同時警告 Claude 與 GPT 的 broader 比較不是 apples-to-apples ^[10]。

Terminal-Bench 2.0 測到的不只是模型

Terminal-Bench 2.0 更容易被誤讀，因為公開 leaderboard 列的是「agent/model 組合」，不是孤立的基礎模型能力 ^[1]。同一個模型換了代理框架，分數就可能差很多。

在該榜單中，GPT-5.3-Codex 搭配 SageAgent 為 78.4%，搭配 Droid 為 77.3%，搭配 Simple Codex 為 75.1% ^[1]。Claude Opus 4.6 則在搭配 ForgeCode 時為 79.8%，搭配 Capy 時為 75.3%，搭配 Terminus 2 時為 62.9% ^[1]。

這個落差已經足以改變「看起來的冠軍」。GPT-5.4 相關比較把 GPT-5.3-Codex 在 Terminal-Bench 2.0 列為 77.3%，高於 Claude Opus 4.6 的 65.4% ^[3]。但公開榜單也有 ForgeCode/Claude Opus 4.6 的 79.8%，高於 SageAgent/GPT-5.3-Codex 的 78.4% ^[1]。所以，若你在評估終端機代理工作流，務必先固定 harness，再談模型勝負。

三個模型怎麼看？

Claude Opus 4.6：最適合先拿來測 Verified 風格 bug 修復

如果你的 coding 品質代理指標是 SWE-Bench Verified，Claude Opus 4.6 是這批資料中最有根據的起點。它的 Verified 成績集中在約 79% 到 81%：GPT-5.4 分析列為 79.2%，Opus-vs-Codex 比較列為 79.4%，其他 benchmark roundup 則列到 80.8% ^[3]^[5]^[6]^[7]^[9]。

但這不代表 Opus 4.6 在所有 coding 任務都贏。它在 Terminal-Bench 的故事比較分裂：比較文列出 65.4%，公開榜單則顯示 Opus 4.6 搭配 ForgeCode 可到 79.8%，搭配 Terminus 2 則是 62.9% ^[1]^[3]^[7]^[9]。換句話說，它是 Verified 型儲存庫修復的安全首選，不是萬用 coding 冠軍。

GPT-5.3-Codex：OpenAI 陣營的終端機代理強者

如果你的工作像 Terminal-Bench 這類 agentic shell 任務，GPT-5.3-Codex 是 OpenAI 模型中很該列入 bakeoff 的選項。比較報告列出它在 Terminal-Bench 2.0 為 77.3%；公開榜單也列出 GPT-5.3-Codex 搭配 SageAgent 為 78.4%、搭配 Droid 為 77.3%、搭配 Simple Codex 為 75.1% ^[1]^[3]^[7]^[9]。

它的 SWE-Bench 成績則必須小心解讀。有些報告列 GPT-5.3-Codex 在 SWE-Bench Pro Public 為 78.2%，另一些則列 SWE-Bench Pro 為 56.8% ^[3]^[6]^[7]^[9]。既然來源已提醒這些版本不能直接互比，你就應該用自己要採用的同一個 SWE-Bench 版本與評估設定來判斷它 ^[6]^[7]^[10]。

GPT-5.4：coding 分數小幅前進，工具使用才是更值得看的點

就這批 benchmark 而言，GPT-5.4 不像是 coding 能力大爆發。主要的同源比較顯示，它在 SWE-Bench Pro 小幅領先 GPT-5.3-Codex，57.7% 對 56.8%；但在 Terminal-Bench 2.0 反而較低，75.1% 對 77.3% ^[3]。

更有辨識度的是工具使用。GPT-5.4 分析指出，工具搜尋會按需載入工具定義，而不是把所有定義一次塞進上下文，因此 MCP token 使用量降低 47% ^[3]。若你建的是工具很多的 coding agent，這可能是系統層面的實際優勢；但它仍應和 benchmark accuracy 分開衡量。

實務比較時，避免這四個錯誤

先決定 benchmark 版本，再宣布贏家。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成同一欄分數 ^[6]^[7]^[10]。
終端機任務要固定 agent harness。 Terminal-Bench 2.0 公開榜單顯示，同一模型搭配不同 agent，準確率可能有明顯差異 ^[1]。
把 coding accuracy 與工具效率分開看。 GPT-5.4 的 47% MCP token 降幅，對工具密集系統有參考價值，但不等於 SWE-Bench 或 Terminal-Bench 勝利 ^[3]。
把跨來源排名當方向，不要當定論。 這批資料支持的是「不同測法有不同贏家」，而不是單一模型全面稱霸 ^[1]^[3]^[6]^[7]^[10]。

結論

若你要做 Verified 風格的儲存庫 bug 修復，先測 Claude Opus 4.6；若你要跑終端機代理流程，GPT-5.3-Codex 一定要放進比較；若你需要最新 OpenAI 模型，或想評估工具搜尋帶來的 token 效率，GPT-5.4 值得另外測 ^[1]^[3]^[5]^[7]^[9]。

最穩妥的答案不是「某一個模型統治 coding」，而是：勝負會隨 benchmark 版本、agent harness，以及你真正要跑的工作負載而變 ^[1]^[6]^[7]^[10]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

沒有一個模型能在所有 coding 場景通吃：Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%，GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%，GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。
若是儲存庫 bug 修復，先測 Claude Opus 4.6；若是終端機代理工作流，把 GPT 5.3 Codex 納入候選；若是 OpenAI only 或工具密集系統，再特別評估 GPT 5.4 的工具搜尋與 MCP token 節省 [1][3]。
別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜；Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

大家也會問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：最佳 coding 模型要看測法」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜；Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

來源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

熱門探索內容

答案已發布2026年5月5日Last edited 2026年5月6日7 個來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：最佳 coding 模型要看測法

使用 Studio Global AI 搜尋並查證事實探索更多內容

4.8K0

快速選型：先看你的工作負載

你的主要場景	優先測試的模型	依據	主要但書
類似 SWE-Bench Verified 的儲存庫 bug 修復	Claude Opus 4.6	多份報告把 Opus 4.6 的 SWE-Bench Verified 成績列在約 79.2% 到 80.8% ^[3]^[5]^[7]^[9]。	請拿 Verified 對 Verified 比，不要把 SWE-Bench Pro Public 當成同一個測試 ^[6]^[7]^[10]。
終端機代理、shell 操作、長流程 coding 任務	GPT-5.3-Codex，但要固定 harness 再比	GPT-5.4 相關比較列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%，高於 GPT-5.4 的 75.1% 與 Claude Opus 4.6 的 65.4% ^[3]。	公開榜單排名的是 agent/model 組合；Claude Opus 4.6 搭配 ForgeCode 時也出現 79.8% ^[1]。
只在 OpenAI 模型中挑 coding 模型	GPT-5.4 可測，但預期是漸進式差距	同一份比較中，GPT-5.4 在 SWE-Bench Pro 為 57.7%，GPT-5.3-Codex 為 56.8% ^[3]。	同一比較也顯示 GPT-5.4 在 Terminal-Bench 2.0 低於 GPT-5.3-Codex ^[3]。
工具很多、MCP 系統很重的 coding agent	GPT-5.4 值得單獨評估	GPT-5.4 分析指出，工具搜尋可按需載入工具定義，使 MCP token 使用量降低 47% ^[3]。	token 省不省，和 bug 修復基準測試是否贏，是兩件不同的事 ^[3]。

最大陷阱：分數看起來像排行榜，其實不是同一場比賽

SWE-Bench Verified 與 SWE-Bench Pro Public 不能混比

Claude Opus 4.6 最強的證據來自 SWE-Bench Verified。引用資料中，它在這個版本的成績分別被列為 79.2%、79.4% 或 80.8% ^[3]^[5]^[7]^[9]。

Terminal-Bench 2.0 測到的不只是模型

三個模型怎麼看？

Claude Opus 4.6：最適合先拿來測 Verified 風格 bug 修復

GPT-5.3-Codex：OpenAI 陣營的終端機代理強者

GPT-5.4：coding 分數小幅前進，工具使用才是更值得看的點

實務比較時，避免這四個錯誤

先決定 benchmark 版本，再宣布贏家。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成同一欄分數 ^[6]^[7]^[10]。
終端機任務要固定 agent harness。 Terminal-Bench 2.0 公開榜單顯示，同一模型搭配不同 agent，準確率可能有明顯差異 ^[1]。
把 coding accuracy 與工具效率分開看。 GPT-5.4 的 47% MCP token 降幅，對工具密集系統有參考價值，但不等於 SWE-Bench 或 Terminal-Bench 勝利 ^[3]。
把跨來源排名當方向，不要當定論。 這批資料支持的是「不同測法有不同贏家」，而不是單一模型全面稱霸 ^[1]^[3]^[6]^[7]^[10]。

結論

最穩妥的答案不是「某一個模型統治 coding」，而是：勝負會隨 benchmark 版本、agent harness，以及你真正要跑的工作負載而變 ^[1]^[6]^[7]^[10]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

沒有一個模型能在所有 coding 場景通吃：Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%，GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%，GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。
若是儲存庫 bug 修復，先測 Claude Opus 4.6；若是終端機代理工作流，把 GPT 5.3 Codex 納入候選；若是 OpenAI only 或工具密集系統，再特別評估 GPT 5.4 的工具搜尋與 MCP token 節省 [1][3]。
別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜；Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

大家也會問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：最佳 coding 模型要看測法」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜；Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具

Claude Security 公測版詳解：Anthropic 如何用 AI 掃描企業程式碼漏洞

Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？

Grok 4.3 API：1M context 與 $1.25/$2.50 定價，對模型與語音競爭意味什麼

小米 Q5 不是 MIX 5？最新線索更像指向小米 18 系列

小米 Q5 是 MIX 5 嗎？目前更可能是小米 18 系列線索

Meta用AI查年齡：Instagram與Facebook青少年保護新規一次看

來源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

熱門探索內容

答案已發布2026年5月5日Last edited 2026年5月6日7 個來源

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：最佳 coding 模型要看測法

使用 Studio Global AI 搜尋並查證事實探索更多內容

4.8K0

快速選型：先看你的工作負載

你的主要場景	優先測試的模型	依據	主要但書
類似 SWE-Bench Verified 的儲存庫 bug 修復	Claude Opus 4.6	多份報告把 Opus 4.6 的 SWE-Bench Verified 成績列在約 79.2% 到 80.8% ^[3]^[5]^[7]^[9]。	請拿 Verified 對 Verified 比，不要把 SWE-Bench Pro Public 當成同一個測試 ^[6]^[7]^[10]。
終端機代理、shell 操作、長流程 coding 任務	GPT-5.3-Codex，但要固定 harness 再比	GPT-5.4 相關比較列出 GPT-5.3-Codex 在 Terminal-Bench 2.0 為 77.3%，高於 GPT-5.4 的 75.1% 與 Claude Opus 4.6 的 65.4% ^[3]。	公開榜單排名的是 agent/model 組合；Claude Opus 4.6 搭配 ForgeCode 時也出現 79.8% ^[1]。
只在 OpenAI 模型中挑 coding 模型	GPT-5.4 可測，但預期是漸進式差距	同一份比較中，GPT-5.4 在 SWE-Bench Pro 為 57.7%，GPT-5.3-Codex 為 56.8% ^[3]。	同一比較也顯示 GPT-5.4 在 Terminal-Bench 2.0 低於 GPT-5.3-Codex ^[3]。
工具很多、MCP 系統很重的 coding agent	GPT-5.4 值得單獨評估	GPT-5.4 分析指出，工具搜尋可按需載入工具定義，使 MCP token 使用量降低 47% ^[3]。	token 省不省，和 bug 修復基準測試是否贏，是兩件不同的事 ^[3]。

最大陷阱：分數看起來像排行榜，其實不是同一場比賽

SWE-Bench Verified 與 SWE-Bench Pro Public 不能混比

Claude Opus 4.6 最強的證據來自 SWE-Bench Verified。引用資料中，它在這個版本的成績分別被列為 79.2%、79.4% 或 80.8% ^[3]^[5]^[7]^[9]。

Terminal-Bench 2.0 測到的不只是模型

三個模型怎麼看？

Claude Opus 4.6：最適合先拿來測 Verified 風格 bug 修復

GPT-5.3-Codex：OpenAI 陣營的終端機代理強者

GPT-5.4：coding 分數小幅前進，工具使用才是更值得看的點

實務比較時，避免這四個錯誤

先決定 benchmark 版本，再宣布贏家。 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Pro Public 不應被壓成同一欄分數 ^[6]^[7]^[10]。
終端機任務要固定 agent harness。 Terminal-Bench 2.0 公開榜單顯示，同一模型搭配不同 agent，準確率可能有明顯差異 ^[1]。
把 coding accuracy 與工具效率分開看。 GPT-5.4 的 47% MCP token 降幅，對工具密集系統有參考價值，但不等於 SWE-Bench 或 Terminal-Bench 勝利 ^[3]。
把跨來源排名當方向，不要當定論。 這批資料支持的是「不同測法有不同贏家」，而不是單一模型全面稱霸 ^[1]^[3]^[6]^[7]^[10]。

結論

最穩妥的答案不是「某一個模型統治 coding」，而是：勝負會隨 benchmark 版本、agent harness，以及你真正要跑的工作負載而變 ^[1]^[6]^[7]^[10]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

沒有一個模型能在所有 coding 場景通吃：Claude Opus 4.6 在 SWE Bench Verified 約落在 79% 到 81%，GPT 5.3 Codex 在引用的 Terminal Bench 2.0 OpenAI 比較中達 77.3%，GPT 5.4 對 GPT 5.3 Codex 的直接 coding 增幅則偏小 [1][3][5][7][9]。
若是儲存庫 bug 修復，先測 Claude Opus 4.6；若是終端機代理工作流，把 GPT 5.3 Codex 納入候選；若是 OpenAI only 或工具密集系統，再特別評估 GPT 5.4 的工具搜尋與 MCP token 節省 [1][3]。
別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜；Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

大家也會問

「GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6：最佳 coding 模型要看測法」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

別把 SWE Bench Verified、SWE Bench Pro、SWE Bench Pro Public 混成同一張排行榜；Terminal Bench 2.0 也要注意 agent harness 會影響結果 [1][6][7][10]。

下一步適合探索哪個相關主題？

繼續閱讀「Claude Security 公測版：Anthropic 的企業程式碼漏洞掃描工具」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「Grok 4.3 API 解讀：1M 上下文、低 token 價格，xAI 想搶下哪個入口？」交叉比對。

開啟相關頁面

繼續深入研究

來源

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...