studioglobal
Khám phá xu hướng
Câu trả lờiĐã xuất bản7 nguồn

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: chọn model code theo benchmark

Nếu công việc giống sửa lỗi repository theo kiểu SWE Bench Verified, Claude Opus 4.6 là lựa chọn nên thử đầu tiên: các báo cáo đặt model này khoảng 79,2–80,8% [3][5][7][9]. Với workflow tác tử trong terminal, GPT 5.3 Codex rất mạnh trong các so sánh OpenAI, nhưng Terminal Bench 2.0 công khai xếp theo cặp agent/model...

4.5K0
Abstract comparison of AI coding models on a benchmark leaderboard
GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic

openai.com

Bức tranh benchmark hiện không cho một câu trả lời kiểu “model này luôn code tốt nhất”. Trong các nguồn được trích dẫn, Claude Opus 4.6 có tín hiệu mạnh nhất trên SWE-Bench Verified, GPT-5.3-Codex là model OpenAI nổi bật nhất ở nhánh Terminal-Bench 2.0, còn lợi thế coding trực tiếp của GPT-5.4 so với GPT-5.3-Codex trông giống một bước tăng nhẹ hơn là một cú vượt hẳn [1][3][5][7][9].

Điểm dễ gây hiểu nhầm nằm ở phương pháp đo. SWE-Bench Verified, SWE-Bench Pro và SWE-Bench Pro Public không nên bị gộp thành một bảng xếp hạng duy nhất; Terminal-Bench 2.0 công khai cũng chấm theo cặp agent/model, tức kết quả phụ thuộc cả model lẫn “khung chạy” agent [1][6][7][10].

Kết luận nhanh: chọn theo việc bạn cần làm

Nhu cầuModel nên thử trướcBằng chứng chínhLưu ý quan trọng
Sửa lỗi repository theo kiểu SWE-Bench VerifiedClaude Opus 4.6Opus 4.6 được báo cáo khoảng 79,2–80,8% trên SWE-Bench Verified trong các nguồn được trích dẫn [3][5][7][9].Đừng so trực tiếp với SWE-Bench Pro Public như thể đó là cùng một bài thi [6][7][10].
Workflow coding bằng tác tử trong terminalGPT-5.3-Codex, nhưng phải kiểm tra harnessMột so sánh tập trung vào GPT-5.4 ghi GPT-5.3-Codex đạt 77,3% trên Terminal-Bench 2.0, cao hơn GPT-5.4 ở 75,1% và Claude Opus 4.6 ở 65,4% [3].Bảng công khai xếp theo cặp agent/model; Claude Opus 4.6 đạt 79,8% khi đi cùng ForgeCode [1].
Chỉ chọn trong hệ model OpenAIGPT-5.4, với kỳ vọng tăng nhẹCùng nguồn ghi GPT-5.4 đạt 57,7% trên SWE-Bench Pro, so với 56,8% của GPT-5.3-Codex [3].Trong cùng so sánh, GPT-5.4 lại thấp hơn GPT-5.3-Codex trên Terminal-Bench 2.0 [3].
Hệ thống dùng nhiều công cụ/MCPGPT-5.4 đáng có vòng thử riêngPhân tích GPT-5.4 nói tool search giảm 47% token MCP bằng cách nạp định nghĩa công cụ theo nhu cầu [3].Tiết kiệm token không đồng nghĩa với thắng benchmark sửa lỗi hay terminal [3].

Cái bẫy của benchmark: không phải số nào cũng so trực tiếp được

SWE-Bench Verified không phải SWE-Bench Pro Public

Lý lẽ mạnh nhất cho Claude Opus 4.6 đến từ SWE-Bench Verified. Các báo cáo được trích dẫn đặt model này ở mức 79,2%, 79,4% hoặc 80,8% trên biến thể benchmark đó [3][5][7][9].

GPT-5.3-Codex khó tóm gọn hơn, vì các nguồn dùng các nhánh SWE-Bench khác nhau. Một phân tích về GPT-5.4 ghi GPT-5.3-Codex đạt 56,8% trên SWE-Bench Pro, trong khi hai bài so sánh Opus-vs-Codex ghi GPT-5.3-Codex đạt 78,2% trên SWE-Bench Pro Public [3][6][7]. Đây là tín hiệu cần thận trọng, không phải lý do để lấy trung bình rồi tuyên bố model nào thắng. Nhiều nguồn nhấn mạnh SWE-Bench Verified và SWE-Bench Pro Public không thể so trực tiếp như cùng một bài kiểm tra [6][7][10].

Với GPT-5.4, lợi thế coding rõ nhất khi so trong cùng nguồn OpenAI-on-OpenAI là khá hẹp: 57,7% trên SWE-Bench Pro so với 56,8% của GPT-5.3-Codex [3]. Một tổng hợp khác cũng nhắc đến mốc 57,7% của GPT-5.4 trên SWE-Bench Pro/Public, đồng thời cảnh báo rằng so rộng giữa Claude và GPT ở đây không phải phép so “táo với táo” [10].

Terminal-Bench chấm cả agent harness, không chỉ model

Terminal-Bench 2.0 còn dễ bị đọc sai hơn, vì bảng xếp hạng công khai liệt kê cặp agent/model chứ không phải điểm model độc lập [1]. Trong bảng đó, GPT-5.3-Codex xuất hiện ở 78,4% với SageAgent, 77,3% với Droid và 75,1% với Simple Codex [1]. Claude Opus 4.6 xuất hiện ở 79,8% với ForgeCode, 75,3% với Capy và 62,9% với Terminus 2 [1].

Khoảng dao động này đủ lớn để làm đổi người thắng trên giấy. Một so sánh tập trung vào GPT-5.4 ghi GPT-5.3-Codex vượt Claude Opus 4.6 trên Terminal-Bench 2.0, 77,3% so với 65,4% [3]. Nhưng bảng công khai lại có mục ForgeCode/Claude Opus 4.6 đạt 79,8%, cao hơn mục SageAgent/GPT-5.3-Codex ở 78,4% [1]. Kết luận thực dụng: nếu bạn đánh giá tác tử trong terminal, hãy giữ nguyên harness trước khi nói model nào tốt hơn.

Đọc từng model như thế nào?

Claude Opus 4.6: tín hiệu mạnh nhất cho sửa lỗi kiểu Verified

Nếu thước đo chính của bạn là SWE-Bench Verified, Claude Opus 4.6 là điểm xuất phát được hỗ trợ tốt nhất trong các nguồn này. Các điểm Verified được báo cáo tập trung quanh 79–81%: 79,2% trong phân tích GPT-5.4, 79,4% trong các bài so sánh Opus-vs-Codex và 80,8% trong những tổng hợp benchmark khác [3][5][6][7][9].

Điều đó không có nghĩa Opus 4.6 thắng mọi tác vụ lập trình. Câu chuyện Terminal-Bench của nó khá lẫn lộn: một số bài so sánh ghi 65,4%, trong khi bảng công khai cho thấy 79,8% khi Opus 4.6 đi cùng ForgeCode và 62,9% khi đi cùng Terminus 2 [1][3][7][9]. Nói ngắn gọn: Opus 4.6 là lựa chọn an toàn để thử đầu tiên cho bài toán sửa lỗi repository kiểu Verified, nhưng chưa đủ cơ sở để gọi là nhà vô địch coding cho mọi ngữ cảnh.

GPT-5.3-Codex: ứng viên OpenAI mạnh cho tác tử terminal

GPT-5.3-Codex có lý lẽ mạnh nhất khi workload giống các tác vụ shell/terminal có tính tác tử. Các báo cáo so sánh ghi model này đạt 77,3% trên Terminal-Bench 2.0; bảng công khai liệt kê GPT-5.3-Codex ở 78,4% với SageAgent, 77,3% với Droid và 75,1% với Simple Codex [1][3][7][9].

Nhưng khi chuyển sang SWE-Bench, cần đọc kỹ tên biến thể. Một số nguồn ghi GPT-5.3-Codex đạt 78,2% trên SWE-Bench Pro Public, trong khi nguồn khác ghi 56,8% trên SWE-Bench Pro [3][6][7][9]. Vì các nguồn được trích dẫn cảnh báo rằng những biến thể này không thể hoán đổi trực tiếp, GPT-5.3-Codex nên được đánh giá trên đúng biến thể SWE-Bench và đúng thiết lập bạn định dùng [6][7][10].

GPT-5.4: không phải cú nổ coding, nhưng đáng chú ý ở dùng công cụ

Trong bộ benchmark được cung cấp, GPT-5.4 không giống một cú bứt phá coding áp đảo. So sánh cùng nguồn cho thấy GPT-5.4 chỉ nhỉnh hơn GPT-5.3-Codex trên SWE-Bench Pro, 57,7% so với 56,8%, nhưng lại thấp hơn trên Terminal-Bench 2.0, 75,1% so với 77,3% [3].

Dữ liệu khác biệt hơn của GPT-5.4 nằm ở khả năng dùng công cụ. Phân tích GPT-5.4 nói tool search giúp giảm 47% token MCP bằng cách chỉ nạp định nghĩa công cụ khi cần, thay vì đưa toàn bộ định nghĩa vào ngữ cảnh [3]. Với các hệ thống coding agent phải gọi nhiều công cụ, đây có thể là lợi thế kiến trúc đáng đo riêng. Nhưng nó là một loại tín hiệu khác với điểm sửa lỗi trên SWE-Bench hay điểm Terminal-Bench [3].

Cách so sánh mà không tự đánh lừa mình

  1. Chọn biến thể benchmark trước khi chọn người thắng. SWE-Bench Verified, SWE-Bench Pro và SWE-Bench Pro Public không nên bị gom vào một bảng điểm chung [6][7][10].
  2. Giữ nguyên agent harness cho tác vụ terminal. Bảng Terminal-Bench 2.0 công khai cho thấy cùng một model có thể có độ chính xác khác nhau đáng kể tùy cặp agent/model [1].
  3. Tách độ chính xác coding khỏi hiệu quả dùng công cụ. Mức giảm 47% token MCP được báo cáo cho GPT-5.4 là tín hiệu hữu ích cho hệ thống nhiều công cụ, nhưng không phải cùng loại tuyên bố với chiến thắng trên SWE-Bench hay Terminal-Bench [3].
  4. Xem các bảng xếp hạng trộn nguồn như chỉ báo định hướng. Các nguồn ở đây ủng hộ những người thắng khác nhau theo từng benchmark, vì vậy một bảng xếp hạng tuyệt đối sẽ nói quá mức bằng chứng hiện có [1][3][6][7][10].

Chốt lại

Hãy bắt đầu với Claude Opus 4.6 nếu bài toán của bạn giống sửa lỗi repository theo SWE-Bench Verified; đưa GPT-5.3-Codex vào mọi vòng thử liên quan đến tác tử terminal; và thử GPT-5.4 nếu bạn cần model OpenAI mới nhất hoặc muốn đo lợi ích tool-search trong hệ thống dùng nhiều công cụ [1][3][5][7][9].

Kết luận an toàn nhất không phải là một model thống trị mọi bài toán code. Người thắng thay đổi theo biến thể benchmark, agent harness và workload thật mà bạn định chạy [1][6][7][10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Nếu công việc giống sửa lỗi repository theo kiểu SWE Bench Verified, Claude Opus 4.6 là lựa chọn nên thử đầu tiên: các báo cáo đặt model này khoảng 79,2–80,8% [3][5][7][9].
  • Với workflow tác tử trong terminal, GPT 5.3 Codex rất mạnh trong các so sánh OpenAI, nhưng Terminal Bench 2.0 công khai xếp theo cặp agent/model nên phải cố định harness trước khi kết luận [1][3].
  • GPT 5.4 có mức tăng coding trực tiếp khá nhỏ so với GPT 5.3 Codex trong nguồn cùng so sánh, nhưng đáng thử nếu bạn quan tâm hệ thống dùng nhiều công cụ/MCP nhờ dữ liệu giảm 47% token MCP [3].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: chọn model code theo benchmark" là gì?

Nếu công việc giống sửa lỗi repository theo kiểu SWE Bench Verified, Claude Opus 4.6 là lựa chọn nên thử đầu tiên: các báo cáo đặt model này khoảng 79,2–80,8% [3][5][7][9].

Những điểm chính cần xác nhận đầu tiên là gì?

Nếu công việc giống sửa lỗi repository theo kiểu SWE Bench Verified, Claude Opus 4.6 là lựa chọn nên thử đầu tiên: các báo cáo đặt model này khoảng 79,2–80,8% [3][5][7][9]. Với workflow tác tử trong terminal, GPT 5.3 Codex rất mạnh trong các so sánh OpenAI, nhưng Terminal Bench 2.0 công khai xếp theo cặp agent/model nên phải cố định harness trước khi kết luận [1][3].

Tôi nên làm gì tiếp theo trong thực tế?

GPT 5.4 có mức tăng coding trực tiếp khá nhỏ so với GPT 5.3 Codex trong nguồn cùng so sánh, nhưng đáng thử nếu bạn quan tâm hệ thống dùng nhiều công cụ/MCP nhờ dữ liệu giảm 47% token MCP [3].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Nguồn

  • [1] 2.0 Leaderboardtbench.ai

    Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...

  • [3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me

    - Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...

  • [5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev

    I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...

  • [6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com

    79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...

  • [7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com

    The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...

  • [9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai

    - Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...

  • [10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai

    Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...