Bức tranh benchmark hiện không cho một câu trả lời kiểu “model này luôn code tốt nhất”. Trong các nguồn được trích dẫn, Claude Opus 4.6 có tín hiệu mạnh nhất trên SWE-Bench Verified, GPT-5.3-Codex là model OpenAI nổi bật nhất ở nhánh Terminal-Bench 2.0, còn lợi thế coding trực tiếp của GPT-5.4 so với GPT-5.3-Codex trông giống một bước tăng nhẹ hơn là một cú vượt hẳn [1][
3][
5][
7][
9].
Điểm dễ gây hiểu nhầm nằm ở phương pháp đo. SWE-Bench Verified, SWE-Bench Pro và SWE-Bench Pro Public không nên bị gộp thành một bảng xếp hạng duy nhất; Terminal-Bench 2.0 công khai cũng chấm theo cặp agent/model, tức kết quả phụ thuộc cả model lẫn “khung chạy” agent [1][
6][
7][
10].
Kết luận nhanh: chọn theo việc bạn cần làm
| Nhu cầu | Model nên thử trước | Bằng chứng chính | Lưu ý quan trọng |
|---|---|---|---|
| Sửa lỗi repository theo kiểu SWE-Bench Verified | Claude Opus 4.6 | Opus 4.6 được báo cáo khoảng 79,2–80,8% trên SWE-Bench Verified trong các nguồn được trích dẫn [ | Đừng so trực tiếp với SWE-Bench Pro Public như thể đó là cùng một bài thi [ |
| Workflow coding bằng tác tử trong terminal | GPT-5.3-Codex, nhưng phải kiểm tra harness | Một so sánh tập trung vào GPT-5.4 ghi GPT-5.3-Codex đạt 77,3% trên Terminal-Bench 2.0, cao hơn GPT-5.4 ở 75,1% và Claude Opus 4.6 ở 65,4% [ | Bảng công khai xếp theo cặp agent/model; Claude Opus 4.6 đạt 79,8% khi đi cùng ForgeCode [ |
| Chỉ chọn trong hệ model OpenAI | GPT-5.4, với kỳ vọng tăng nhẹ | Cùng nguồn ghi GPT-5.4 đạt 57,7% trên SWE-Bench Pro, so với 56,8% của GPT-5.3-Codex [ | Trong cùng so sánh, GPT-5.4 lại thấp hơn GPT-5.3-Codex trên Terminal-Bench 2.0 [ |
| Hệ thống dùng nhiều công cụ/MCP | GPT-5.4 đáng có vòng thử riêng | Phân tích GPT-5.4 nói tool search giảm 47% token MCP bằng cách nạp định nghĩa công cụ theo nhu cầu [ | Tiết kiệm token không đồng nghĩa với thắng benchmark sửa lỗi hay terminal [ |
Cái bẫy của benchmark: không phải số nào cũng so trực tiếp được
SWE-Bench Verified không phải SWE-Bench Pro Public
Lý lẽ mạnh nhất cho Claude Opus 4.6 đến từ SWE-Bench Verified. Các báo cáo được trích dẫn đặt model này ở mức 79,2%, 79,4% hoặc 80,8% trên biến thể benchmark đó [3][
5][
7][
9].
GPT-5.3-Codex khó tóm gọn hơn, vì các nguồn dùng các nhánh SWE-Bench khác nhau. Một phân tích về GPT-5.4 ghi GPT-5.3-Codex đạt 56,8% trên SWE-Bench Pro, trong khi hai bài so sánh Opus-vs-Codex ghi GPT-5.3-Codex đạt 78,2% trên SWE-Bench Pro Public [3][
6][
7]. Đây là tín hiệu cần thận trọng, không phải lý do để lấy trung bình rồi tuyên bố model nào thắng. Nhiều nguồn nhấn mạnh SWE-Bench Verified và SWE-Bench Pro Public không thể so trực tiếp như cùng một bài kiểm tra [
6][
7][
10].
Với GPT-5.4, lợi thế coding rõ nhất khi so trong cùng nguồn OpenAI-on-OpenAI là khá hẹp: 57,7% trên SWE-Bench Pro so với 56,8% của GPT-5.3-Codex [3]. Một tổng hợp khác cũng nhắc đến mốc 57,7% của GPT-5.4 trên SWE-Bench Pro/Public, đồng thời cảnh báo rằng so rộng giữa Claude và GPT ở đây không phải phép so “táo với táo” [
10].
Terminal-Bench chấm cả agent harness, không chỉ model
Terminal-Bench 2.0 còn dễ bị đọc sai hơn, vì bảng xếp hạng công khai liệt kê cặp agent/model chứ không phải điểm model độc lập [1]. Trong bảng đó, GPT-5.3-Codex xuất hiện ở 78,4% với SageAgent, 77,3% với Droid và 75,1% với Simple Codex [
1]. Claude Opus 4.6 xuất hiện ở 79,8% với ForgeCode, 75,3% với Capy và 62,9% với Terminus 2 [
1].
Khoảng dao động này đủ lớn để làm đổi người thắng trên giấy. Một so sánh tập trung vào GPT-5.4 ghi GPT-5.3-Codex vượt Claude Opus 4.6 trên Terminal-Bench 2.0, 77,3% so với 65,4% [3]. Nhưng bảng công khai lại có mục ForgeCode/Claude Opus 4.6 đạt 79,8%, cao hơn mục SageAgent/GPT-5.3-Codex ở 78,4% [
1]. Kết luận thực dụng: nếu bạn đánh giá tác tử trong terminal, hãy giữ nguyên harness trước khi nói model nào tốt hơn.
Đọc từng model như thế nào?
Claude Opus 4.6: tín hiệu mạnh nhất cho sửa lỗi kiểu Verified
Nếu thước đo chính của bạn là SWE-Bench Verified, Claude Opus 4.6 là điểm xuất phát được hỗ trợ tốt nhất trong các nguồn này. Các điểm Verified được báo cáo tập trung quanh 79–81%: 79,2% trong phân tích GPT-5.4, 79,4% trong các bài so sánh Opus-vs-Codex và 80,8% trong những tổng hợp benchmark khác [3][
5][
6][
7][
9].
Điều đó không có nghĩa Opus 4.6 thắng mọi tác vụ lập trình. Câu chuyện Terminal-Bench của nó khá lẫn lộn: một số bài so sánh ghi 65,4%, trong khi bảng công khai cho thấy 79,8% khi Opus 4.6 đi cùng ForgeCode và 62,9% khi đi cùng Terminus 2 [1][
3][
7][
9]. Nói ngắn gọn: Opus 4.6 là lựa chọn an toàn để thử đầu tiên cho bài toán sửa lỗi repository kiểu Verified, nhưng chưa đủ cơ sở để gọi là nhà vô địch coding cho mọi ngữ cảnh.
GPT-5.3-Codex: ứng viên OpenAI mạnh cho tác tử terminal
GPT-5.3-Codex có lý lẽ mạnh nhất khi workload giống các tác vụ shell/terminal có tính tác tử. Các báo cáo so sánh ghi model này đạt 77,3% trên Terminal-Bench 2.0; bảng công khai liệt kê GPT-5.3-Codex ở 78,4% với SageAgent, 77,3% với Droid và 75,1% với Simple Codex [1][
3][
7][
9].
Nhưng khi chuyển sang SWE-Bench, cần đọc kỹ tên biến thể. Một số nguồn ghi GPT-5.3-Codex đạt 78,2% trên SWE-Bench Pro Public, trong khi nguồn khác ghi 56,8% trên SWE-Bench Pro [3][
6][
7][
9]. Vì các nguồn được trích dẫn cảnh báo rằng những biến thể này không thể hoán đổi trực tiếp, GPT-5.3-Codex nên được đánh giá trên đúng biến thể SWE-Bench và đúng thiết lập bạn định dùng [
6][
7][
10].
GPT-5.4: không phải cú nổ coding, nhưng đáng chú ý ở dùng công cụ
Trong bộ benchmark được cung cấp, GPT-5.4 không giống một cú bứt phá coding áp đảo. So sánh cùng nguồn cho thấy GPT-5.4 chỉ nhỉnh hơn GPT-5.3-Codex trên SWE-Bench Pro, 57,7% so với 56,8%, nhưng lại thấp hơn trên Terminal-Bench 2.0, 75,1% so với 77,3% [3].
Dữ liệu khác biệt hơn của GPT-5.4 nằm ở khả năng dùng công cụ. Phân tích GPT-5.4 nói tool search giúp giảm 47% token MCP bằng cách chỉ nạp định nghĩa công cụ khi cần, thay vì đưa toàn bộ định nghĩa vào ngữ cảnh [3]. Với các hệ thống coding agent phải gọi nhiều công cụ, đây có thể là lợi thế kiến trúc đáng đo riêng. Nhưng nó là một loại tín hiệu khác với điểm sửa lỗi trên SWE-Bench hay điểm Terminal-Bench [
3].
Cách so sánh mà không tự đánh lừa mình
- Chọn biến thể benchmark trước khi chọn người thắng. SWE-Bench Verified, SWE-Bench Pro và SWE-Bench Pro Public không nên bị gom vào một bảng điểm chung [
6][
7][
10].
- Giữ nguyên agent harness cho tác vụ terminal. Bảng Terminal-Bench 2.0 công khai cho thấy cùng một model có thể có độ chính xác khác nhau đáng kể tùy cặp agent/model [
1].
- Tách độ chính xác coding khỏi hiệu quả dùng công cụ. Mức giảm 47% token MCP được báo cáo cho GPT-5.4 là tín hiệu hữu ích cho hệ thống nhiều công cụ, nhưng không phải cùng loại tuyên bố với chiến thắng trên SWE-Bench hay Terminal-Bench [
3].
- Xem các bảng xếp hạng trộn nguồn như chỉ báo định hướng. Các nguồn ở đây ủng hộ những người thắng khác nhau theo từng benchmark, vì vậy một bảng xếp hạng tuyệt đối sẽ nói quá mức bằng chứng hiện có [
1][
3][
6][
7][
10].
Chốt lại
Hãy bắt đầu với Claude Opus 4.6 nếu bài toán của bạn giống sửa lỗi repository theo SWE-Bench Verified; đưa GPT-5.3-Codex vào mọi vòng thử liên quan đến tác tử terminal; và thử GPT-5.4 nếu bạn cần model OpenAI mới nhất hoặc muốn đo lợi ích tool-search trong hệ thống dùng nhiều công cụ [1][
3][
5][
7][
9].
Kết luận an toàn nhất không phải là một model thống trị mọi bài toán code. Người thắng thay đổi theo biến thể benchmark, agent harness và workload thật mà bạn định chạy [1][
6][
7][
10].




