Lý lẽ mạnh nhất cho Claude Opus 4.6 đến từ SWE-Bench Verified. Các báo cáo được trích dẫn đặt model này ở mức 79,2%, 79,4% hoặc 80,8% trên biến thể benchmark đó .
GPT-5.3-Codex khó tóm gọn hơn, vì các nguồn dùng các nhánh SWE-Bench khác nhau. Một phân tích về GPT-5.4 ghi GPT-5.3-Codex đạt 56,8% trên SWE-Bench Pro, trong khi hai bài so sánh Opus-vs-Codex ghi GPT-5.3-Codex đạt 78,2% trên SWE-Bench Pro Public . Đây là tín hiệu cần thận trọng, không phải lý do để lấy trung bình rồi tuyên bố model nào thắng. Nhiều nguồn nhấn mạnh SWE-Bench Verified và SWE-Bench Pro Public không thể so trực tiếp như cùng một bài kiểm tra
.
Với GPT-5.4, lợi thế coding rõ nhất khi so trong cùng nguồn OpenAI-on-OpenAI là khá hẹp: 57,7% trên SWE-Bench Pro so với 56,8% của GPT-5.3-Codex . Một tổng hợp khác cũng nhắc đến mốc 57,7% của GPT-5.4 trên SWE-Bench Pro/Public, đồng thời cảnh báo rằng so rộng giữa Claude và GPT ở đây không phải phép so “táo với táo”
.
Terminal-Bench 2.0 còn dễ bị đọc sai hơn, vì bảng xếp hạng công khai liệt kê cặp agent/model chứ không phải điểm model độc lập . Trong bảng đó, GPT-5.3-Codex xuất hiện ở 78,4% với SageAgent, 77,3% với Droid và 75,1% với Simple Codex
. Claude Opus 4.6 xuất hiện ở 79,8% với ForgeCode, 75,3% với Capy và 62,9% với Terminus 2
.
Khoảng dao động này đủ lớn để làm đổi người thắng trên giấy. Một so sánh tập trung vào GPT-5.4 ghi GPT-5.3-Codex vượt Claude Opus 4.6 trên Terminal-Bench 2.0, 77,3% so với 65,4% . Nhưng bảng công khai lại có mục ForgeCode/Claude Opus 4.6 đạt 79,8%, cao hơn mục SageAgent/GPT-5.3-Codex ở 78,4%
. Kết luận thực dụng: nếu bạn đánh giá tác tử trong terminal, hãy giữ nguyên harness trước khi nói model nào tốt hơn.
Nếu thước đo chính của bạn là SWE-Bench Verified, Claude Opus 4.6 là điểm xuất phát được hỗ trợ tốt nhất trong các nguồn này. Các điểm Verified được báo cáo tập trung quanh 79–81%: 79,2% trong phân tích GPT-5.4, 79,4% trong các bài so sánh Opus-vs-Codex và 80,8% trong những tổng hợp benchmark khác .
Điều đó không có nghĩa Opus 4.6 thắng mọi tác vụ lập trình. Câu chuyện Terminal-Bench của nó khá lẫn lộn: một số bài so sánh ghi 65,4%, trong khi bảng công khai cho thấy 79,8% khi Opus 4.6 đi cùng ForgeCode và 62,9% khi đi cùng Terminus 2 . Nói ngắn gọn: Opus 4.6 là lựa chọn an toàn để thử đầu tiên cho bài toán sửa lỗi repository kiểu Verified, nhưng chưa đủ cơ sở để gọi là nhà vô địch coding cho mọi ngữ cảnh.
GPT-5.3-Codex có lý lẽ mạnh nhất khi workload giống các tác vụ shell/terminal có tính tác tử. Các báo cáo so sánh ghi model này đạt 77,3% trên Terminal-Bench 2.0; bảng công khai liệt kê GPT-5.3-Codex ở 78,4% với SageAgent, 77,3% với Droid và 75,1% với Simple Codex .
Nhưng khi chuyển sang SWE-Bench, cần đọc kỹ tên biến thể. Một số nguồn ghi GPT-5.3-Codex đạt 78,2% trên SWE-Bench Pro Public, trong khi nguồn khác ghi 56,8% trên SWE-Bench Pro . Vì các nguồn được trích dẫn cảnh báo rằng những biến thể này không thể hoán đổi trực tiếp, GPT-5.3-Codex nên được đánh giá trên đúng biến thể SWE-Bench và đúng thiết lập bạn định dùng
.
Trong bộ benchmark được cung cấp, GPT-5.4 không giống một cú bứt phá coding áp đảo. So sánh cùng nguồn cho thấy GPT-5.4 chỉ nhỉnh hơn GPT-5.3-Codex trên SWE-Bench Pro, 57,7% so với 56,8%, nhưng lại thấp hơn trên Terminal-Bench 2.0, 75,1% so với 77,3% .
Dữ liệu khác biệt hơn của GPT-5.4 nằm ở khả năng dùng công cụ. Phân tích GPT-5.4 nói tool search giúp giảm 47% token MCP bằng cách chỉ nạp định nghĩa công cụ khi cần, thay vì đưa toàn bộ định nghĩa vào ngữ cảnh . Với các hệ thống coding agent phải gọi nhiều công cụ, đây có thể là lợi thế kiến trúc đáng đo riêng. Nhưng nó là một loại tín hiệu khác với điểm sửa lỗi trên SWE-Bench hay điểm Terminal-Bench
.
Hãy bắt đầu với Claude Opus 4.6 nếu bài toán của bạn giống sửa lỗi repository theo SWE-Bench Verified; đưa GPT-5.3-Codex vào mọi vòng thử liên quan đến tác tử terminal; và thử GPT-5.4 nếu bạn cần model OpenAI mới nhất hoặc muốn đo lợi ích tool-search trong hệ thống dùng nhiều công cụ .
Comments
0 comments