Dấu — nghĩa là không tìm thấy điểm trong các nguồn được trích cho mô hình đó, không phải mô hình đạt 0 điểm. Các dòng GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max chủ yếu đến từ một bảng so sánh chung; số liệu của Kimi K2.6 đến từ các nguồn riêng về Kimi .
OpenAI giới thiệu GPT-5.5 là mô hình dành cho các tác vụ phức tạp như lập trình, nghiên cứu và phân tích dữ liệu . Trong bảng so sánh chung của VentureBeat, GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 ở 69,4% và DeepSeek-V4-Pro-Max ở 67,9%
. Cũng trong bảng đó, GPT-5.5 đạt 93,6% trên GPQA Diamond, 58,6% trên SWE-Bench Pro và 84,4% trên BrowseComp
.
Điểm cần nhớ là GPT-5.5 Pro là một điểm so sánh riêng. Cùng bảng cho thấy GPT-5.5 Pro đạt 90,1% trên BrowseComp và 57,2% trên Humanity’s Last Exam có công cụ, nhưng không nên gộp các con số này với GPT-5.5 gốc khi so chi phí, độ trễ hoặc thiết lập vận hành .
Về triển khai, BenchLM liệt kê GPT-5.5 có cửa sổ ngữ cảnh 1 triệu token, còn một báo cáo giá nêu $5 cho mỗi triệu token đầu vào và $30 cho mỗi triệu token đầu ra . Với các quyết định ngân sách, nên xem đây là tín hiệu ban đầu và kiểm tra lại bảng giá hiện hành từ nhà cung cấp.
Claude Opus 4.7 có tín hiệu mạnh nhất về sửa lỗi phần mềm trong nhóm này. LLM Stats liệt kê mô hình đạt 87,6% trên SWE-Bench Verified, còn bảng so sánh chung báo cáo 64,3% trên SWE-Bench Pro . Mô hình này cũng dẫn GPQA Diamond với 94,2%, Humanity’s Last Exam không dùng công cụ với 46,9% và MCP Atlas với 79,1% trong bảng so sánh chung
.
LLM Stats báo cáo Claude Opus 4.7 có cửa sổ ngữ cảnh 1 triệu token và mức giá $5/$25 cho mỗi triệu token . Tuy nhiên, cần đọc benchmark một cách thận trọng: Anthropic lưu ý rằng một số kết quả dùng triển khai nội bộ hoặc tham số harness đã cập nhật, nên không phải lúc nào cũng so sánh trực tiếp được với điểm trên leaderboard công khai
.
Kimi K2.6 là ứng viên mở trọng số đáng chú ý nhất trong các nguồn được trích. Bài phát hành mô tả mô hình này là MoE mở trọng số 1 nghìn tỷ tham số, 32 tỷ tham số hoạt động, 384 expert, hỗ trợ đa phương thức native, lượng tử hóa INT4 và cửa sổ ngữ cảnh 256K . Model card trên Hugging Face báo cáo 80,2% trên SWE-Bench Verified, 58,6% trên SWE-Bench Pro, 66,7% trên Terminal-Bench 2.0 và 89,6 trên LiveCodeBench v6
.
Nguồn phát hành cũng báo cáo Kimi K2.6 đạt 54,0 trên Humanity’s Last Exam có công cụ và 83,2 trên BrowseComp . LLM Stats liệt kê Kimi K2.6 với ngữ cảnh 262K, cột giá $0,95/$4,00 và nhãn Open Source
. Hạn chế lớn là số liệu của Kimi không nằm trong cùng bảng so sánh với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max, nên các chênh lệch nhỏ nên được xem là lý do để thử nghiệm thêm, không phải kết luận thắng thua tuyệt đối
.
DeepSeek-V4-Pro-Max giống một ứng viên giá trị hơn là mô hình dẫn đầu toàn diện về benchmark. LLM Stats liệt kê mô hình này có kích thước 1,6T, ngữ cảnh 1 triệu token, 80,6% trên SWE-Bench Verified và cột giá $1,74/$3,48 . Trong bảng so sánh chung, DeepSeek-V4-Pro-Max đạt 90,1% trên GPQA Diamond, 37,7% trên Humanity’s Last Exam không dùng công cụ, 48,2% trên Humanity’s Last Exam có công cụ, 67,9% trên Terminal-Bench 2.0, 55,4% trên SWE-Bench Pro, 83,4% trên BrowseComp và 73,6% trên MCP Atlas
.
Những con số này khiến DeepSeek-V4-Pro-Max đáng đưa vào danh sách kiểm thử nếu chi phí là ràng buộc lớn. Nhưng cùng bảng so sánh cho thấy GPT-5.5, GPT-5.5 Pro hoặc Claude Opus 4.7 dẫn phần lớn các dòng benchmark được báo cáo, vì vậy DeepSeek vẫn nên được kiểm chứng trên tác vụ thật trước khi thay thế một mô hình premium trong production .
Giá và cửa sổ ngữ cảnh không phải lúc nào cũng đến từ cùng một nguồn hay cùng thời điểm. Hãy dùng các số dưới đây như tín hiệu để lập danh sách kiểm tra, không phải báo giá cuối cùng.
Các dòng benchmark đo những kỹ năng khác nhau. GPQA Diamond và Humanity’s Last Exam thiên về suy luận khó; Terminal-Bench 2.0 và các biến thể SWE-Bench thiên về lập trình, sửa lỗi và tác vụ phần mềm kiểu agent; BrowseComp đo năng lực truy xuất kiểu duyệt web trong bảng so sánh chung . Một mô hình có thể dẫn ở một dòng và tụt ở dòng khác vì bài toán, quyền dùng công cụ và harness đánh giá khác nhau.
Ngay cả cùng một benchmark cũng có thể cho kết quả khác khi cách chạy khác. LLM Stats liệt kê Claude Opus 4.7 đạt 87,6% trên SWE-Bench Verified, trong khi LMCouncil liệt kê Claude Opus 4.7 ở 83,5% ± 1,7 theo thiết lập của họ . Anthropic cũng nói rằng một số kết quả của họ dùng triển khai nội bộ hoặc tham số harness cập nhật, làm hạn chế khả năng so sánh trực tiếp với leaderboard công khai
.
Vì vậy, khoảng cách một hai điểm phần trăm không nên tự mình quyết định triển khai production. Benchmark công khai hữu ích nhất ở bước rút gọn danh sách; bài kiểm thử nội bộ mới nên là cơ sở chốt lựa chọn.
Trước khi cam kết với một mô hình, hãy thử hai hoặc ba ứng viên đầu bảng trên tác vụ giống môi trường thật của bạn.
Nếu cần danh sách thử nghiệm cao cấp, hãy đặt GPT-5.5 và Claude Opus 4.7 cạnh nhau: GPT-5.5 có điểm Terminal-Bench 2.0 được trích cao nhất, còn Claude Opus 4.7 có điểm SWE-Bench Pro và SWE-Bench Verified được trích mạnh nhất . Nếu cần mở trọng số, bắt đầu với Kimi K2.6
. Nếu chi phí là ràng buộc chính, thêm DeepSeek-V4-Pro-Max vào bài test, nhưng đừng coi nó là lựa chọn thay thế ngay cho các mô hình premium khi chưa kiểm chứng trên workload của chính bạn
.
Comments
0 comments