Nhìn vào biểu đồ benchmark, rất dễ tưởng đây là một cuộc đua có một người thắng rõ ràng. Nhưng với bốn cái tên GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4, cách đọc như vậy hơi nguy hiểm. So sánh chung gần nhất trong các nguồn được trích bao gồm GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [24]; còn Kimi K2.6 phải lấy thêm từ các nguồn riêng như bài phát hành, model card và leaderboard [
1][
6]. Vì thế, câu hỏi thực tế hơn không phải là mô hình nào thắng tất cả, mà là bạn nên kiểm thử mô hình nào trước cho đúng việc.
Một lưu ý về tên gọi: bài này dùng DeepSeek-V4-Pro-Max khi nói về DeepSeek V4, vì đây là biến thể có dòng benchmark và chi phí trong các nguồn được trích [18][
24]. Bài cũng giữ GPT-5.5 Pro tách khỏi GPT-5.5 gốc ở những nơi nguồn báo cáo điểm riêng [
24].
Kết luận nhanh theo nhu cầu
- Agent coding chạy nhiều lệnh terminal: bắt đầu với GPT-5.5. Điểm Terminal-Bench 2.0 được trích là 82,7%, cao nhất trong nhóm so sánh chung [
24].
- Sửa lỗi phần mềm theo benchmark SWE: ưu tiên Claude Opus 4.7. Mô hình này dẫn SWE-Bench Pro với 64,3% và SWE-Bench Verified với 87,6% trong các nguồn được trích [
18][
24].
- Suy luận khó không dùng công cụ: Claude Opus 4.7 dẫn các dòng GPQA Diamond và Humanity’s Last Exam không dùng công cụ trong bảng so sánh chung [
24].
- Suy luận có công cụ hoặc duyệt web: GPT-5.5 Pro dẫn Humanity’s Last Exam có công cụ với 57,2% và BrowseComp với 90,1% ở nơi bản Pro được báo cáo riêng [
24].
- Triển khai mở trọng số: Kimi K2.6 là ứng viên rõ nhất trong các nguồn được trích, được mô tả là mô hình MoE mở trọng số 1 nghìn tỷ tham số, 32 tỷ tham số hoạt động và cửa sổ ngữ cảnh 256K [
1].
- Suy luận qua API nhưng nhạy cảm chi phí: DeepSeek-V4-Pro-Max là lựa chọn đáng kiểm thử, khi LLM Stats liệt kê ngữ cảnh 1 triệu token, 80,6% trên SWE-Bench Verified và cột giá $1,74/$3,48 [
18].
Bảng benchmark chính
Dấu — nghĩa là không tìm thấy điểm trong các nguồn được trích cho mô hình đó, không phải mô hình đạt 0 điểm. Các dòng GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max chủ yếu đến từ một bảng so sánh chung; số liệu của Kimi K2.6 đến từ các nguồn riêng về Kimi [1][
6][
24].
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | — | 94,2% [ | ≈91% [ | 90,1% [ |
| Humanity’s Last Exam, không dùng công cụ | 41,4% [ | 43,1% [ | 46,9% [ | — | 37,7% [ |
| Humanity’s Last Exam, có công cụ | 52,2% [ | 57,2% [ | 54,7% [ | 54,0% [ | 48,2% [ |
| Terminal-Bench 2.0 | 82,7% [ | — | 69,4% [ | 66,7% [ | 67,9% [ |
| SWE-Bench Pro | 58,6% [ | — | 64,3% [ | 58,6% [ | 55,4% [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,2% [ | 83,4% [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | — | 79,1% [ | — | 73,6% [ |
| SWE-Bench Verified | — | — | 87,6% [ | 80,2% [ | 80,6% [ |
Nên bắt đầu với mô hình nào?
| Ưu tiên | Hãy thử trước | Vì sao |
|---|---|---|
| Agent coding kiểu terminal | GPT-5.5 | Có điểm Terminal-Bench 2.0 cao nhất trong bảng so sánh chung, 82,7% [ |
| Sửa lỗi và bảo trì phần mềm | Claude Opus 4.7 | Dẫn SWE-Bench Pro và SWE-Bench Verified trong các nguồn được trích [ |
| Suy luận khó không dùng công cụ | Claude Opus 4.7 | Dẫn GPQA Diamond và Humanity’s Last Exam không dùng công cụ trong bảng so sánh chung [ |
| Suy luận có công cụ hoặc duyệt web | GPT-5.5 Pro | Dẫn Humanity’s Last Exam có công cụ và BrowseComp ở nơi GPT-5.5 Pro được tách riêng [ |
| Cần mở trọng số để tự triển khai hoặc tùy biến | Kimi K2.6 | Được mô tả là mô hình MoE mở trọng số 1 nghìn tỷ tham số; model card trên Hugging Face cũng báo cáo các dòng benchmark coding mạnh [ |
| Cần tối ưu chi phí API | DeepSeek-V4-Pro-Max | LLM Stats liệt kê ngữ cảnh 1 triệu token, 80,6% SWE-Bench Verified và cột giá thấp hơn dòng Claude Opus 4.7 trên cùng leaderboard [ |
| Cần ngữ cảnh rất dài | GPT-5.5, Claude Opus 4.7 hoặc DeepSeek-V4-Pro-Max | Các nguồn được trích liệt kê ngữ cảnh 1 triệu token cho GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max; Kimi K2.6 được báo cáo khoảng 256K đến 262K [ |
Ghi chú từng mô hình
GPT-5.5
OpenAI giới thiệu GPT-5.5 là mô hình dành cho các tác vụ phức tạp như lập trình, nghiên cứu và phân tích dữ liệu [38]. Trong bảng so sánh chung của VentureBeat, GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 ở 69,4% và DeepSeek-V4-Pro-Max ở 67,9% [
24]. Cũng trong bảng đó, GPT-5.5 đạt 93,6% trên GPQA Diamond, 58,6% trên SWE-Bench Pro và 84,4% trên BrowseComp [
24].
Điểm cần nhớ là GPT-5.5 Pro là một điểm so sánh riêng. Cùng bảng cho thấy GPT-5.5 Pro đạt 90,1% trên BrowseComp và 57,2% trên Humanity’s Last Exam có công cụ, nhưng không nên gộp các con số này với GPT-5.5 gốc khi so chi phí, độ trễ hoặc thiết lập vận hành [24].
Về triển khai, BenchLM liệt kê GPT-5.5 có cửa sổ ngữ cảnh 1 triệu token, còn một báo cáo giá nêu $5 cho mỗi triệu token đầu vào và $30 cho mỗi triệu token đầu ra [27][
36]. Với các quyết định ngân sách, nên xem đây là tín hiệu ban đầu và kiểm tra lại bảng giá hiện hành từ nhà cung cấp.
Claude Opus 4.7
Claude Opus 4.7 có tín hiệu mạnh nhất về sửa lỗi phần mềm trong nhóm này. LLM Stats liệt kê mô hình đạt 87,6% trên SWE-Bench Verified, còn bảng so sánh chung báo cáo 64,3% trên SWE-Bench Pro [18][
24]. Mô hình này cũng dẫn GPQA Diamond với 94,2%, Humanity’s Last Exam không dùng công cụ với 46,9% và MCP Atlas với 79,1% trong bảng so sánh chung [
24].
LLM Stats báo cáo Claude Opus 4.7 có cửa sổ ngữ cảnh 1 triệu token và mức giá $5/$25 cho mỗi triệu token [16]. Tuy nhiên, cần đọc benchmark một cách thận trọng: Anthropic lưu ý rằng một số kết quả dùng triển khai nội bộ hoặc tham số harness đã cập nhật, nên không phải lúc nào cũng so sánh trực tiếp được với điểm trên leaderboard công khai [
17].
Kimi K2.6
Kimi K2.6 là ứng viên mở trọng số đáng chú ý nhất trong các nguồn được trích. Bài phát hành mô tả mô hình này là MoE mở trọng số 1 nghìn tỷ tham số, 32 tỷ tham số hoạt động, 384 expert, hỗ trợ đa phương thức native, lượng tử hóa INT4 và cửa sổ ngữ cảnh 256K [1]. Model card trên Hugging Face báo cáo 80,2% trên SWE-Bench Verified, 58,6% trên SWE-Bench Pro, 66,7% trên Terminal-Bench 2.0 và 89,6 trên LiveCodeBench v6 [
6].
Nguồn phát hành cũng báo cáo Kimi K2.6 đạt 54,0 trên Humanity’s Last Exam có công cụ và 83,2 trên BrowseComp [1]. LLM Stats liệt kê Kimi K2.6 với ngữ cảnh 262K, cột giá $0,95/$4,00 và nhãn Open Source [
11]. Hạn chế lớn là số liệu của Kimi không nằm trong cùng bảng so sánh với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max, nên các chênh lệch nhỏ nên được xem là lý do để thử nghiệm thêm, không phải kết luận thắng thua tuyệt đối [
1][
6][
24].
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max giống một ứng viên giá trị hơn là mô hình dẫn đầu toàn diện về benchmark. LLM Stats liệt kê mô hình này có kích thước 1,6T, ngữ cảnh 1 triệu token, 80,6% trên SWE-Bench Verified và cột giá $1,74/$3,48 [18]. Trong bảng so sánh chung, DeepSeek-V4-Pro-Max đạt 90,1% trên GPQA Diamond, 37,7% trên Humanity’s Last Exam không dùng công cụ, 48,2% trên Humanity’s Last Exam có công cụ, 67,9% trên Terminal-Bench 2.0, 55,4% trên SWE-Bench Pro, 83,4% trên BrowseComp và 73,6% trên MCP Atlas [
24].
Những con số này khiến DeepSeek-V4-Pro-Max đáng đưa vào danh sách kiểm thử nếu chi phí là ràng buộc lớn. Nhưng cùng bảng so sánh cho thấy GPT-5.5, GPT-5.5 Pro hoặc Claude Opus 4.7 dẫn phần lớn các dòng benchmark được báo cáo, vì vậy DeepSeek vẫn nên được kiểm chứng trên tác vụ thật trước khi thay thế một mô hình premium trong production [24].
Giá và ngữ cảnh: chỉ là tín hiệu mua sắm
Giá và cửa sổ ngữ cảnh không phải lúc nào cũng đến từ cùng một nguồn hay cùng thời điểm. Hãy dùng các số dưới đây như tín hiệu để lập danh sách kiểm tra, không phải báo giá cuối cùng.
| Mô hình | Tín hiệu ngữ cảnh và giá được trích | Cách hiểu thực tế |
|---|---|---|
| GPT-5.5 | BenchLM liệt kê ngữ cảnh 1 triệu token; một báo cáo giá nêu $5 đầu vào và $30 đầu ra cho mỗi triệu token [ | Lựa chọn hosted cao cấp; cần xác minh giá mới nhất. |
| Claude Opus 4.7 | LLM Stats báo cáo ngữ cảnh 1 triệu token và giá $5/$25 cho mỗi triệu token [ | Lựa chọn premium cho coding, suy luận và tác vụ ngữ cảnh dài. |
| Kimi K2.6 | Bài phát hành nêu ngữ cảnh 256K; LLM Stats liệt kê 262K và cột giá $0,95/$4,00 [ | Ứng viên mở trọng số mạnh; giá hosted có thể thay đổi theo nhà cung cấp. |
| DeepSeek-V4-Pro-Max | LLM Stats liệt kê ngữ cảnh 1 triệu token, kích thước 1,6T, 80,6% trên SWE-Bench Verified và cột giá $1,74/$3,48 [ | Ứng viên giá trị tốt nếu chất lượng giữ được trên tác vụ của bạn. |
Vì sao các bảng xếp hạng không thống nhất?
Các dòng benchmark đo những kỹ năng khác nhau. GPQA Diamond và Humanity’s Last Exam thiên về suy luận khó; Terminal-Bench 2.0 và các biến thể SWE-Bench thiên về lập trình, sửa lỗi và tác vụ phần mềm kiểu agent; BrowseComp đo năng lực truy xuất kiểu duyệt web trong bảng so sánh chung [24]. Một mô hình có thể dẫn ở một dòng và tụt ở dòng khác vì bài toán, quyền dùng công cụ và harness đánh giá khác nhau.
Ngay cả cùng một benchmark cũng có thể cho kết quả khác khi cách chạy khác. LLM Stats liệt kê Claude Opus 4.7 đạt 87,6% trên SWE-Bench Verified, trong khi LMCouncil liệt kê Claude Opus 4.7 ở 83,5% ± 1,7 theo thiết lập của họ [18][
30]. Anthropic cũng nói rằng một số kết quả của họ dùng triển khai nội bộ hoặc tham số harness cập nhật, làm hạn chế khả năng so sánh trực tiếp với leaderboard công khai [
17].
Vì vậy, khoảng cách một hai điểm phần trăm không nên tự mình quyết định triển khai production. Benchmark công khai hữu ích nhất ở bước rút gọn danh sách; bài kiểm thử nội bộ mới nên là cơ sở chốt lựa chọn.
Cách tự đánh giá trước khi chọn
Trước khi cam kết với một mô hình, hãy thử hai hoặc ba ứng viên đầu bảng trên tác vụ giống môi trường thật của bạn.
- Dùng prompt, file và repository thật. Prompt benchmark hiếm khi phản ánh đủ codebase, tài liệu, quy trình và hành vi người dùng của bạn.
- Giữ môi trường công cụ giống nhau. Kết quả agent coding có thể đổi nhiều khi mô hình có terminal, duyệt web, truy xuất tài liệu, ngữ cảnh repo hoặc API nội bộ.
- Đo chi phí và độ trễ cùng thiết lập. Chế độ Pro, effort cao hoặc reasoning sâu có thể cải thiện chất lượng nhưng cũng tăng token, thời gian và chi phí.
- Kiểm tra lỗi bằng tay. Với code, đừng chỉ nhìn test pass; hãy xem diff, khả năng bảo trì, rủi ro bảo mật và dependency bị bịa.
- Luôn có ít nhất một đối thủ chi phí thấp. Nếu mở trọng số hoặc chi phí suy luận quan trọng, Kimi K2.6 và DeepSeek-V4-Pro-Max nên có mặt trong bộ thử nghiệm [
1][
18].
Chốt lại
Nếu cần danh sách thử nghiệm cao cấp, hãy đặt GPT-5.5 và Claude Opus 4.7 cạnh nhau: GPT-5.5 có điểm Terminal-Bench 2.0 được trích cao nhất, còn Claude Opus 4.7 có điểm SWE-Bench Pro và SWE-Bench Verified được trích mạnh nhất [18][
24]. Nếu cần mở trọng số, bắt đầu với Kimi K2.6 [
1][
6]. Nếu chi phí là ràng buộc chính, thêm DeepSeek-V4-Pro-Max vào bài test, nhưng đừng coi nó là lựa chọn thay thế ngay cho các mô hình premium khi chưa kiểm chứng trên workload của chính bạn [
18][
24].




