Đặt Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6 vào một bảng xếp hạng duy nhất nghe rất hấp dẫn, nhưng dễ dẫn đến kết luận sai. Cách đọc an toàn hơn là chọn theo tác vụ: mô hình nào hợp suy luận khó, mô hình nào hợp agent dùng trình duyệt hoặc terminal, mô hình nào hợp coding, và mô hình nào có lợi thế chi phí.
Điểm mấu chốt: bộ dữ liệu cùng nguồn đầy đủ nhất hiện bao phủ DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro và Claude Opus 4.7; dữ liệu của Kimi K2.6 lại nằm rải rác ở cửa sổ ngữ cảnh, BrowseComp, SWE-Bench Pro, Hugging Face model card và một benchmark coding thực tế đơn lẻ, nên chỉ nên dùng để bổ sung chứ không nên ép vào một bảng tổng sắp tuyệt đối.[4][
6][
10][
16][
22][
24]
Kết luận nhanh: nên thử mô hình nào trước?
| Nhu cầu | Nên thử trước | Vì sao |
|---|---|---|
| Suy luận khó, hỏi đáp không dùng công cụ | Claude Opus 4.7 | Trong bảng cùng nguồn, Claude Opus 4.7 cao nhất ở GPQA Diamond 94,2% và Humanity’s Last Exam không dùng công cụ 46,9%.[ |
| Agent dùng terminal, trình duyệt, tool-use | GPT-5.5 / GPT-5.5 Pro | GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0; GPT-5.5 Pro đạt 90,1% trên BrowseComp, đều là mức cao nhất trong bảng tương ứng.[ |
| Kỹ thuật phần mềm | Thử Claude Opus 4.7 trước, sau đó chạy lại với GPT-5.5 và Kimi K2.6 | Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro/SWE Pro trong bảng cùng nguồn; LLM Stats cũng ghi Claude Opus 4.7 ở mức 0,64, cao hơn GPT-5.5 và Kimi K2.6 cùng ở 0,59.[ |
| Khối lượng API lớn, nhạy cảm chi phí | DeepSeek V4 | DeepSeek V4-Pro-Max chưa đứng đầu các benchmark trong bảng cùng nguồn, nhưng nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất.[ |
| Muốn thử hệ sinh thái Kimi hoặc một hướng coding-agent thay thế | Kimi K2.6 | Kimi K2.6 đạt BrowseComp 83,2% trên DocsBot và SWE-Bench Pro 0,59 trên LLM Stats; tuy nhiên chưa có bảng cùng nguồn đầy đủ với cả bốn mô hình.[ |
| Quy trình cần context rất dài | Claude Opus 4.7 / GPT-5.5 có lợi thế hơn | Yahoo/Tech liệt kê GPT-5.5 và Claude Opus 4.7 có cửa sổ ngữ cảnh 1 triệu token; Artificial Analysis liệt kê Kimi K2.6 là 256k token và Claude Opus 4.7 là 1000k token.[ |
Bảng benchmark cùng nguồn đáng dùng nhất
Các số dưới đây đến từ cùng một bảng so sánh, nên phù hợp để đối chiếu DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro và Claude Opus 4.7. Lưu ý: GPT-5.5 Pro chỉ xuất hiện ở một số hạng mục.[4]
| Benchmark | DeepSeek V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Dẫn đầu trong bảng |
|---|---|---|---|---|---|
| GPQA Diamond | 90,1% | 93,6% | — | 94,2% | Claude Opus 4.7 [ |
| Humanity’s Last Exam, không dùng công cụ | 37,7% | 41,4% | 43,1% | 46,9% | Claude Opus 4.7 [ |
| Humanity’s Last Exam, có dùng công cụ | 48,2% | 52,2% | 57,2% | 54,7% | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 67,9% | 82,7% | — | 69,4% | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 55,4% | 58,6% | — | 64,3% | Claude Opus 4.7 [ |
| BrowseComp | 83,4% | 84,4% | 90,1% | 79,3% | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 73,6% | 75,3% | — | 79,1% | Claude Opus 4.7 [ |
Cách đọc bảng khá rõ: Claude Opus 4.7 dẫn ở suy luận khó, giải bài không dùng công cụ, kỹ thuật phần mềm và MCP Atlas; GPT-5.5/GPT-5.5 Pro nổi bật hơn ở terminal, trình duyệt và tác vụ dùng công cụ.[4] DeepSeek V4-Pro-Max không đứng đầu hạng mục nào trong bộ số liệu này, nhưng điểm BrowseComp 83,4% rất gần GPT-5.5 84,4% và cao hơn Claude Opus 4.7 79,3%.[
4]
Kimi K2.6: có tín hiệu tốt, nhưng chưa nên xếp chung một bảng tổng
Vấn đề của Kimi K2.6 không phải là thiếu dữ liệu hoàn toàn, mà là dữ liệu nằm ở nhiều nguồn, nhiều chế độ chạy và nhiều nhóm đối chiếu khác nhau. Vì vậy, các con số dưới đây hữu ích để quyết định có nên đưa Kimi vào vòng thử nghiệm hay không, nhưng không nên xem là bảng xếp hạng cùng điều kiện với phần trên.[6][
10][
16][
22][
24]
| Chỉ số | Dữ liệu nhìn thấy cho Kimi K2.6 | Dữ liệu đối chiếu | Cách hiểu hợp lý |
|---|---|---|---|
| Cửa sổ ngữ cảnh | 256k token | Cùng trang so sánh liệt kê Claude Opus 4.7 là 1000k token | Claude có lợi thế rõ về độ dài ngữ cảnh khả dụng.[ |
| BrowseComp | 83,2% ở Thinking mode | DeepSeek-V4 Pro là 83,4% Pass@1 / Think Max | Trong nguồn này, Kimi và DeepSeek-V4 Pro rất sát nhau, nhưng không đồng thời có GPT-5.5 hoặc Claude Opus 4.7.[ |
| AIME 2026 / APEX Agents | AIME 2026 là 96,4%; APEX Agents là 27,9% | DeepSeek-V4 Pro hiển thị not available trên cùng trang | Cho thấy Kimi có tín hiệu ở toán và tác vụ agent, nhưng thiếu đối chiếu đầy đủ cả bốn mô hình.[ |
| SWE-Bench Pro | 0,59 | Claude Opus 4.7 là 0,64; GPT-5.5 là 0,59; DeepSeek V4-Pro-Max là 0,55 | Trên LLM Stats, Kimi ngang GPT-5.5, thấp hơn Claude và cao hơn DeepSeek.[ |
| MMLU-Pro / SimpleQA-Verified | MMLU-Pro 87,1; SimpleQA-Verified 36,9 | DS-V4-Pro Max lần lượt là 87,5 và 57,9 | Có thể dùng để bổ sung khi so Kimi với DeepSeek; nhưng cùng bảng này dùng Opus-4.6 Max và GPT-5.4 xHigh, không phải Claude Opus 4.7 và GPT-5.5.[ |
| Benchmark coding thực tế | 87 điểm | Claude Opus 4.7 là 97; GPT-5.5 xHigh là 96; DeepSeek V4 Flash là 78; DeepSeek V4 Pro là 69 | Có giá trị tham khảo, nhưng đây là một bài coding đơn lẻ, không thay thế benchmark chuẩn hóa hoặc đánh giá trên repo của chính bạn.[ |
Vì vậy, vị trí hợp lý của Kimi K2.6 là một ứng viên nên đưa vào shortlist, nhất là khi bạn muốn thử hệ sinh thái Kimi, một tuyến mô hình thay thế hoặc chi phí coding-agent. Nhưng với dữ liệu hiện có, chưa đủ cơ sở để nói Kimi K2.6 là quán quân có thể chứng minh trong nhóm bốn mô hình này.[10][
16][
24]
Giá, context window và chi phí triển khai
Benchmark chỉ trả lời một phần câu hỏi về năng lực. Khi đưa vào sản phẩm, giá token đầu vào/đầu ra, độ dài context, độ trễ, quy mô mô hình và chi phí vận hành mới là những thứ quyết định hóa đơn cuối tháng.
| Mô hình | Dữ liệu có thể kiểm chứng | Ý nghĩa khi chọn |
|---|---|---|
| GPT-5.5 | 5 USD cho mỗi 1 triệu input token; 30 USD cho mỗi 1 triệu output token; context window 1 triệu token | Giá input ngang Claude Opus 4.7 trong cùng nguồn, nhưng giá output được liệt kê cao hơn.[ |
| Claude Opus 4.7 | 5 USD cho mỗi 1 triệu input token; 25 USD cho mỗi 1 triệu output token; context window 1 triệu token | Trong cùng nguồn, output token rẻ hơn GPT-5.5; Artificial Analysis cũng liệt kê Claude là 1000k context trong trang đối chiếu với Kimi.[ |
| Kimi K2.6 | Context window 256k token | Ngắn hơn mức 1000k token của Claude Opus 4.7 trong nguồn so sánh; các nguồn ở đây chưa cung cấp đủ giá token có thể kiểm chứng.[ |
| DeepSeek V4 | Nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất; DataCamp liệt kê DeepSeek V4 Pro là mô hình MoE với 1,6 nghìn tỷ tổng tham số, 49 tỷ tham số hoạt động và bản tải 865GB; bản Flash có 284 tỷ tổng tham số, 13 tỷ tham số hoạt động và bản tải 160GB | Nếu chỉ gọi API, điểm hấp dẫn chính là chi phí; nếu tự triển khai hoặc private deployment, cần tính thêm phần cứng, tải mô hình, suy luận và vận hành.[ |
Tín hiệu chi phí quan trọng nhất là: GPT-5.5 và Claude Opus 4.7 đều được liệt kê ở mức 5 USD/1 triệu input token, nhưng GPT-5.5 là 30 USD/1 triệu output token, còn Claude Opus 4.7 là 25 USD/1 triệu output token; DeepSeek bước vào cuộc chơi với câu chuyện chi phí khoảng một phần sáu.[20]
Chọn theo tác vụ: đọc benchmark như thế nào?
1. Suy luận khó: ưu tiên thử Claude Opus 4.7
Nếu bài toán là suy luận học thuật, phân tích nhiều bước, hỏi đáp cần độ tin cậy cao hoặc giải bài không dùng công cụ, Claude Opus 4.7 là lựa chọn đầu tiên hợp lý nhất theo bảng cùng nguồn. Mô hình này đạt 94,2% trên GPQA Diamond, cao hơn GPT-5.5 93,6% và DeepSeek V4-Pro-Max 90,1%; trên Humanity’s Last Exam không dùng công cụ, Claude Opus 4.7 cũng dẫn với 46,9%.[4]
2. Terminal, trình duyệt và tool-use agent: ưu tiên GPT-5.5 / GPT-5.5 Pro
Nếu tác vụ xoay quanh điều khiển terminal, browser agent, gọi công cụ hoặc giải bài có tool hỗ trợ, GPT-5.5 nổi bật hơn. GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 69,4% và DeepSeek V4-Pro-Max 67,9%; GPT-5.5 Pro đạt 90,1% trên BrowseComp, cũng là mức cao nhất trong bảng.[4]
3. Kỹ thuật phần mềm: Claude đang dẫn, nhưng vẫn phải chạy lại trên repo của bạn
Trong bảng cùng nguồn, Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro/SWE Pro, cao hơn GPT-5.5 58,6% và DeepSeek V4-Pro-Max 55,4%.[4] LLM Stats cho hướng xếp hạng tương tự: Claude Opus 4.7 ở mức 0,64, GPT-5.5 và Kimi K2.6 cùng 0,59, DeepSeek V4-Pro-Max 0,55.[
24]
Tuy vậy, benchmark coding rất nhạy với repo, ngôn ngữ lập trình, test framework, cấu hình agent và prompt. Một benchmark coding thực tế đơn lẻ ghi Claude Opus 4.7 97 điểm, GPT-5.5 xHigh 96, Kimi K2.6 87, DeepSeek V4 Flash 78 và DeepSeek V4 Pro 69; các số này có ích để tham khảo, nhưng không nên là cơ sở duy nhất cho quyết định production.[16]
4. Chi phí nhạy cảm, gọi API số lượng lớn: DeepSeek V4 đáng thử sớm
Nếu nút thắt là chi phí token, còn bài toán không đòi mô hình phải đứng đầu mọi benchmark, DeepSeek V4 là ứng viên hợp lý. Dữ liệu cùng nguồn cho thấy DeepSeek V4-Pro-Max ở gần nhóm đầu ở một số bài đo nhưng chưa đứng nhất; đồng thời, nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất.[4][
20]
Điểm cần lưu ý là DeepSeek V4 Pro khá lớn: DataCamp liệt kê bản Pro có 1,6 nghìn tỷ tổng tham số, 49 tỷ tham số hoạt động và dung lượng tải 865GB.[13] Nếu không chỉ dùng API bên thứ ba mà còn cân nhắc tự triển khai, chi phí phần cứng, suy luận và vận hành cần được đưa vào cùng một bảng tính.
5. Kimi K2.6: đưa vào shortlist, rồi tự chạy eval
Kimi K2.6 có vài tín hiệu đáng chú ý: DocsBot liệt kê BrowseComp của Kimi K2.6 là 83,2%, rất sát DeepSeek-V4 Pro 83,4% trên cùng trang; LLM Stats ghi Kimi K2.6 đạt 0,59 trên SWE-Bench Pro, ngang GPT-5.5; benchmark coding thực tế cũng ghi Kimi K2.6 đạt 87 điểm.[10][
16][
24]
Nhưng vì chưa có bộ benchmark cùng nguồn, cùng thiết lập và phủ đủ Claude Opus 4.7, GPT-5.5, DeepSeek V4-Pro-Max và Kimi K2.6, cách dùng hợp lý nhất là xem Kimi như ứng viên tiềm năng, không phải nhà vô địch đã được chứng minh.[10][
24]
Vì sao không nên đọc bảng điểm như bảng xếp hạng bóng đá?
- Kimi K2.6 thiếu bảng cùng nguồn đầy đủ. Bộ dữ liệu so sánh đầy đủ nhất bao phủ DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro và Claude Opus 4.7, nhưng không có Kimi K2.6; dữ liệu của Kimi phải lấy thêm từ DocsBot, Artificial Analysis, LLM Stats, Hugging Face model card và một benchmark coding đơn lẻ.[
4][
6][
10][
16][
22][
24]
- Tên phiên bản và chế độ chạy không đồng nhất. Các nguồn dùng nhiều nhãn như GPT-5.5 Pro, GPT-5.5 xHigh, DeepSeek-V4 Pro, DeepSeek V4-Pro-Max, Kimi Thinking, Claude Opus 4.7 Adaptive Reasoning/Max Effort. Không nên mặc định tất cả là cùng một cấu hình.[
4][
6][
10][
16][
22]
- Thang điểm giữa các nền tảng không phải lúc nào cũng cộng trừ trực tiếp được. Ví dụ, bảng cùng nguồn dùng phần trăm cho SWE-Bench Pro/SWE Pro, còn LLM Stats dùng dạng 0,xx cho SWE-Bench Pro; cách chắc hơn là so thứ hạng trong cùng nguồn trước, rồi chạy eval riêng trên tác vụ của bạn.[
4][
24]
- Dữ liệu giá không đều. GPT-5.5 và Claude Opus 4.7 có số giá input/output token rõ ràng; DeepSeek chủ yếu có thông tin chi phí khoảng một phần sáu; còn Kimi K2.6 trong các nguồn ở đây chưa có đủ giá token để kiểm chứng.[
6][
20]
Phán quyết thực dụng
Nếu buộc phải tóm gọn trong một câu: Claude Opus 4.7 thắng nổi bật ở benchmark suy luận khó và kỹ thuật phần mềm; GPT-5.5/GPT-5.5 Pro thắng ở nhiều benchmark tool-use, terminal và browser; DeepSeek V4-Pro-Max là phương án cân bằng giữa chi phí và năng lực; Kimi K2.6 có tiềm năng nhưng cần thêm bằng chứng cùng nguồn, cùng điều kiện.[4][
10][
20][
24]
Khi triển khai thật, đừng chọn chỉ vì một điểm tổng. Hãy lấy chính repo, bug ticket, workflow nghiên cứu, quyền truy cập công cụ, độ dài context, yêu cầu latency, mức chịu lỗi và ngân sách token của bạn để chạy cùng một bộ eval trên cả bốn mô hình. Đến lúc đó, benchmark mới trở thành câu trả lời có ích cho sản phẩm.



