Nếu bạn đang chọn mô hình để đưa vào sản phẩm, câu hỏi quan trọng không phải là mô hình nào thắng tất cả. Câu hỏi thực tế hơn là: bạn cần AI viết và sửa code, xử lý tài liệu tài chính, điều khiển trình duyệt/máy tính, hỗ trợ khách hàng, hay chạy rẻ hơn với mô hình trọng số mở?
Vals AI ghi DeepSeek V4 và GPT-5.5 ở mốc 23/4/2026, Kimi K2.6 ở 20/4/2026 và Claude Opus 4.7 ở 16/4/2026 [19]. Nhưng các nguồn được trích ở đây dùng nhiều hệ đo khác nhau: BenchLM là một kiểu bảng tổng hợp, OpenAI công bố GDPval/OSWorld/Tau2-bench cho GPT-5.5, Anthropic có benchmark research-agent nội bộ, còn DeepSeek và Kimi xuất hiện trong các bảng và cấu hình khác nhau [
3][
7][
15][
16][
28][
29][
36][
37][
39]. Vì vậy, kết luận đáng tin hơn là phân vùng điểm mạnh, thay vì ép ra thứ hạng tuyệt đối từ 1 đến 4.
Vì sao không nên chốt một bảng xếp hạng duy nhất?
Benchmark AI năm 2026 không còn là một bài kiểm tra đơn lẻ. Kili Technology mô tả các bộ như MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval và đánh giá an toàn là những phép đo cho các năng lực khác nhau [8]. Stanford HAI trong AI Index cũng tách hiệu năng kỹ thuật thành nhiều trục như MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME và SWE-bench Verified [
13].
Ngay cả MMLU, từng là thước đo kiến thức tổng quát rất phổ biến, cũng đã kém phân loại hơn ở nhóm mô hình đầu bảng. Nanonets giải thích MMLU thường được tính theo kiểu 5-shot, tức mô hình được xem 5 ví dụ trước khi trả lời câu hỏi thật, và đến năm 2026 nhiều mô hình mạnh đã dồn vào vùng trên 88%, khiến chênh lệch giữa chúng khó có ý nghĩa thực tế [22]. Nói cách khác, nhìn một con số duy nhất có thể tiện, nhưng dễ giống như xem điểm trung bình mà bỏ qua từng môn.
Bảng so sánh nhanh
| Mô hình | Chỉ số công khai nổi bật | Có thể đọc là mạnh ở đâu | Lưu ý khi so sánh |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100, hạng 2/110 ở provisional leaderboard; SWE-bench Verified 82,4%; FinanceBench 82,7%; MathVista tăng 9,5 điểm [ | Coding, bảng tổng hợp, phân tích tài liệu tài chính, suy luận toán-thị giác | Điểm research-agent 0,715 của Anthropic là benchmark nội bộ, không cùng thang đo với GDPval hay OSWorld của OpenAI [ |
| GPT-5.5 | BenchLM 89/100, hạng 5/112 ở provisional leaderboard; GDPval 84,9%; OSWorld-Verified 78,7%; Tau2-bench Telecom 98,0%; Vals Accuracy 67,76% ± 1,79 [ | Công việc tri thức, điều khiển môi trường máy tính, quy trình chăm sóc khách hàng, tác vụ kiểu agent | Thông báo chính thức của OpenAI, BenchLM và Vals là ba hệ đánh giá khác nhau [ |
| DeepSeek V4 / V4-Pro-Max | Có mục ngày 23/4/2026 trên Vals AI; V4-Pro-Max đạt MMLU-Pro 87,5%, GPQA Diamond 90,1%, GSM8K 92,6% [ | Câu hỏi khoa học, toán, suy luận khó | DataCamp giới thiệu các số này dựa trên kết quả nội bộ của DeepSeek, nên cần phân biệt với điểm từ bảng độc lập [ |
| Kimi K2.6 | BenchLM 85/100, hạng 12/115; Vals Accuracy 63,94% ± 1,97, Latency 373,57 giây, Cost/Test 0,21 USD; Artificial Analysis Intelligence Index 54, hạng 4 toàn bảng [ | Trọng số mở, chi phí và độ trễ vận hành, hiệu quả triển khai | Tên gọi Kimi 2.6, Kimi K2.6 và K2.6 Thinking xuất hiện lẫn nhau giữa các nguồn, nên cần kiểm tra đúng cấu hình trước khi so [ |
Xếp hạng tổng hợp: trên BenchLM, Claude đang dẫn nhóm có dữ liệu
Nếu chỉ nhìn các trang BenchLM có trong bộ nguồn này, Claude Opus 4.7 là mô hình có điểm tổng hợp cao nhất. BenchLM xếp Claude Opus 4.7 hạng 2 trên 110 mô hình ở provisional leaderboard với overall score 97/100, đồng thời hạng 2 trên 14 mô hình ở verified leaderboard [3].
GPT-5.5 được BenchLM ghi hạng 5 trên 112 mô hình ở provisional leaderboard, overall score 89/100, và hạng 2 trên 16 mô hình ở verified leaderboard [28]. Kimi 2.6 đạt 85/100, hạng 12 trên 115 mô hình ở provisional leaderboard, với 27 điểm benchmark công khai đang được hiển thị [
37].
Điểm cần nhớ: đây chỉ là góc nhìn BenchLM. Số mẫu ở từng trang khác nhau, lần lượt 110, 112 và 115 mô hình; trong bộ nguồn hiện có cũng không có điểm BenchLM tương đương cho DeepSeek V4 để đặt cạnh ba mẫu còn lại [3][
28][
37]. Vì vậy, BenchLM hữu ích để tham khảo, nhưng không đủ để tuyên bố thứ hạng chung cho cả bốn.
Coding: Claude Opus 4.7 có chỉ số SWE-bench rõ nhất
Ở nhóm tác vụ lập trình, Claude Opus 4.7 có con số trực tiếp và dễ đọc nhất. MindStudio cho biết Claude Opus 4.7 đạt 82,4% trên SWE-bench Verified, tăng khoảng 11 điểm so với Opus 4.6 [2]. Cùng nguồn này ghi FinanceBench 82,7% và mức tăng 9,5 điểm ở MathVista, một benchmark liên quan đến suy luận toán học trên dữ liệu thị giác [
2].
Với GPT-5.5, các chỉ số được OpenAI đưa lên phía trước trong nguồn đang có là GDPval, OSWorld-Verified và Tau2-bench Telecom, chứ không phải SWE-bench [29]. Với Kimi K2.6, GMI Cloud có nêu tuyên bố Kimi K2.6 đứng đầu SWE-Bench Pro, nhưng phần trích dẫn được cung cấp không đủ điểm số cụ thể để so sánh trực tiếp trong cùng điều kiện với ba mô hình còn lại [
35]. Còn DeepSeek V4 trong bộ nguồn này có dữ liệu cụ thể hơn ở mảng suy luận và toán, thay vì coding [
15][
16].
Tác vụ agent và công việc văn phòng: GPT-5.5 có chỉ số chính thức rất cụ thể
Nếu mục tiêu là tự động hóa công việc tri thức, điều khiển máy tính hoặc quy trình chăm sóc khách hàng, GPT-5.5 có bộ chỉ số chính thức khá rõ. OpenAI cho biết GPT-5.5 đạt 84,9% trên GDPval, một bài kiểm tra khả năng tạo đầu ra công việc tri thức được đặc tả kỹ trong 44 nghề nghiệp [29]. OpenAI cũng công bố GPT-5.5 đạt 78,7% trên OSWorld-Verified, phép đo khả năng tự thao tác trong môi trường máy tính thực, và 98,0% trên Tau2-bench Telecom, bài kiểm tra quy trình chăm sóc khách hàng phức tạp [
29].
Claude Opus 4.7 cũng có dữ liệu kiểu agent. Anthropic cho biết trong benchmark research-agent nội bộ, Claude Opus 4.7 đồng hạng cao nhất với điểm tổng 0,715 trên 6 mô-đun; ở mô-đun General Finance, Opus 4.7 đạt 0,813 so với 0,767 của Opus 4.6 [7].
Tuy nhiên, không nên so trực tiếp 84,9% của GDPval với 0,715 của benchmark nội bộ Anthropic như thể chúng cùng một thước đo. Hai hệ đánh giá này khác nhau về cấu trúc bài test, cách chấm và mục tiêu đo lường [7][
29].
Suy luận và kiến thức: DeepSeek V4-Pro-Max và Kimi K2.6 Thinking so kè từng dòng
Với DeepSeek V4, các số cụ thể nhất trong bộ nguồn này nằm ở cấu hình V4-Pro-Max. DataCamp viết rằng theo kết quả nội bộ của DeepSeek, DeepSeek V4-Pro-Max đạt 87,5% trên MMLU-Pro, 90,1% trên GPQA Diamond và 92,6% trên GSM8K [15]. Đây là các mốc đáng chú ý cho suy luận và toán, nhưng vì DataCamp nêu rõ chúng dựa trên kết quả nội bộ, nên không nên xem chúng ngang trọng lượng với mọi bảng độc lập [
15].
Tài liệu DeepSeek-V4-Pro trên Hugging Face có bảng đặt DS-V4-Pro Max cạnh Kimi K2.6 Thinking ở một số hạng mục kiến thức và suy luận [16]. Các dòng chính như sau:
| Benchmark | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | Mô hình cao hơn trong bảng |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90,1 | 90,5 | Kimi K2.6 Thinking |
| HLE | 37,7 | 36,4 | DeepSeek V4-Pro-Max |
Nếu chỉ nhìn bảng này, DeepSeek V4-Pro-Max nhỉnh hơn Kimi K2.6 Thinking ở MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA và HLE; Kimi K2.6 Thinking nhỉnh hơn rất nhẹ ở GPQA Diamond [16]. Nhưng bảng đó không đặt trực tiếp Claude Opus 4.7 và GPT-5.5 vào cùng hàng so sánh; nó dùng các đối tượng khác như Opus-4.6 Max và GPT-5.4 xHigh, nên không đủ để suy ra thứ hạng đầy đủ của cả bốn mô hình [
16].
Chi phí, độ trễ và trọng số mở: Kimi K2.6 có điểm đáng nhìn
Ở Vals AI, GPT-5.5 được ghi Accuracy 67,76% ± 1,79, Latency 409,09 giây và cửa sổ ngữ cảnh 1 triệu token [31]. Kimi K2.6 được ghi Accuracy 63,94% ± 1,97, Latency 373,57 giây và Cost/Test 0,21 USD [
39]. Nếu chỉ so hai bản ghi Vals này, GPT-5.5 có chỉ số Accuracy cao hơn, còn Kimi K2.6 có chỉ số Latency thấp hơn [
31][
39].
Kimi K2.6 cũng đáng chú ý với nhóm người dùng quan tâm đến open weights, tức mô hình có bộ trọng số được mở theo điều kiện công bố của nhà phát triển. Artificial Analysis gọi Kimi K2.6 của Moonshot là leading open weights model và ghi Artificial Analysis Intelligence Index 54, hạng 4 toàn bảng [36]. Dù vậy, điểm 54 của Artificial Analysis, Accuracy 63,94% của Vals và BenchLM 85/100 là ba hệ điểm khác nhau; cộng hoặc quy đổi cơ học các con số này sẽ dễ gây hiểu nhầm [
36][
37][
39].
Gợi ý chọn mô hình theo nhu cầu
- Nếu trọng tâm là tự động sửa lỗi code và tác vụ kỹ thuật phần mềm, Claude Opus 4.7 là ứng viên nên xem trước, vì các số SWE-bench Verified 82,4% và BenchLM 97/100 đang khá rõ trong nguồn công khai [
2][
3].
- Nếu bạn cần mô hình cho công việc tri thức, thao tác máy tính hoặc luồng chăm sóc khách hàng, GPT-5.5 có bộ chỉ số chính thức trực tiếp hơn: GDPval 84,9%, OSWorld-Verified 78,7% và Tau2-bench Telecom 98,0% [
29].
- Nếu bài toán là câu hỏi khoa học, toán hoặc suy luận khó, nên xem DeepSeek V4-Pro-Max và Kimi K2.6 Thinking theo từng benchmark như MMLU-Pro, GPQA Diamond và HLE, thay vì chỉ nhìn một dòng điểm [
15][
16].
- Nếu ưu tiên trọng số mở, chi phí và độ trễ vận hành, Kimi K2.6 có các dữ liệu đáng tham khảo từ Artificial Analysis và Vals, gồm vị thế open weights, Cost/Test 0,21 USD và Latency 373,57 giây [
36][
39].
- Nếu đang xây sản phẩm thật, đừng phụ thuộc vào MMLU. Năm 2026, các mô hình hàng đầu đã dồn vào vùng điểm cao của MMLU, khiến bài này kém hữu ích hơn để phân biệt nhóm đầu [
22].
Kết luận
Từ các nguồn công khai trong bộ dữ liệu này, Claude Opus 4.7 nổi bật ở coding và bảng tổng hợp BenchLM; GPT-5.5 nổi bật ở các đánh giá công việc tri thức, điều khiển máy tính và quy trình kiểu agent; DeepSeek V4-Pro-Max có nhiều số mạnh ở suy luận và toán; còn Kimi K2.6 đáng chú ý ở open weights, chi phí và độ trễ vận hành [2][
3][
15][
16][
28][
29][
36][
37][
39].
Nhưng bấy nhiêu chưa đủ để khẳng định một bảng xếp hạng tuyệt đối từ 1 đến 4. Cách an toàn hơn là dùng các benchmark này làm bản đồ ban đầu, rồi tự chạy kiểm thử theo đúng việc của bạn: sửa code, đọc báo cáo tài chính, điều khiển trình duyệt, xử lý yêu cầu khách hàng, hay chạy agent dài hạn trong môi trường sản xuất [8][
22].




