Đọc các benchmark này nên theo tinh thần: mỗi mô hình có sân nhà riêng. Bảng dễ so sánh nhất hiện có bao gồm GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max. Riêng Kimi K2.6 được ghép thêm từ model card trên Hugging Face và file đánh giá riêng, nên không thể xem các số của Kimi là cùng một lượt đối đầu trực tiếp với các mô hình còn lại [6][
25][
37].
Thêm một điểm dễ nhầm: trong bảng chung, DeepSeek là DeepSeek-V4-Pro-Max; còn dữ liệu SWE-Bench Verified ở nguồn khác là DeepSeek V4-Pro [6][
15]. Vì vậy, kết luận chính xác hơn là từng biến thể DeepSeek V4 có kết quả khác nhau theo từng nguồn, không phải cả dòng V4 có một con số đại diện duy nhất.
Nên thử mô hình nào trước?
- Reasoning khó, không dùng công cụ: nên thử Claude Opus 4.7 trước, vì mô hình này dẫn GPQA Diamond và Humanity’s Last Exam không dùng công cụ trong bảng chung [
6].
- Tác vụ agent chạy trong terminal: GPT-5.5 nổi bật nhất ở Terminal-Bench 2.0, đạt 82,7%, so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek-V4-Pro-Max [
6].
- Reasoning có công cụ và browsing: GPT-5.5 Pro dẫn ở những dòng có dữ liệu cho bản Pro: 57,2% trong HLE có công cụ và 90,1% trong BrowseComp [
6].
- Coding và thử nghiệm với weights có thể tự chạy: Kimi K2.6 đáng được kiểm tra riêng. Model card ghi 80,2 trên SWE-Bench Verified, 58,6 trên SWE-Bench Pro và 66,7 trên Terminal-Bench 2.0 [
25][
37]. Nguồn về Kimi cũng cho biết weights có trên Hugging Face và có thể chạy qua vLLM, SGLang hoặc KTransformers [
7].
- Khi chi phí quan trọng hơn vị trí số một: DeepSeek V4 không dẫn các dòng benchmark trong bảng chung, nhưng nguồn công bố giá API ở mức $1.74 cho 1 triệu input token và $3.48 cho 1 triệu output token, thấp hơn mức $5/$30 của GPT-5.5 và $5/$25 của Claude Opus 4.7 [
6][
14][
19].
Bảng so sánh nhanh
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Dẫn đầu theo dữ liệu hiện có |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | chưa có | 94,2% [ | 90,1% ở DeepSeek-V4-Pro-Max [ | chưa có | Claude Opus 4.7 [ |
| Humanity’s Last Exam, không dùng công cụ | 41,4% [ | 43,1% [ | 46,9% [ | 37,7% ở DeepSeek-V4-Pro-Max [ | chưa có | Claude Opus 4.7 [ |
| Humanity’s Last Exam, có công cụ | 52,2% [ | 57,2% [ | 54,7% [ | 48,2% ở DeepSeek-V4-Pro-Max [ | chưa có | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82,7% [ | chưa có | 69,4% [ | 67,9% ở DeepSeek-V4-Pro-Max [ | 66,7 [ | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58,6% [ | chưa có | 64,3% [ | 55,4% ở DeepSeek-V4-Pro-Max [ | 58,6 [ | Claude Opus 4.7 [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,4% ở DeepSeek-V4-Pro-Max [ | chưa có | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | chưa có | 79,1% [ | 73,6% ở DeepSeek-V4-Pro-Max [ | chưa có | Claude Opus 4.7 [ |
| SWE-Bench Verified | chưa có | chưa có | 87,6% trong so sánh riêng [ | 80,6% cho DeepSeek V4-Pro, không phải Pro-Max [ | 80,2 [ | Không có một dòng chung cho tất cả [ |
Chưa có nghĩa là nguồn tương ứng không công bố chỉ số, không phải mô hình đạt 0 điểm.
Reasoning: Claude nhỉnh hơn khi không dùng công cụ, GPT-5.5 Pro thắng khi có công cụ
Ở GPQA Diamond, khoảng cách giữa Claude Opus 4.7 và GPT-5.5 không lớn: 94,2% so với 93,6%; DeepSeek-V4-Pro-Max đạt 90,1% [6]. Nhưng trong Humanity’s Last Exam không dùng công cụ, lợi thế của Claude rõ hơn: 46,9%, so với 41,4% của GPT-5.5, 43,1% của GPT-5.5 Pro và 37,7% của DeepSeek-V4-Pro-Max [
6].
Thứ hạng đổi chiều khi HLE cho phép dùng công cụ. Ở dòng này, GPT-5.5 Pro đạt 57,2%, Claude Opus 4.7 đạt 54,7%, GPT-5.5 đạt 52,2%, còn DeepSeek-V4-Pro-Max đạt 48,2% [6]. Cách đọc gọn nhất: Claude đang mạnh hơn ở reasoning thuần, còn GPT-5.5 Pro dẫn ở reasoning có công cụ trong dòng HLE được công bố [
6].
Coding và tác vụ agent: khoảng cách lớn nhất nằm ở Terminal-Bench
Khoảng cách nổi bật nhất của GPT-5.5 trong nhóm dữ liệu này là Terminal-Bench 2.0: 82,7% so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek-V4-Pro-Max [6]. Với Kimi K2.6, model card ghi 66,7 trên Terminal-Bench 2.0; leaderboard LLM Stats cũng nêu 0,667 cho Kimi K2.6 và 0,694 cho Claude Opus 4.7 [
25][
33]. Như vậy, Kimi ở gần Claude và DeepSeek trong thước đo này, nhưng vẫn thấp hơn đáng kể so với GPT-5.5 theo bảng chung [
6][
25][
33].
Ở SWE-Bench Pro / SWE Pro, bức tranh khác đi: Claude Opus 4.7 dẫn với 64,3%, GPT-5.5 đạt 58,6%, còn DeepSeek-V4-Pro-Max đạt 55,4% [6]. Kimi K2.6 cũng được Hugging Face ghi 58,6 trên SWE-Bench Pro, nhưng đây không phải cùng một lượt so sánh trực tiếp với dòng trong bảng chung [
6][
25].
SWE-Bench Verified không nên bị biến thành bảng xếp hạng chung cho cả bốn mô hình. Kimi K2.6 có điểm 80,2 trong model card và file eval [25][
37]. Một bài tổng quan riêng về DeepSeek V4 nêu 87,6% cho Claude Opus 4.7 và 80,6% cho DeepSeek V4-Pro, nhưng không có dòng đầy đủ cho GPT-5.5 và cũng không phải DeepSeek-V4-Pro-Max [
15].
Hồ sơ từng mô hình
GPT-5.5 và GPT-5.5 Pro
GPT-5.5 nổi bật nhất ở Terminal-Bench 2.0: 82,7%, là kết quả cao nhất trong bảng chung ở dòng này [6]. GPT-5.5 Pro không xuất hiện ở mọi benchmark, nhưng khi có dữ liệu, bản Pro đứng đầu ở HLE có công cụ với 57,2% và BrowseComp với 90,1% [
6].
Kết luận thực dụng: GPT-5.5 nên được thử sớm cho các kịch bản agent làm việc trong terminal; GPT-5.5 Pro đáng ưu tiên khi bài toán cần công cụ, browsing hoặc reasoning kèm hành động bên ngoài [6].
Claude Opus 4.7
Claude Opus 4.7 dẫn nhiều dòng trong bảng chung: 94,2% ở GPQA Diamond, 46,9% ở HLE không dùng công cụ, 64,3% ở SWE-Bench Pro / SWE Pro và 79,1% ở MCP Atlas / MCPAtlas Public [6]. Đổi lại, Claude thua GPT-5.5 ở Terminal-Bench 2.0 và thua GPT-5.5 Pro ở HLE có công cụ cũng như BrowseComp [
6].
Nếu cần chọn một mô hình đầu tiên cho reasoning khó không dùng công cụ, hoặc coding gần với dạng bài SWE-Bench Pro, Claude Opus 4.7 là ứng viên mạnh nhất theo các dòng dữ liệu này [6].
Kimi K2.6
Kimi K2.6 không thể được xếp hạng thật chặt với toàn bộ nhóm còn lại, vì các con số trong bài này đến từ model card Hugging Face và file eval riêng [25][
37]. Dù vậy, ở mảng coding, Kimi vẫn rất đáng chú ý: model card ghi 80,2 trên SWE-Bench Verified, 58,6 trên SWE-Bench Pro, 76,7 trên SWE-Bench Multilingual, 66,7 trên Terminal-Bench 2.0 và 73,1 trên OSWorld-Verified [
25][
37].
Điểm thú vị về vận hành là nguồn về Kimi cho biết weights có trên Hugging Face và có thể chạy qua vLLM, SGLang hoặc KTransformers [7]. Điều này không biến Kimi thành người thắng bảng benchmark chung, nhưng khiến nó trở thành ứng viên riêng cho các đội muốn thử nghiệm tự vận hành hoặc triển khai cục bộ [
7][
25].
DeepSeek V4
Trong bảng chung, DeepSeek được đại diện bằng DeepSeek-V4-Pro-Max [6]. Ở các dòng được nêu, mô hình này không đứng đầu: 90,1% ở GPQA Diamond, 37,7% ở HLE không dùng công cụ, 48,2% ở HLE có công cụ, 67,9% ở Terminal-Bench 2.0, 55,4% ở SWE-Bench Pro / SWE Pro, 83,4% ở BrowseComp và 73,6% ở MCP Atlas / MCPAtlas Public [
6].
Điểm mạnh của DeepSeek V4 trong bức tranh này không phải là vị trí số một, mà là chi phí. Mashable và DataCamp nêu giá API DeepSeek V4 ở mức $1.74 cho 1 triệu input token và $3.48 cho 1 triệu output token; cùng các nguồn này ghi $5/$30 cho GPT-5.5 và $5/$25 cho Claude Opus 4.7 [14][
19]. Nếu ngân sách là ràng buộc lớn, DeepSeek V4 đáng được đưa vào eval nội bộ, nhưng không nên gọi là mô hình dẫn đầu benchmark theo bảng này [
6][
14][
19].
Các giới hạn cần nhớ
- Không có một lượt chạy chung cho mọi mô hình ở mọi benchmark. Bảng chung bao phủ GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max; Kimi K2.6 được bổ sung từ nguồn riêng [
6][
25][
37].
- DeepSeek V4 có nhiều biến thể trong các nguồn khác nhau. Bảng chung dùng DeepSeek-V4-Pro-Max, còn số SWE-Bench Verified riêng thuộc DeepSeek V4-Pro [
6][
15].
- GPT-5.5 Pro không có dữ liệu ở tất cả các dòng. Không nên suy kết quả của bản Pro sang những benchmark mà nguồn không công bố [
6].
- Kimi K2.6 nên được kiểm chứng bằng eval riêng của từng đội. Các số trên Hugging Face hữu ích, nhưng không đến từ cùng bảng so sánh với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [
6][
25][
37].
Kết luận ngắn
Nếu chỉ nhìn các dòng có thể so sánh trong bảng chung, Claude Opus 4.7 thắng GPQA Diamond, Humanity’s Last Exam không dùng công cụ, SWE-Bench Pro và MCP Atlas; GPT-5.5 thắng Terminal-Bench 2.0; GPT-5.5 Pro thắng HLE có công cụ và BrowseComp [6]. Kimi K2.6 là ứng viên coding đáng thử nhờ các số riêng trên Hugging Face và weights có thể truy cập, nhưng chưa thể xếp hạng nghiêm ngặt với toàn bộ nhóm nếu thiếu một lượt chạy chung [
7][
25][
37]. DeepSeek V4 không dẫn đầu các dòng benchmark nêu ở đây, nhưng nhờ giá API thấp hơn, vẫn là lựa chọn đáng kiểm tra cho các kịch bản nhạy cảm về chi phí [
6][
14][
19].




