Benchmark công khai rất hữu ích để sàng lọc mô hình, nhưng không nên đọc như một bảng xếp hạng bóng đá. Với GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6, dữ liệu có thể trích dẫn hiện nằm rải rác ở trang ra mắt và system card của OpenAI, tài liệu API của Anthropic, cùng model card DeepSeek V4-Pro. Đây không phải là một bài kiểm tra bốn bên do cùng một bên thứ ba chạy, trên cùng phiên bản và cùng cấu hình đánh giá.[29][
27][
13][
6]
Trước hết phải thống nhất phiên bản
Trong bài này, DeepSeek V4 được hiểu là DS-V4-Pro Max, còn Kimi K2.6 được hiểu là K2.6 Thinking. Hai tên này là các cột có thể trích dẫn trực tiếp trong bảng của DeepSeek.[6]
Điểm này quan trọng vì bảng DeepSeek có các cột GPT và Claude, nhưng đó là GPT-5.4 xHigh và Opus-4.6 Max, không phải GPT-5.5 và Claude Opus 4.7.[6] Vì vậy, không thể lấy bảng đó để kết luận DeepSeek V4-Pro Max thắng hay thua GPT-5.5 hoặc Claude Opus 4.7 trên toàn bộ các benchmark.
Tài liệu công khai của Anthropic về Claude Opus 4.7 chủ yếu mô tả tính năng và cách gọi API, chẳng hạn beta task budgets13]
Giao điểm chắc nhất: Terminal-Bench 2.0
Trong các nguồn hiện có, hạng mục chung rõ nhất có điểm cho cả bốn mô hình là Terminal-Bench 2.0. Nếu chỉ nhìn hạng mục này, thứ tự là:
| Mô hình | Terminal-Bench 2.0 | Nguồn |
|---|---|---|
| GPT-5.5 | 82,7% | OpenAI và MLQ.ai [ |
| Claude Opus 4.7 | 69,4% | OpenAI [ |
| DeepSeek V4-Pro Max | 67,9% | DeepSeek V4-Pro model card [ |
| Kimi K2.6 Thinking | 66,7% | DeepSeek V4-Pro model card [ |
Kết luận chắc nhất nhưng cũng hẹp nhất là: trên Terminal-Bench 2.0, GPT-5.5 dẫn đầu khá xa; Claude Opus 4.7 đứng thứ hai; DeepSeek V4-Pro Max và Kimi K2.6 Thinking ở khá gần nhau.[29][
30][
6]
Điều này không tự động có nghĩa GPT-5.5 sẽ đứng đầu trong mọi sản phẩm, mọi kho mã, mọi luồng agent hoặc mọi ngân sách suy luận. Nó chỉ nói về một bài đo cụ thể, dựa trên các bảng công khai hiện có.
GPT-5.5 so với Claude Opus 4.7 trong bảng của OpenAI
OpenAI công bố một số benchmark đặt GPT-5.5 cạnh Claude Opus 4.7. Trong các hạng mục được liệt kê ở bảng này, GPT-5.5 đều có điểm cao hơn Claude Opus 4.7.[29]
| Benchmark trong bảng OpenAI | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% |
| GDPval wins or ties | 84,9% | 80,3% |
| BrowseComp | 84,4% | 79,3% |
| FrontierMath Tier 1–3 | 51,7% | 43,8% |
| FrontierMath Tier 4 | 35,4% | 22,9% |
| CyberGym | 81,8% | 73,1% |
Cách đọc thận trọng là: trong các hạng mục OpenAI liệt kê, GPT-5.5 cao hơn Claude Opus 4.7.[29] System card của OpenAI cũng mô tả GPT-5.5 là mô hình cho các công việc thực tế phức tạp như viết mã, nghiên cứu trực tuyến, phân tích thông tin, tạo tài liệu và bảng tính, cũng như di chuyển qua nhiều công cụ để hoàn thành nhiệm vụ.[
27]
Nhưng đây vẫn là bảng so sánh trên trang OpenAI, không phải một bài đo độc lập bốn mô hình cùng một harness, cùng quyền công cụ và cùng giới hạn tài nguyên.[29]
DeepSeek V4-Pro Max so với Kimi K2.6 Thinking trong model card DeepSeek
Model card DeepSeek V4-Pro cung cấp nhiều hạng mục so sánh giữa DS-V4-Pro Max và K2.6 Thinking.[6] Trong bảng này, DeepSeek V4-Pro Max cao hơn ở đa số hạng mục, nhưng Kimi vẫn có các điểm dẫn rõ ràng.[
6]
| Benchmark trong model card DeepSeek | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | Bên dẫn trong bảng |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek |
| GPQA Diamond | 90,1 | 90,5 | Kimi |
| HLE | 37,7 | 36,4 | DeepSeek |
| LiveCodeBench | 93,5 | 89,6 | DeepSeek |
| HMMT 2026 Feb | 95,2 | 92,7 | DeepSeek |
| IMOAnswerBench | 89,8 | 86,0 | DeepSeek |
| Apex Shortlist | 90,2 | 75,5 | DeepSeek |
| SWE Pro | 55,4 | 58,6 | Kimi |
| Terminal-Bench 2.0 | 67,9 | 66,7 | DeepSeek |
Cách diễn giải an toàn: trong các hạng mục DeepSeek công bố, DS-V4-Pro Max cao hơn K2.6 Thinking ở phần lớn bài đo, còn Kimi K2.6 Thinking dẫn ở GPQA Diamond và SWE Pro.[6] Với những hạng mục có chênh lệch nhỏ như MMLU-Pro hoặc Terminal-Bench 2.0, người chọn mô hình không nên chỉ nhìn mũi tên thắng-thua; cần xem loại tác vụ, sai số và điều kiện chạy thực tế.
Vì sao chưa thể có bảng tổng sắp tuyệt đối cho cả bốn?
Sai lầm dễ gặp là lấy bảng của OpenAI, bảng của DeepSeek và tài liệu tính năng của Anthropic rồi cộng thành một điểm tổng. Dữ liệu hiện có chưa đủ cho cách làm đó, vì ba lý do chính:
- Khác phiên bản đối thủ. OpenAI so GPT-5.5 với Claude Opus 4.7; trong khi bảng DeepSeek dùng GPT-5.4 xHigh và Opus-4.6 Max cho các cột GPT và Claude.[
29][
6]
- Khác nguồn đánh giá. Các dữ liệu đến từ trang ra mắt, system card, tài liệu API và model card của từng hãng, không phải một bộ đánh giá độc lập chạy lại đầy đủ cho cả bốn mô hình.[
29][
27][
13][
6]
- Khác loại năng lực được đo. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond và SWE Pro không đo cùng một thứ. Nếu không có trọng số rõ ràng, cộng điểm sẽ che mất khác biệt giữa tác vụ thực tế.[
29][
6]
Nói ngắn gọn: benchmark công khai nên được dùng như vòng lọc đầu tiên, không phải căn cứ duy nhất để mua, tích hợp hoặc thiết kế kiến trúc sản phẩm.
Dùng các con số này thế nào khi chọn mô hình?
Một cách thực dụng hơn là tách thành ba tầng:
- Tầng benchmark chung. Giao điểm rõ nhất hiện nay là Terminal-Bench 2.0; ở hạng mục này, GPT-5.5 đứng đầu.[
29][
30][
6]
- Tầng so sánh trong từng bảng của hãng. Bảng OpenAI cho thấy GPT-5.5 cao hơn Claude Opus 4.7 ở các hạng mục được công bố; model card DeepSeek cho thấy DS-V4-Pro Max cao hơn K2.6 Thinking ở đa số hạng mục được liệt kê.[
29][
6]
- Tầng kiểm thử theo nghiệp vụ của bạn. Hãy tách tác vụ thành coding, agent, reasoning, truy xuất thông tin, dùng công cụ, độ trễ và chi phí; sau đó chạy lại với cùng prompt, cùng context, cùng quyền công cụ và cùng luật chấm điểm.
Nếu sản phẩm phụ thuộc vào các vòng agent dài, task budgets13]
Nếu sản phẩm thiên về viết mã phức tạp, nghiên cứu trực tuyến, tạo tài liệu hoặc bảng tính, hay phối hợp nhiều công cụ, mô tả trong system card GPT-5.5 khớp trực tiếp với các nhóm tác vụ đó hơn.[27] Dù vậy, mô hình dẫn điểm trên bảng công khai vẫn cần được đặt vào kho mã, công cụ, ranh giới quyền truy cập và cơ chế phục hồi lỗi của chính bạn để kiểm chứng.
Kết luận nên nói thế nào cho chắc?
- Riêng Terminal-Bench 2.0: GPT-5.5 thứ nhất, Claude Opus 4.7 thứ hai, DeepSeek V4-Pro Max thứ ba, Kimi K2.6 Thinking thứ tư.[
29][
30][
6]
- Trong bảng OpenAI: GPT-5.5 cao hơn Claude Opus 4.7 ở các hạng mục được liệt kê.[
29]
- Trong bảng DeepSeek: DS-V4-Pro Max cao hơn Kimi K2.6 Thinking ở đa số hạng mục, nhưng Kimi dẫn ở GPQA Diamond và SWE Pro.[
6]
- Bảng tổng sắp tuyệt đối bốn mô hình: chưa đủ bằng chứng. Hiện chưa có bài đo công khai đầy đủ do cùng một bên thứ ba chạy, cùng phiên bản, cùng cấu hình và cùng điều kiện đánh giá cho cả GPT-5.5, Claude Opus 4.7, DeepSeek V4-Pro Max và Kimi K2.6 Thinking.[
29][
13][
6]




