Điểm quan trọng nhất khi đọc benchmark của GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 là: đừng vội gom mọi thứ thành một bảng xếp hạng duy nhất. Các nguồn hiện có không phải lúc nào cũng chấm cả 4 mô hình trong cùng một bài kiểm tra, cùng cách cấu hình và cùng bộ tiêu chí. GPT-5.5 và Claude Opus 4.7 có nhiều điểm số đối chiếu trực tiếp hơn từ Vellum và OpenAI; DeepSeek V4 và Kimi K2.6 lại có dữ liệu nổi bật hơn ở các mảng như context window, open-weight, multimodal và độ tin cậy theo Artificial Analysis hoặc tài liệu kỹ thuật [2][
7][
30][
31][
33][
35][
36].
Nói ngắn gọn: nếu làm agent, terminal hoặc tool workflow, GPT-5.5 có nhiều tín hiệu mạnh. Nếu làm software engineering kiểu giải issue, Claude Opus 4.7 đáng chú ý. Nếu cần ngữ cảnh cực dài, DeepSeek V4 Pro nổi bật nhưng phải kiểm soát rủi ro hallucination. Nếu cần mô hình open-weight multimodal, Kimi K2.6 là ứng viên nên xem xét.
Không có người thắng tuyệt đối trên mọi benchmark
Trong các số liệu có thể so sánh trực tiếp giữa GPT-5.5 và Claude Opus 4.7, GPT-5.5 dẫn ở Terminal-Bench 2.0 với 82,7% so với 69,4%, và GDPval với 84,9% so với 80,3%. Ngược lại, Claude Opus 4.7 dẫn ở SWE-Bench Pro với 64,3% so với 58,6%, và GPQA Diamond với 94,2% so với 93,6%, theo bảng của Vellum [2].
Ở nhóm computer use và tool use, OpenAI báo GPT-5.5 đạt 78,7% trên OSWorld-Verified so với 78,0% của Claude Opus 4.7; đạt 84,4% trên BrowseComp so với 79,3%; nhưng thấp hơn Claude Opus 4.7 trên MCP Atlas, với 75,3% so với 79,1% [7].
Với DeepSeek V4 và Kimi K2.6, dữ liệu công khai trong các nguồn được dùng ở đây chưa phủ đủ cùng bộ benchmark như GPT-5.5 và Claude Opus 4.7. Vì vậy, không nên kết luận mô hình nào thắng hay thua ở những hạng mục không có điểm so sánh trực tiếp [31][
33][
35][
36].
Bảng điểm có thể đọc tương đối an toàn
| Benchmark / chỉ số | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Cách đọc |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | GPT-5.5 dẫn Claude Opus 4.7 trong bảng của Vellum [ |
| SWE-Bench Pro | 58,6% | 64,3% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Claude Opus 4.7 dẫn GPT-5.5 ở benchmark software engineering theo Vellum [ |
| GDPval | 84,9% | 80,3% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | GPT-5.5 dẫn Claude Opus 4.7 trong bộ này [ |
| OSWorld-Verified | 78,7% | 78,0% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | GPT-5.5 nhỉnh hơn nhẹ theo bảng của OpenAI [ |
| BrowseComp | 84,4% | 79,3% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | GPT-5.5 dẫn ở nhóm tool use theo OpenAI [ |
| MCP Atlas | 75,3% | 79,1% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Claude Opus 4.7 dẫn GPT-5.5 theo OpenAI [ |
| GPQA Diamond | 93,6% | 94,2% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Claude Opus 4.7 nhỉnh hơn theo Vellum [ |
| FrontierMath T1-3 | 51,7% | 43,8% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | GPT-5.5 dẫn Claude Opus 4.7 theo Vellum [ |
| Context window | Không nằm trong bảng Artificial Analysis này | Không nằm trong bảng Artificial Analysis này | DeepSeek V4 Pro: 1.000k token | 256k token | DeepSeek V4 Pro có cửa sổ ngữ cảnh lớn hơn Kimi K2.6 trong cùng nguồn [ |
| AA-Omniscience / hallucination | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | V4 Pro Max đạt -10; V4 Pro có hallucination rate 94% | Chưa có điểm đối chiếu trực tiếp trong cùng nguồn | Đây là tín hiệu cần kiểm tra kỹ câu trả lời của DeepSeek V4 [ |
| Artificial Analysis Intelligence Index | Không thấy trong nguồn dùng ở đây | Không thấy trong nguồn dùng ở đây | Không thấy trong nguồn dùng ở đây | 54 | Chỉ nên dùng như dữ liệu riêng của Kimi K2.6, không phải cùng leaderboard với Vellum/OpenAI [ |
Cụm từ chưa có điểm đối chiếu trực tiếp không có nghĩa mô hình đó kém hơn. Nó chỉ có nghĩa là trong các nguồn đang xét, chưa thấy điểm của mô hình đó trên cùng benchmark và cùng bên đánh giá.
GPT-5.5: mạnh ở agentic workflow, terminal và dùng công cụ
Trong bộ dữ liệu được dùng cho bài này, GPT-5.5 là mô hình có nhiều điểm số công khai để đối chiếu với Claude Opus 4.7 nhất. Vellum báo các điểm Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond và FrontierMath; OpenAI báo OSWorld-Verified, BrowseComp và MCP Atlas [2][
7].
Điểm sáng rõ nhất của GPT-5.5 nằm ở các tác vụ terminal, agentic workflow và tool use. Mô hình này dẫn Claude Opus 4.7 trên Terminal-Bench 2.0 với 82,7% so với 69,4%, BrowseComp với 84,4% so với 79,3%, và OSWorld-Verified với 78,7% so với 78,0% [2][
7].
Tuy vậy, GPT-5.5 không thắng mọi hạng mục. Claude Opus 4.7 dẫn trên SWE-Bench Pro, MCP Atlas và GPQA Diamond trong các nguồn được trích dẫn [2][
7]. Vì thế, nếu đội của bạn chủ yếu cần xử lý issue phần mềm phức tạp, không nên chỉ nhìn vào điểm agent hay terminal rồi kết luận GPT-5.5 là lựa chọn duy nhất.
Ở góc độ safety/evaluation, OpenAI cho biết trong System Card rằng GPT-5.5 được đánh giá bằng CoT-Control, gồm hơn 13.000 tác vụ xây từ các benchmark như GPQA, MMLU-Pro, HLE, BFCL và SWE-Bench Verified [4]. Thông tin này hữu ích khi đọc về khả năng kiểm soát hành vi của mô hình, nhưng không nên xem nó là điểm performance benchmark trực tiếp.
Claude Opus 4.7: tín hiệu nổi bật nhất là software engineering
Anthropic liệt kê Claude Opus 4.7 trong Claude API Docs với mốc ngày 16/4/2026 [20]. Khi chỉ nhìn vào các điểm có thể đối chiếu trực tiếp với GPT-5.5, điểm mạnh rõ nhất của Claude Opus 4.7 là SWE-Bench Pro: 64,3% so với 58,6% của GPT-5.5 [
2].
Claude Opus 4.7 cũng dẫn GPT-5.5 trên MCP Atlas với 79,1% so với 75,3% theo bảng của OpenAI [7]. Nhưng trong cùng nguồn, GPT-5.5 lại dẫn ở OSWorld-Verified và BrowseComp; còn Vellum báo GPT-5.5 dẫn ở Terminal-Bench 2.0, GDPval và FrontierMath T1-3 [
2][
7].
Về safety, Anthropic báo trong Petri 2.0 rằng hai hướng can thiệp kết hợp giúp giảm eval-awareness trên các Claude models với median relative drop 47,3% [22]. Nên đọc con số này như dữ liệu về hành vi và an toàn của dòng Claude, không phải điểm năng lực trực tiếp của riêng Claude Opus 4.7.
DeepSeek V4: cửa sổ ngữ cảnh rất lớn, nhưng phải quản trị rủi ro hallucination
Tài liệu kỹ thuật DeepSeek-V4 cho biết dòng V4 tiếp tục dùng DeepSeekMoE framework và chiến lược Multi-Token Prediction từ DeepSeek-V3, đồng thời bổ sung cơ chế hybrid attention để cải thiện hiệu quả với ngữ cảnh dài [30]. Trong bảng của Artificial Analysis, DeepSeek V4 Pro có context window 1.000k token, so với 256k token của Kimi K2.6 [
33].
Với người dùng không chuyên kỹ thuật, có thể hiểu context window là lượng văn bản mô hình có thể giữ trong đầu khi xử lý một yêu cầu. Cửa sổ ngữ cảnh càng lớn càng thuận lợi cho các tác vụ như đọc nhiều tài liệu, phân tích hồ sơ dài hoặc duy trì lịch sử làm việc phức tạp. Nhưng context dài không tự động đồng nghĩa với câu trả lời đúng.
Điểm cần đặc biệt lưu ý là độ tin cậy. Artificial Analysis báo DeepSeek V4 Pro Max đạt AA-Omniscience -10, cải thiện so với DeepSeek V3.2 Reasoning ở mức -21, nhưng cũng báo hallucination rate 94% cho DeepSeek V4 Pro và 96% cho DeepSeek V4 Flash [31].
Vì vậy, DeepSeek V4 Pro đáng cân nhắc khi bài toán cần ngữ cảnh rất dài, chẳng hạn làm việc với tài liệu lớn hoặc workflow cần giữ nhiều thông tin cùng lúc. Tuy nhiên, với các tác vụ có chi phí sai sót cao, nên kết hợp retrieval grounding, kiểm chứng nguồn và review của con người [30][
31][
33].
Kimi K2.6: open-weight multimodal, nhưng vẫn thiếu nhiều điểm đối chiếu trực tiếp
Artificial Analysis mô tả Kimi K2.6 là mô hình open weights phát hành tháng 4/2026 và đạt Artificial Analysis Intelligence Index 54 [35]. Một phân tích khác của Artificial Analysis cho biết Kimi K2.6 hỗ trợ native image và video input, đồng thời xuất text output, với max context length 256k [
36].
Open-weight có thể hiểu là mô hình có trọng số được công bố theo một hình thức mở hơn so với mô hình đóng hoàn toàn. Điều này thường quan trọng với các đội muốn tự triển khai, kiểm soát hạ tầng hoặc tùy biến sâu hơn. Tuy nhiên, open-weight không tự động đồng nghĩa với mạnh hơn trong mọi benchmark.
Nếu chỉ so context window trong cùng bảng, Kimi K2.6 thấp hơn DeepSeek V4 Pro, vốn đạt 1.000k token [33]. Trong bộ nguồn được dùng ở đây, cũng chưa thấy điểm Kimi K2.6 đối chiếu đầy đủ với GPT-5.5 và Claude Opus 4.7 trên Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified hoặc MCP Atlas [
2][
7][
33][
35][
36].
Kết luận hợp lý là Kimi K2.6 nên nằm trong shortlist nếu bạn cần open-weight multimodal model. Nhưng chưa nên kết luận mô hình này hơn hoặc kém GPT-5.5, Claude Opus 4.7 hay DeepSeek V4 ở những hạng mục không có điểm so sánh trực tiếp [35][
36].
Chọn mô hình theo việc cần làm
| Nhu cầu | Mô hình nên cân nhắc | Lý do từ bằng chứng hiện có |
|---|---|---|
| Terminal automation / agentic workflow | GPT-5.5 | Dẫn Claude Opus 4.7 trên Terminal-Bench 2.0 với 82,7% so với 69,4% [ |
| Software engineering / giải issue | Claude Opus 4.7 | Dẫn GPT-5.5 trên SWE-Bench Pro với 64,3% so với 58,6% [ |
| Browser và tool workflow | GPT-5.5 hoặc Claude Opus 4.7, tùy bộ công cụ | GPT-5.5 dẫn trên BrowseComp, nhưng Claude Opus 4.7 dẫn trên MCP Atlas [ |
| Computer-use workflow | GPT-5.5 nhỉnh hơn nhẹ | OSWorld-Verified: GPT-5.5 đạt 78,7%, Claude Opus 4.7 đạt 78,0% [ |
| Ngữ cảnh cực dài | DeepSeek V4 Pro | Artificial Analysis ghi context window 1.000k token, nhưng cần kiểm tra kỹ vì hallucination rate 94% [ |
| Open-weight multimodal | Kimi K2.6 | Artificial Analysis cho biết đây là open weights model, hỗ trợ image/video input và text output native [ |
| Tác vụ cần giảm hallucination tối đa | Chưa thể kết luận người thắng chung từ bộ dữ liệu này | Có tín hiệu rủi ro rõ ở DeepSeek V4, nhưng chưa có số reliability đối chiếu đủ cả 4 mô hình trong cùng nguồn [ |
Đọc benchmark thế nào để tránh chọn nhầm
Điểm từ các nguồn khác nhau không nên cộng lại thành một bảng xếp hạng tuyệt đối. Vellum, OpenAI và Artificial Analysis dùng các bộ kiểm tra và bối cảnh đánh giá khác nhau [2][
7][
31][
33][
35]. Ngay cả trong mảng coding, tài liệu học thuật cũng chỉ ra rằng các benchmark như HumanEval có giới hạn, và đánh giá gần với công việc thực tế hơn nên xem thêm các benchmark dạng issue-solving như SWE-Bench [
42].
Một điểm dễ gây hiểu nhầm khác là context window. DeepSeek V4 Pro có context window 1.000k token trong bảng của Artificial Analysis, nhưng cùng hệ nguồn này cũng báo hallucination rate 94% cho DeepSeek V4 Pro [31][
33]. Vì vậy, với môi trường production, đặc biệt là dữ liệu chuyên ngành hoặc workflow rủi ro cao, vẫn cần bộ kiểm thử nội bộ thay vì chỉ dựa vào leaderboard.
Kết luận
Nếu phải chọn theo bằng chứng hiện có, GPT-5.5 là lựa chọn mạnh cho agentic workflow, terminal và nhiều tác vụ dùng công cụ, nhờ dẫn Claude Opus 4.7 trên Terminal-Bench 2.0, BrowseComp và OSWorld-Verified [2][
7]. Claude Opus 4.7 đặc biệt đáng chọn cho software engineering dựa trên SWE-Bench Pro, nơi mô hình đạt 64,3% so với 58,6% của GPT-5.5 [
2].
DeepSeek V4 Pro nổi bật nhờ context window 1.000k token, nhưng cần cân nhắc cùng báo cáo hallucination rate 94% của Artificial Analysis [31][
33]. Kimi K2.6 là ứng viên open-weight multimodal đáng chú ý với context 256k token, native image/video input và Intelligence Index 54, nhưng vẫn cần thêm benchmark đối chiếu trực tiếp trước khi đưa ra kết luận production một cách chắc chắn [
35][
36].




