Đặt GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4-Pro vào cùng một bảng rất dễ tạo cảm giác đã có người thắng cuộc. Nhưng với dữ liệu hiện có, sai lầm lớn nhất là xem các điểm số từ nhiều nguồn, nhiều quyền dùng công cụ và nhiều mức reasoning effort như một leaderboard duy nhất. Cách đọc thực tế hơn là chọn theo việc cần làm: ưu tiên GPT-5.5 cho Terminal/CLI workflow; Claude Opus 4.7 cho SWE-Bench, thị giác và computer-use; DeepSeek V4-Pro cho kiến thức, toán và hướng mô hình mở; Kimi K2.6 cho agent đa phương thức trên Cloudflare Workers AI.[27][
4][
1][
5][
64][
36]
Bức tranh nhanh: điểm nào đang có thể trích dẫn?
Bảng dưới đây chỉ gom các con số có trong nguồn hiện tại. Dấu gạch ngang không có nghĩa là mô hình yếu ở mục đó, mà chỉ là nguồn lần này không có điểm có thể trích dẫn cùng cột. Quan trọng hơn: các điểm này không đến từ cùng một bộ chấm, nên phù hợp để sàng lọc ban đầu hơn là kết luận thắng thua tuyệt đối.
| Bài test hoặc tác vụ | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | Cách hiểu thực tế |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% [ | 69,4% [ | 66,7 [ | 67,9 [ | Trong dữ liệu có thể trích dẫn, GPT-5.5 nổi bật nhất cho workflow dòng lệnh. |
| SWE-Bench Pro | 58,6% [ | 64,3% [ | 58,6 [ | 55,4 [ | Claude đang dẫn trong các điểm có thể trích dẫn, nhưng số này là nguồn thứ cấp dẫn AWS. |
| SWE-Bench Verified / Resolved | — | 87,6% [ | 80,2 [ | 80,6 [ | Claude cao nhất, nhưng thiếu điểm GPT-5.5 cùng hàng và cách gọi giữa nguồn không hoàn toàn đồng nhất. |
| Graphwalks 256k: BFS / parents | 73,7 / 90,1 [ | 76,9 / 93,6 [ | — | — | Trong bảng long-context của OpenAI ở mốc 256k, Claude Opus 4.7 nhỉnh hơn GPT-5.5 ở hai dòng này. |
| Graphwalks 1M: BFS / parents | 45,4 / 58,5 [ | — | — | — | Bảng OpenAI cho thấy năng lực ngữ cảnh 1M của GPT-5.5; cột đối chiếu 1M trong cùng bảng ghi Opus 4.6, không nên dùng để kết luận về Opus 4.7. |
| Kiến thức và toán | — | — | — | GPQA Diamond 90,1; GSM8K 92,6; MMLU-Pro 87,5; HLE 37,7 [ | DeepSeek V4-Pro có bộ số liệu model card công khai đầy đủ nhất trong nhóm nguồn này. |
| Thị giác, screenshot, computer-use | — | Cải thiện cho vision-heavy workloads; tọa độ pixel 1:1; XBOW visual-acuity 98,5% [ | Cloudflare mô tả là native multimodal agentic model, nhưng không có điểm benchmark thị giác cùng hệ quy chiếu [ | — | Claude Opus 4.7 có bằng chứng trực tiếp nhất cho thao tác giao diện và hiểu ảnh. |
Vì sao không nên chốt một bảng xếp hạng chung?
Thứ nhất, cấp độ nguồn không giống nhau. Điểm Terminal-Bench 2.0 và SWE-Bench Pro của GPT-5.5 đến từ bài Yahoo Finance/Investing.com dẫn kết quả benchmark do OpenAI cung cấp.[27] Điểm SWE-Bench Pro, SWE-Bench Verified và Terminal-Bench 2.0 của Claude Opus 4.7 đến từ một bài tổng hợp thứ cấp dẫn AWS.[
4] Một phần điểm của Kimi K2.6 và DeepSeek V4-Pro lại nằm trên model card Hugging Face.[
84][
64]
Thứ hai, quyền dùng công cụ có thể đảo thứ hạng. Trong số liệu HLE mà Mashable tường thuật, khi không dùng công cụ, Claude Opus 4.7 đạt 46,9% còn GPT-5.4 Pro đạt 42,7%; nhưng khi có công cụ, GPT-5.4 Pro đạt 58,7% còn Claude Opus 4.7 đạt 54,7%.[6] Đây không phải điểm của GPT-5.5, nhưng đủ để nhắc rằng with tools và without tools không nên trộn vào cùng một bảng.
Thứ ba, phiên bản và chi phí chạy cũng ảnh hưởng cách đọc. DeepSeek V4 có V4-Pro và V4-Flash; Yahoo Finance dẫn lời DeepSeek rằng V4-Flash là lựa chọn hiệu quả và kinh tế hơn, trong khi các điểm chi tiết ở đây chủ yếu tương ứng với DeepSeek-V4-Pro.[57][
64] Artificial Analysis cũng tách GPT-5.5 thành các biến thể effort và cho biết GPT-5.5 xhigh chạy Index của họ đắt hơn đời trước khoảng 20%, nhưng rẻ hơn Claude Opus 4.7 max khoảng 30%.[
24]
GPT-5.5: mạnh nhất khi nhìn vào Terminal workflow và ngữ cảnh dài
Điểm sáng rõ nhất của GPT-5.5 trong nhóm dữ liệu này là Terminal-Bench 2.0. Yahoo Finance/Investing.com cho biết, theo kết quả benchmark do OpenAI cung cấp, GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, bài đo dùng để đánh giá command-line workflows; cùng bài viết cũng nêu GPT-5.5 đạt 58,6% trên SWE-Bench Pro, bài đo khả năng xử lý GitHub issue resolution.[27]
Ở mảng ngữ cảnh dài, bảng của OpenAI đưa ra chi tiết hơn: GPT-5.5 đạt 73,7 ở Graphwalks BFS 256k và 45,4 ở 1M; với Graphwalks parents, mô hình đạt 90,1 ở 256k và 58,5 ở 1M. Cùng bảng cho thấy GPT-5.4 chỉ đạt 9,4 ở Graphwalks BFS 1M, trong khi GPT-5.5 đạt 45,4.[21]
Đánh giá bên thứ ba cũng đáng chú ý nhưng nên đọc như một nguồn bổ sung. Artificial Analysis gọi GPT-5.5 là mô hình AI dẫn đầu mới, nói OpenAI dẫn ở 5 bài headline evaluations và đứng sau Gemini 3.1 Pro Preview ở 3 bài; họ cũng cho biết GPT-5.5 xhigh dùng ít hơn khoảng 40% output tokens so với đời trước khi chạy Index của họ.[24]
Nên thử trước nếu bạn cần: tự động hóa CLI, terminal agents, truy xuất trong ngữ cảnh dài, hoặc agentic coding workflow cần kiểm soát chi phí output token.[27][
21][
24]
Claude Opus 4.7: nổi bật ở coding, thị giác và computer-use
Claude Opus 4.7 có bằng chứng chính thức rõ nhất về thị giác và thao tác giao diện. Tài liệu API của Anthropic nói thay đổi này có thể mở ra cải thiện hiệu năng cho vision-heavy workloads, đặc biệt quan trọng với computer use, screenshot, artifact và document understanding workflows; tài liệu cũng cho biết tọa độ của mô hình khớp 1:1 với pixel thực, giảm nhu cầu tính scale factor.[1]
Trang ra mắt của Anthropic dẫn benchmark visual-acuity của XBOW, trong đó Claude Opus 4.7 đạt 98,5%, còn Opus 4.6 đạt 54,5%.[5] Vì vậy, với các tác vụ như hiểu ảnh chụp màn hình, đọc bố cục tài liệu, thao tác desktop UI hoặc computer-use agent, Claude Opus 4.7 có phần chứng cứ trực tiếp hơn ba mô hình còn lại.[
1][
5]
Về benchmark coding, một bài tổng hợp cho biết AWS cites Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro, 87,6% trên SWE-Bench Verified và 69,4% trên Terminal-Bench 2.0.[4] Các số này khiến Claude tạm dẫn trong các hàng SWE-Bench Pro và Verified/Resolved có thể trích dẫn ở đây, nhưng vì nguồn không phải bảng benchmark chính thức trực tiếp, đội triển khai vẫn nên chạy lại trên repo của mình trước khi quyết định.
Một lưu ý sản xuất cũng rất thực tế: tài liệu Anthropic nhắc rằng ảnh độ phân giải cao sẽ dùng nhiều token hơn; nếu không cần thêm chi tiết hình ảnh, nên downsample ảnh trước khi gửi cho Claude để tránh tăng token usage.[1]
Nên thử trước nếu bạn cần: sửa lỗi GitHub issue, coding agent, hiểu screenshot/tài liệu, computer-use agents, hoặc thao tác UI cần tọa độ pixel chính xác.[1][
4][
5]
Kimi K2.6: ứng viên agent đa phương thức trên Workers AI
Cloudflare changelog cho biết Moonshot AI Kimi K2.6 đã có trên Workers AI từ ngày 20/04/2026, với model ID @cf/moonshotai/kimi-k2.6; Cloudflare gọi đây là Day 0 support hợp tác với Moonshot AI.[36]
Cùng nguồn mô tả Kimi K2.6 là native multimodal agentic model, nhấn mạnh các năng lực như long-horizon coding, coding-driven design, proactive autonomous execution và swarm-based task orchestration. Cloudflare cũng nói mô hình dùng kiến trúc Mixture-of-Experts, tổng 1T tham số và 32B tham số active trên mỗi token.[36]
Về điểm công khai, model card Hugging Face của Kimi K2.6 ghi Terminal-Bench 2.0 là 66,7, SWE-Bench Pro là 58,6 và SWE-Bench Multilingual là 76,7.[84] MarkTechPost cũng tường thuật Kimi K2.6 đạt 80,2 trên SWE-Bench Verified.[
45]
Nên thử trước nếu bạn cần: triển khai sẵn trên Cloudflare Workers AI, long-horizon coding, coding-driven design, workflow agent đa phương thức hoặc phối hợp nhiều agent.[36][
84]
DeepSeek V4-Pro: bảng điểm kiến thức/toán đầy đủ và câu chuyện mô hình mở rõ ràng
Trong các nguồn hiện có, DeepSeek V4 được chia thành V4-Pro và V4-Flash. Yahoo Finance tường thuật rằng DeepSeek nói V4-Pro dẫn đáng kể các open-source models khác trên world knowledge benchmarks và chỉ thua nhẹ mô hình đóng hàng đầu Gemini-Pro-3.1; cùng bài viết cho biết V4-Flash là lựa chọn hiệu quả và kinh tế hơn.[57]
Model card Hugging Face của DeepSeek-V4-Pro cung cấp bộ điểm đầy đủ nhất trong bài này cho kiến thức, toán, coding và terminal: GPQA Diamond 90,1; GSM8K 92,6; HLE 37,7; MMLU-Pro 87,5; SWE-Bench Pro 55,4; SWE-Bench Verified/Resolved 80,6; TerminalBench 2.0 67,9.[64]
CNBC tường thuật DeepSeek nói V4 đã được tối ưu cho các agent tools phổ biến như Claude Code và OpenClaw; Wei Sun, principal AI analyst của Counterpoint, nhận định benchmark profile của V4 cho thấy mô hình có thể mang lại năng lực agent tốt với chi phí thấp hơn đáng kể.[58]
Nên thử trước nếu bạn cần: hướng mô hình mở, benchmark kiến thức/toán, đánh giá chi phí-hiệu năng cho agent tooling, hoặc muốn thử mô hình có thể tải về trong môi trường tự quản.[58][
64]
Chọn nhanh theo tác vụ
- Terminal automation / command-line agents: thử GPT-5.5 trước. Trong dữ liệu có thể trích dẫn, GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 ở 69,4%, DeepSeek V4-Pro ở 67,9 và Kimi K2.6 ở 66,7.[
27][
4][
64][
84]
- Sửa lỗi phần mềm kiểu SWE-Bench Pro: thử Claude Opus 4.7 trước, nhưng phải chạy lại trên repo thật. Các điểm có thể trích dẫn cho thấy Claude Opus 4.7 đạt 64,3%, GPT-5.5 và Kimi K2.6 cùng 58,6, DeepSeek V4-Pro 55,4; tuy vậy điểm Claude đến từ nguồn thứ cấp.[
4][
27][
84][
64]
- Screenshot, document understanding, computer-use: ưu tiên Claude Opus 4.7. Anthropic trực tiếp nêu vision-heavy workflows, computer use và tọa độ pixel 1:1; trang ra mắt cũng dẫn kết quả visual-acuity XBOW 98,5%.[
1][
5]
- Kiến thức/toán và hướng mô hình mở: đưa DeepSeek V4-Pro vào shortlist. Model card Hugging Face của nó có cùng lúc GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench và TerminalBench 2.0.[
64]
- Agent đa phương thức trên Workers AI: Kimi K2.6 đáng thử. Cloudflare đã hỗ trợ Kimi K2.6 trên Workers AI từ ngày đầu và định vị mô hình cho long-horizon coding cùng swarm-based task orchestration.[
36]
Trước khi triển khai, hãy chạy lại trong cùng điều kiện
Để có kết luận nội bộ có thể bảo vệ được, nên dùng cùng model version hoặc API model ID, cùng độ dài ngữ cảnh, cùng quyền dùng công cụ, cùng reasoning effort, cùng temperature, cùng token budget và cùng scoring harness. Quyền dùng công cụ đặc biệt không nên trộn lẫn, vì ví dụ HLE đã cho thấy with tools và without tools có thể làm thay đổi tương quan kết quả.[6]
Chi phí cũng cần được đo cùng năng lực. Artificial Analysis cho biết GPT-5.5 xhigh chạy Index của họ đắt hơn đời trước khoảng 20%, rẻ hơn Claude Opus 4.7 max khoảng 30% và dùng ít hơn khoảng 40% output tokens so với đời trước; trong khi đó, tài liệu Anthropic nhắc rằng ảnh độ phân giải cao dùng nhiều token hơn.[24][
1] Với agent chạy production, độ trễ, lượng token, tỷ lệ gọi tool thành công và khả năng tự sửa lỗi thường quan trọng không kém một điểm benchmark đơn lẻ.
Kết luận
So sánh đáng tin nhất hiện nay không phải là một ngôi vô địch chung, mà là lựa chọn theo tác vụ: Terminal-Bench nghiêng về GPT-5.5; SWE-Bench và thị giác/computer-use nghiêng về Claude Opus 4.7; bảng điểm kiến thức/toán và hướng mô hình mở khiến DeepSeek V4-Pro đáng chú ý; còn workflow agent đa phương thức trên Workers AI nên đưa Kimi K2.6 vào danh sách thử nghiệm.[27][
4][
1][
5][
64][
36] Chỉ khi bốn mô hình có điểm đầy đủ trong cùng harness, cùng quyền dùng công cụ và cùng điều kiện phiên bản, việc xếp một bảng tổng mới thật sự có ý nghĩa.




