Dựa trên các báo cáo công khai đến tháng 4/2026, so sánh GPT‑5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4 không nên đọc như một bảng xếp hạng đơn giản. Cách hữu ích hơn là xem đây như bản đồ theo workload: mô hình nào hợp cho tác tử AI dùng trình duyệt và terminal, mô hình nào đáng chọn cho sửa codebase thật, mô hình nào thuận tiện cho triển khai trọng số mở, và mô hình nào nên đưa vào danh sách thử nghiệm ngữ cảnh dài.
Điểm cần giữ trong đầu: benchmark từ các phòng thí nghiệm khác nhau, với công cụ, mức suy luận và bộ khung đánh giá khác nhau, không phải lúc nào cũng so sánh trực tiếp được. LM Council cũng lưu ý rằng benchmark chạy độc lập có thể không khớp với điểm tự công bố của các tổ chức AI. [12]
Kết luận nhanh
- Tác tử AI dùng máy tính, trình duyệt và terminal: GPT‑5.5 có tín hiệu công khai mạnh nhất trong nhóm này. Dữ liệu ra mắt của OpenAI nêu Terminal‑Bench 2.0 82,7%, OSWorld‑Verified 78,7%, BrowseComp 84,4% và Toolathlon 55,6%. [
5]
- Sửa codebase sản xuất, kiểu SWE‑Bench: Claude Opus 4.7 là ứng viên rất mạnh để shortlist. Các số liệu được báo cáo gồm SWE‑Bench Verified 87,6% và SWE‑Bench Pro 64,3%. [
17]
- Stack coding trọng số mở: Kimi K2.6 rất cạnh tranh. Tài liệu chính thức của Kimi nêu Terminal‑Bench 2.0 66,7%, SWE‑Bench Pro 58,6%, SWE‑Bench Verified 80,2% và LiveCodeBench v6 89,6. [
29]
- Thử nghiệm ngữ cảnh dài với mô hình open-source/open-weights: DeepSeek V4 đáng được đánh giá, nhưng phải xem đúng biến thể. DeepSeek cho biết V4 Preview đã chính thức live và được open-source vào ngày 24/4/2026. [
42]
- Suy luận khoa học: Claude Opus 4.7 được báo cáo đạt GPQA Diamond 94,2%; Kimi K2.6 đạt GPQA-Diamond 90,5% và AIME 2026 96,4%; bảng DeepSeek V4-Pro/Pro-Max nêu GPQA Diamond 90,1. [
19][
27][
29][
37]
Trước khi đọc benchmark: ba lưu ý quan trọng
- Mỗi benchmark đo một năng lực khác nhau. Terminal‑Bench thiên về tác vụ dòng lệnh và tự động hóa; SWE‑Bench đo khả năng xử lý lỗi trong kho mã; BrowseComp nghiêng về tìm kiếm và duyệt web; OSWorld kiểm tra dùng máy tính; GPQA và HLE tập trung vào suy luận khó. Mạnh ở coding không đồng nghĩa tự động tốt ở web research hay truy hồi ngữ cảnh dài. [
5][
17][
29]
- Quyền truy cập công cụ và mức suy luận có thể làm đổi kết quả. OpenAI system card mô tả GPT‑5.5 Pro là cùng mô hình nền với GPT‑5.5 nhưng dùng thiết lập parallel test-time compute. Vì vậy, không nên xem điểm GPT‑5.5 và GPT‑5.5 Pro như kết quả cùng một ngân sách suy luận. [
3]
- Benchmark công khai tốt để lập shortlist, không đủ để quyết định mua hay triển khai. Điểm chạy độc lập có thể khác điểm tự công bố, nên đánh giá cuối cùng cần chạy trên workload thật của bạn. [
12]
Tóm tắt từng mô hình
| Mô hình | Định vị công khai | Tín hiệu mạnh nhất | Lưu ý chính |
|---|---|---|---|
| GPT‑5.5 | Tài liệu ra mắt của OpenAI nhấn mạnh computer-use, tool-use và workflow tác tử. [ | Terminal‑Bench 2.0 82,7%, OSWorld‑Verified 78,7%, BrowseComp 84,4%; GPT‑5.5 Pro đạt BrowseComp 90,1. [ | Không so điểm Pro trực tiếp với GPT‑5.5 thường, vì Pro dùng parallel test-time compute. [ |
| Claude Opus 4.7 | Anthropic mô tả đây là mô hình hybrid reasoning cho coding và AI agents, có cửa sổ ngữ cảnh 1M token. [ | SWE‑Bench Verified 87,6% và SWE‑Bench Pro 64,3%. [ | Cửa sổ 1M token hữu ích, nhưng kích thước context và chất lượng truy hồi context dài là hai chuyện khác nhau; StationX nêu caveat về recall ở mức 1M token cực hạn. [ |
| Kimi K2.6 | Mô hình open-source/open-weights của Moonshot/Kimi, định hướng mạnh cho coding. [ | Terminal‑Bench 2.0 66,7%, SWE‑Bench Pro 58,6%, SWE‑Bench Verified 80,2%, LiveCodeBench v6 89,6. [ | Artificial Analysis cho biết Kimi K2.6 hỗ trợ input ảnh/video native và context tối đa 256k; hiệu năng thực tế còn phụ thuộc cách triển khai. [ |
| DeepSeek V4-Pro / Pro-Max | DeepSeek cho biết V4 Preview đã live và open-sourced; model card trên Hugging Face mô tả dòng V4 là các mô hình ngôn ngữ MoE. [ | SWE Verified 80,6, SWE Pro 55,4, Terminal Bench 2.0 67,9 và GPQA Diamond 90,1. [ | Trong tên DeepSeek V4 có khác biệt biến thể; cần đọc riêng Flash, Pro và Pro-Max thay vì gộp thành một điểm duy nhất. [ |
Bảng benchmark đối đầu
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | Cách đọc nhanh |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82,7% [ | 69,4% reported [ | 66,7% [ | 67,9% [ | Với tác vụ dòng lệnh và coding tự động, lợi thế của GPT‑5.5 là rõ nhất. |
| SWE‑Bench Pro | 58,6% [ | 64,3% [ | 58,6% [ | 55,4% [ | Ở benchmark kỹ nghệ phần mềm khó, Claude Opus 4.7 dẫn trước. |
| SWE‑Bench Verified | Chưa có giá trị so sánh rõ trong bộ nguồn này | 87,6% [ | 80,2% [ | 80,6% [ | Với bài toán sửa issue trong repo, Claude có tín hiệu được báo cáo mạnh nhất. |
| OSWorld‑Verified | 78,7% [ | 78,0% [ | 73,1% [ | Chưa có giá trị so sánh | Ở tác vụ dùng máy tính, GPT‑5.5 và Claude Opus 4.7 khá sát nhau. |
| BrowseComp | 84,4%; GPT‑5.5 Pro 90,1% [ | 79,3% [ | 83,2%; Agent Swarm 86,3% [ | Chưa có giá trị so sánh | Với tác tử duyệt web và nghiên cứu web, GPT‑5.5 Pro và Kimi Agent Swarm đều có tín hiệu mạnh. |
| GPQA Diamond | Chưa có giá trị chính thức so sánh rõ trong bộ nguồn này | 94,2% [ | 90,5% [ | 90,1% [ | Với suy luận khoa học cấp cao, điểm được báo cáo của Claude cao nhất. |
| HLE / suy luận khó | Chưa có giá trị so sánh trực tiếp | HLE no-tools 46,9%, with-tools 54,7% [ | HLE-Full 34,7%; with-tools 54,0% [ | HLE 37,7% [ | Khi có công cụ, Claude và Kimi khá gần nhau; điểm HLE được liệt kê của DeepSeek thấp hơn. |
| Ngữ cảnh dài | Trích đoạn ra mắt được cung cấp chưa nêu rõ public context spec | 1M context window [ | 256k max context length [ | Tài liệu V4 định vị theo hướng long-context [ | Claude và DeepSeek được định vị rõ hơn cho long context, nhưng cần kiểm tra recall thực tế. |
Chọn mô hình theo use case
1. Tác tử lập trình chạy nhiều terminal: GPT‑5.5
Nếu workload của bạn gồm thao tác terminal, dùng trình duyệt/công cụ, tác vụ cấp hệ điều hành và vòng lặp tác tử nhiều bước, GPT‑5.5 là ứng viên nổi bật nhất trong bộ dữ liệu này. OpenAI báo cáo Terminal‑Bench 2.0 82,7%, OSWorld‑Verified 78,7%, BrowseComp 84,4% và Toolathlon 55,6%. [5]
GPT‑5.5 Pro đạt BrowseComp 90,1%, nhưng không nên đọc như cùng điều kiện với GPT‑5.5 thường, vì OpenAI system card mô tả Pro là thiết lập parallel test-time compute trên cùng mô hình nền. [3][
5]
Phù hợp nhất: coding agents, tác tử nghiên cứu qua trình duyệt, tự động hóa computer-use, trợ lý doanh nghiệp dùng nhiều công cụ.
2. Sửa codebase sản xuất: Claude Opus 4.7
Nếu KPI chính là sửa bug trong repo thật, chuẩn bị pull request, làm cho test pass và hiểu codebase lớn, Claude Opus 4.7 là ứng viên nên ưu tiên thử. SWE‑Bench Verified 87,6% và SWE‑Bench Pro 64,3% đặt mô hình này ở vị trí rất mạnh trong nhóm benchmark kỹ nghệ phần mềm. [17]
Anthropic mô tả Claude Opus 4.7 là mô hình hybrid reasoning cho coding và AI agents với cửa sổ ngữ cảnh 1M token, nên việc đưa nó vào bài test large-codebase là hợp lý. [14]
Phù hợp nhất: bảo trì repo, code review, refactor phức tạp, developer copilot, tác tử kỹ nghệ phần mềm.
3. Stack coding trọng số mở: Kimi K2.6
Nếu yêu cầu của bạn là self-host hoặc dùng mô hình trọng số mở, Kimi K2.6 là một trong các lựa chọn đáng chú ý nhất. Bảng chính thức của Kimi nêu Terminal‑Bench 2.0 66,7%, SWE‑Bench Pro 58,6%, SWE‑Bench Verified 80,2%, SciCode 52,2% và LiveCodeBench v6 89,6. [29]
Tài liệu công khai của Kimi K2.6 cũng cho thấy tín hiệu tốt ở workload tác tử/tìm kiếm, gồm BrowseComp 83,2% và Agent Swarm BrowseComp 86,3%. [34] Theo Artificial Analysis, mô hình hỗ trợ input ảnh/video native và context length 256k. [
32]
Phù hợp nhất: triển khai open model, coding agents, tác tử nghiên cứu, nhóm cần kiểm soát nhiều hơn về hosting và hạ tầng.
4. Thử nghiệm ngữ cảnh dài và open weights: DeepSeek V4
DeepSeek cho biết DeepSeek V4 Preview đã chính thức live và open-sourced vào ngày 24/4/2026. [42] Model card DeepSeek‑V4‑Pro trình bày dòng V4 như các mô hình ngôn ngữ Mixture-of-Experts, tức MoE. [
37]
Bộ benchmark được báo cáo cho DeepSeek V4-Pro/Pro-Max gồm Terminal Bench 2.0 67,9, SWE Verified 80,6, SWE Pro 55,4 và GPQA Diamond 90,1. [37] Điều đó khiến DeepSeek V4 trở thành ứng viên chiến lược cho thử nghiệm open-source/open-weights và workload ngữ cảnh dài, nhưng phải luôn đọc điểm theo đúng biến thể. [
37][
42]
Phù hợp nhất: ứng dụng long-context, thử nghiệm open-source/open-weights, nhóm muốn so sánh mô hình frontier dạng hosted với phương án có thể tự triển khai.
5. Suy luận khoa học và toán: Claude dẫn GPQA, nhưng bức tranh không một màu
Trong các số liệu được báo cáo, Claude Opus 4.7 đạt GPQA Diamond 94,2%. [19] Kimi K2.6 đạt GPQA-Diamond 90,5% và AIME 2026 96,4%. [
27][
29] DeepSeek V4-Pro/Pro-Max báo cáo GPQA Diamond 90,1. [
37]
Vì vậy, Claude là ứng viên rất mạnh cho suy luận khoa học. Tuy nhiên, với workload toán/khoa học, không nên quyết định bằng một benchmark duy nhất. Thiết lập benchmark, quyền dùng công cụ và mức effort có thể làm kết quả thay đổi. [12]
Checklist đánh giá thực tế
- Đừng chọn mô hình chỉ từ một benchmark công khai. Điểm tự công bố và điểm chạy độc lập có thể khác nhau; hãy dùng cùng prompt, cùng ngân sách công cụ, cùng timeout và cùng rubric chấm điểm trên workload của bạn. [
12]
- Tách riêng GPT‑5.5 và GPT‑5.5 Pro. Pro dùng parallel test-time compute, nên không nên xem kết quả regular và Pro như cùng một ngân sách tính toán. [
3]
- Xác định trước yêu cầu open weights. Nếu kiểm soát dữ liệu, self-hosting hoặc tùy biến mô hình là điều kiện bắt buộc, hãy đưa Kimi K2.6 và DeepSeek V4 vào một nhánh đánh giá riêng. [
29][
34][
37][
42]
- Đừng đánh giá long context chỉ bằng kích thước cửa sổ. Claude Opus 4.7 có định vị 1M context, Kimi K2.6 được báo cáo có max context 256k, và DeepSeek V4 có tài liệu định vị long-context; nhưng recall, tuân thủ hướng dẫn và chi phí phải được kiểm tra trên tài liệu thật của bạn. [
14][
17][
32][
37][
42]
- Với coding agents, hãy chạy cả benchmark công khai lẫn repo nội bộ. Điểm SWE‑Bench hữu ích, nhưng repo sản xuất có dependency, flaky tests, coding style và quy trình review rất khác. [
17]
Giới hạn của so sánh này
- Trong bộ nguồn hiện có, chưa có một so sánh công khai hoàn chỉnh nơi cả bốn mô hình được đánh giá bởi cùng một phòng lab độc lập, cùng harness, cùng quyền dùng công cụ và cùng mức effort; LM Council cũng cảnh báo rằng benchmark độc lập có thể không khớp điểm tự công bố. [
12]
- Không nên đọc GPT‑5.5 Pro và GPT‑5.5 như một mô hình cùng điều kiện, vì OpenAI system card mô tả Pro là thiết lập parallel test-time compute trên cùng mô hình nền. [
3]
- Điểm DeepSeek V4 phụ thuộc biến thể; không nên gộp V4 Preview, V4-Pro và Pro-Max thành một điểm DeepSeek V4 duy nhất. [
37][
42]
- Với các triển khai open-weights như Kimi K2.6 và DeepSeek V4, serving stack, phần cứng, quantization và thiết lập context có thể ảnh hưởng đáng kể đến hiệu năng thực tế; vì vậy cần đánh giá trên môi trường triển khai của chính bạn. [
29][
34][
37]
Chốt lại
Shortlist GPT‑5.5 nếu workload tập trung vào agentic computer-use, duyệt web, điều phối công cụ và coding qua terminal. [5]
Ưu tiên Claude Opus 4.7 nếu giá trị cốt lõi của sản phẩm là sửa lỗi ở cấp repo, codebase repair và kỹ nghệ phần mềm kiểu SWE‑Bench. [14][
17]
Đánh giá Kimi K2.6 nếu bạn cần mô hình coding trọng số mở với tín hiệu mạnh ở SWE‑Bench, Terminal‑Bench và tìm kiếm/tác tử. [29][
34]
Đưa DeepSeek V4-Pro/Pro-Max vào shortlist nếu ràng buộc chính là thử nghiệm ngữ cảnh dài, open-source/open-weights và khả năng tự triển khai; nhưng luôn xác minh đúng biến thể và thiết lập benchmark. [37][
42]
Cách an toàn nhất là dùng bảng benchmark công khai để rút gọn danh sách, rồi chọn mô hình cuối cùng bằng bài test trên tác vụ thật, độ trễ, chi phí, yêu cầu riêng tư và các failure mode quan trọng của bạn. [12]




