Cách đọc nhanh: đây không phải cuộc đua ngựa
Các so sánh mô hình AI tuyến đầu thường bị biến thành bảng xếp hạng ai thắng ai thua. Với Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6, cách đọc thận trọng hơn là hỏi: tuyên bố nào có bằng chứng chính thức, tuyên bố nào chỉ là gợi ý từ bên thứ ba?
Trong bài này, “cửa sổ ngữ cảnh” là lượng token — tức đơn vị văn bản/mã/tài liệu mà mô hình có thể xét trong một lượt — còn API là giao diện lập trình để nhà phát triển tích hợp mô hình vào sản phẩm. Nếu bạn đang chọn mô hình cho ứng dụng thật, khác biệt giữa tài liệu chính thức và nguồn tổng hợp bên ngoài rất quan trọng.
Bức tranh hiện tại không đều. Anthropic cung cấp hồ sơ chính thức rõ nhất cho Claude Opus 4.7, gồm cửa sổ ngữ cảnh 1 triệu token và tuyên bố không thu phụ phí ngữ cảnh dài trong tài liệu mô hình [1][
3]. DeepSeek có bảng thông số và giá cụ thể nhất, gồm ngữ cảnh 1 triệu token, đầu ra tối đa 384K token, tool calls, JSON output và các dòng giá token [
30]. OpenAI xác nhận GPT-5.5 trong tài liệu API và trang phát hành, nhưng các đoạn chính thức được xem xét chưa đủ chi tiết để so sánh trọn vẹn về giá, ngữ cảnh và benchmark [
13][
22]. Moonshot định vị Kimi K2.6 quanh đa phương thức, lập trình và hiệu năng tác tử AI, nhưng nhiều thông số kỹ thuật/thương mại cụ thể trong bộ nguồn này đến từ trang bên thứ ba hoặc nội dung người dùng tạo [
37][
38][
41][
42][
43][
45].
Kết luận ngắn gọn
- Chưa có mô hình nào được chứng minh là tốt nhất toàn diện. Bằng chứng benchmark công khai chưa cùng một chuẩn: Vellum liệt kê các nhóm benchmark của Claude Opus 4.7 nhưng đoạn trích không hiện điểm số; trang phát hành GPT-5.5 của OpenAI có phần đánh giá nhưng đoạn trích không hiện số; Hugging Face nói DeepSeek V4 có kết quả cạnh tranh nhưng không phải dẫn đầu tuyệt đối; blog Kimi khuyến nghị dùng API chính thức để tái lập benchmark chính thức [
4][
22][
32][
37].
- Claude Opus 4.7 có hồ sơ nguồn chính thức mạnh nhất. Anthropic mô tả đây là mô hình reasoning lai cho lập trình và tác tử AI, có cửa sổ ngữ cảnh 1 triệu token; tài liệu Anthropic nói cửa sổ này có ở giá API tiêu chuẩn, không phụ phí ngữ cảnh dài [
1][
3].
- DeepSeek V4 có bằng chứng chi phí rõ nhất. Trang giá của DeepSeek nêu các dòng giá cho input cache hit, input cache miss và output, kèm thông số ngữ cảnh 1 triệu token và đầu ra tối đa 384K token [
30].
- GPT-5.5 đã được xác nhận nhưng còn thiếu thông số trong đoạn chính thức hiện có. OpenAI liệt kê
gpt-5.5vàgpt-5.5-2026-04-23trong tài liệu API, đồng thời cho biết GPT-5.5 và GPT-5.5 Pro có mặt trong API sau cập nhật ngày 24/4/2026; tuy vậy, các đoạn trích chính thức ở đây chưa đủ để xếp hạng đầy đủ [13][
22].
- Kimi K2.6 đáng chú ý nhưng cần xác minh trực tiếp hơn. Website Moonshot nêu K2.6 là mô hình đa phương thức gốc, có năng lực lập trình và hiệu năng tác tử AI; blog Kimi khuyến nghị dùng API chính thức để tái lập kết quả benchmark chính thức [
37][
43].
Bảng so sánh nhanh
| Mô hình | Điểm được nguồn hỗ trợ tốt nhất | Điểm cần thận trọng |
|---|---|---|
| Claude Opus 4.7 | Anthropic mô tả là mô hình reasoning lai cho lập trình và tác tử AI, có cửa sổ ngữ cảnh 1 triệu token; tài liệu Anthropic nói 1 triệu token ngữ cảnh có ở giá API tiêu chuẩn, không phụ phí ngữ cảnh dài [ | Tóm tắt Vellum liệt kê các nhóm benchmark nhưng không hiện điểm số đủ để xếp hạng trực tiếp; các con số như đầu ra 128K token và giá $5/$25 mỗi triệu token đến từ nguồn bên thứ ba nên nên xem là bằng chứng thứ cấp [ |
| GPT-5.5 | Tài liệu API của OpenAI liệt kê gpt-5.5 và gpt-5.5-2026-04-23, đánh dấu long context và hiển thị thông tin rate limit theo tier; trang phát hành OpenAI nói GPT-5.5 và GPT-5.5 Pro có mặt trong API sau cập nhật ngày 24/4/2026 [ | Các đoạn chính thức hiện có chưa nêu rõ kích thước ngữ cảnh, giới hạn đầu ra, giá, chi tiết đa phương thức hay điểm benchmark. Nguồn bên thứ ba có một số con số, nhưng độ tin cậy thấp hơn tài liệu OpenAI [ |
| DeepSeek V4 | Trang giá DeepSeek nêu ngữ cảnh 1 triệu token, đầu ra tối đa 384K token, JSON output, tool calls, beta chat-prefix completion, beta FIM completion và các dòng giá token cụ thể [ | Một số chi tiết về tên Flash/Pro và kiến trúc rõ hơn ở nguồn tổng hợp bên thứ ba so với riêng đoạn giá của DeepSeek; Hugging Face mô tả benchmark là cạnh tranh nhưng chưa phải state of the art [ |
| Kimi K2.6 | Website Moonshot mô tả K2.6 là mô hình đa phương thức gốc, có năng lực lập trình và hiệu năng tác tử AI; blog Kimi nói nên dùng API chính thức để tái lập benchmark chính thức của Kimi-K2.6 [ | Độ dài ngữ cảnh, độ dài đầu ra, giá và trạng thái open-weight trong bộ nguồn này phần lớn do bên thứ ba hoặc nội dung người dùng tạo nêu ra, chưa phải xác nhận trực tiếp từ nhà cung cấp [ |
Claude Opus 4.7: hồ sơ chính thức rõ nhất
Claude Opus 4.7 là mô hình có câu chuyện nguồn chính thống sạch nhất trong nhóm này. Anthropic mô tả Opus 4.7 là mô hình reasoning lai đẩy xa năng lực lập trình và tác tử AI, có cửa sổ ngữ cảnh 1 triệu token [3]. Trang sản phẩm của Anthropic cũng nói Opus 4.7 mạnh hơn ở lập trình, thị giác và các tác vụ nhiều bước phức tạp, đồng thời nhất quán hơn trong công việc khó và công việc tri thức chuyên môn [
3].
Điểm khác biệt dễ thấy nhất là ngữ cảnh dài. Tài liệu Anthropic nói Claude Opus 4.7 cung cấp cửa sổ ngữ cảnh 1 triệu token ở giá API tiêu chuẩn, không có phụ phí ngữ cảnh dài [1]. Cùng tài liệu đó nêu mô hình cải thiện đáng kể ở các tác vụ của người làm tri thức, nhất là khi cần tự kiểm tra đầu ra bằng thị giác, ví dụ rà soát chỉnh sửa .docx, chỉnh slide .pptx, phân tích biểu đồ và hình minh họa [
1].
Có thêm một số chi tiết hữu ích từ bên thứ ba, nhưng nên dán nhãn rõ. Caylent cho biết Opus 4.7 hỗ trợ đầu ra tối đa 128K token và giá Opus tiêu chuẩn $5 cho 1 triệu token input, $25 cho 1 triệu token output [5]. Đây là dữ liệu có ích cho lập kế hoạch, nhưng tuyên bố giá mạnh nhất từ nguồn chính trong bộ tài liệu này vẫn là: không phụ phí ngữ cảnh dài [
1].
Điểm nghẽn là benchmark. Bài của Vellum liệt kê nhiều nhóm đánh giá như lập trình, năng lực tác tử, tài chính, reasoning, đa phương thức/thị giác, tìm kiếm và an toàn; tuy nhiên đoạn trích được xem xét không có điểm số cụ thể để so sánh trực tiếp Claude với GPT-5.5, DeepSeek V4 hay Kimi K2.6 [4].
GPT-5.5: có thật trong API, nhưng chưa đủ để xếp hạng
GPT-5.5 đủ cơ sở để đưa vào danh sách thử nghiệm. Tài liệu API của OpenAI liệt kê gpt-5.5 và phiên bản theo ngày gpt-5.5-2026-04-23, đánh dấu mô hình là long context và hiển thị các tầng rate limit [13]. Trang phát hành của OpenAI đề ngày 23/4/2026 và nói GPT-5.5 cùng GPT-5.5 Pro có mặt trong API sau cập nhật ngày 24/4/2026 [
22].
Nhưng xác nhận tồn tại không đồng nghĩa có đủ dữ liệu để xếp hạng. Các đoạn chính thức hiện có chưa nêu kích thước ngữ cảnh chính xác, giới hạn đầu ra, giá, điểm benchmark, chi tiết modality, hiệu năng lập trình hay độ trễ [13][
22].
Nguồn bên thứ ba có bổ sung một số đầu mối, nhưng không nên coi ngang tài liệu OpenAI. DesignForOnline nêu giá GPT-5.5 là $5 cho 1 triệu token input và $30 cho 1 triệu token output [14]. LLM Stats nêu cửa sổ API 1 triệu token input và 128K token output, đồng thời ghi nhận đầu vào văn bản + hình ảnh, đầu ra văn bản [
20][
21]. Những con số này hữu ích để hỏi lại nhà cung cấp, chưa nên xem là bằng chứng chính thức cuối cùng.
Cách đọc thực tế: nếu sản phẩm của bạn đã xây quanh hạ tầng OpenAI, hãy thử GPT-5.5 sớm để kiểm chứng đường API đã được tài liệu hóa. Nhưng chỉ từ các nguồn này, chưa nên tuyên bố GPT-5.5 vượt Claude, DeepSeek hay Kimi về benchmark, chi phí hoặc năng lực tác tử [13][
22].
DeepSeek V4: rõ nhất về giá và đầu ra
DeepSeek có bảng chi phí cụ thể nhất trong so sánh này. Trang giá API của DeepSeek nêu ngữ cảnh 1 triệu token, đầu ra tối đa 384K token, JSON output, tool calls, beta chat-prefix completion và beta FIM completion [30]. Trang này cũng liệt kê giá token cho input cache hit, input cache miss và output, gồm $0.028 và $0.03625 cho input cache hit, $0.14 và $0.435 cho input cache miss, $0.28 và $0.87 cho output, kèm ghi chú giảm giá có thời hạn và giá gạch ngang trong đoạn trích [
30].
Bức tranh riêng của V4 có nguồn hỗ trợ, nhưng gián tiếp hơn. EvoLink nói tài liệu API chính thức của DeepSeek đã liệt kê deepseek-v4-flash và deepseek-v4-pro, công bố giá chính thức và ghi nhận ngữ cảnh 1 triệu token cùng đầu ra tối đa 384K token tính đến ngày 24/4/2026 [27]. Hugging Face nói DeepSeek phát hành V4 với hai checkpoint MoE, tức mixture-of-experts: DeepSeek-V4-Pro có tổng 1,6 nghìn tỷ tham số với 49 tỷ tham số hoạt động, còn DeepSeek-V4-Flash có tổng 284 tỷ tham số với 13 tỷ tham số hoạt động [
32]. Hugging Face cũng nói cả hai có cửa sổ ngữ cảnh 1 triệu token và mô tả kết quả benchmark là cạnh tranh nhưng chưa phải state of the art [
32].
Danh sách OpenRouter cho V4 Pro nêu riêng cửa sổ ngữ cảnh 1.048.576 token và giá $0.435 cho 1 triệu token input, $0.87 cho 1 triệu token output [31]. Điều này giúp đối chiếu bức tranh thương mại của V4 Pro, nhưng nhóm triển khai vẫn nên xác nhận giá hiện hành trực tiếp vì trang giá của DeepSeek có ngôn ngữ giảm giá có thời hạn [
30][
31].
Cách đọc thực tế: DeepSeek V4 đáng thử sớm nếu bộ lọc đầu tiên của bạn là chi phí, ngữ cảnh dài, đầu ra lớn, JSON output hoặc hỗ trợ tool calls. Dù vậy, các tiêu chí như chất lượng, độ tin cậy, an toàn, độ trễ và tỷ lệ gọi công cụ thành công vẫn cần đo trên workload thật.
Kimi K2.6: định vị hấp dẫn, thông số cần kiểm chứng
Kimi K2.6 được đặt vào đúng nhóm nhu cầu của mô hình tuyến đầu, nhưng các thông số chính xác hiện chưa được nguồn chính hỗ trợ mạnh bằng Claude hay DeepSeek. Website Moonshot nói K2.6 là mô hình đa phương thức gốc, nhấn mạnh năng lực lập trình và hiệu năng tác tử AI [43]. Đoạn blog kỹ thuật của Kimi nói để tái lập kết quả benchmark chính thức của Kimi-K2.6, người dùng nên dùng API chính thức; với nhà cung cấp bên thứ ba, nên tham chiếu Kimi Vendor Verifier [
37].
Các con số cụ thể hơn về Kimi trong bộ so sánh này chủ yếu đến từ bên thứ ba. LLM Stats nói Kimi K2.6 có ngữ cảnh input 262.144 token và có thể tạo tối đa 262.144 token output [42]. DesignForOnline mô tả Kimi K2.6 có ngữ cảnh 262K, thị giác, tool use, function calling và giá từ $0.7500 cho 1 triệu token [
41]. Atlas Cloud liệt kê giá API Kimi K2.6 từ $0.95 cho 1 triệu token [
38]. Một bài LinkedIn mô tả Kimi K2.6 là open-weight, nhưng đây là nội dung người dùng tạo và nên được xem là bằng chứng độ tin cậy thấp hơn trừ khi Moonshot xác nhận trực tiếp điều khoản giấy phép [
45].
Cách đọc thực tế: Kimi K2.6 đáng đánh giá cho workflow lập trình đa phương thức và tác tử AI, nhưng trước khi đưa vào sản xuất, nên xác minh giấy phép, độ dài ngữ cảnh, giới hạn đầu ra, giá, phương pháp benchmark và tương thích nhà cung cấp qua Moonshot hoặc API chính thức [37][
43].
Vì sao chưa thể trao “vương miện benchmark”
Một bảng xếp hạng duy nhất sẽ dễ gây hiểu nhầm vì các nguồn hiện không cho cùng một bộ điểm đầy đủ. Tóm tắt Vellum liệt kê các mảng benchmark của Claude Opus 4.7 nhưng không có kết quả cụ thể [4]. Trang phát hành GPT-5.5 của OpenAI có phần evaluations trong cấu trúc trang, nhưng đoạn trích không hiện số [
22]. Hugging Face nói benchmark của DeepSeek V4 cạnh tranh nhưng chưa phải state of the art [
32]. Đoạn blog chính thức của Kimi nhắc việc tái lập benchmark Kimi-K2.6 qua API chính thức nhưng không hiện kết quả trong đoạn trích [
37].
Điều này quan trọng vì thứ hạng mô hình có thể đảo chiều theo bài toán. Lập trình, truy xuất ngữ cảnh dài, phân tích tài liệu có hình ảnh, độ ổn định khi gọi công cụ, lập kế hoạch dạng tác tử, độ trễ và chi phí khi cache hit so với cache miss là những phép thử khác nhau. Nếu không có cùng một bộ benchmark chạy trên cả bốn mô hình, tuyên bố “tốt nhất toàn diện” sẽ giống marketing hơn là kết luận dựa trên bằng chứng.
Nên thử mô hình nào trước?
- Thử Claude Opus 4.7 trước nếu bạn cần hồ sơ chính thức mạnh nhất về ngữ cảnh 1 triệu token, lập trình, tác tử AI, thị giác, tác vụ nhiều bước và cải thiện công việc tri thức [
1][
3].
- Thử GPT-5.5 trước nếu ứng dụng của bạn đã phụ thuộc vào hạ tầng OpenAI và mục tiêu chính là xác minh đường API
gpt-5.5đã được tài liệu hóa [13][
22].
- Thử DeepSeek V4 trước nếu bộ lọc ban đầu là chi phí, ngữ cảnh dài, đầu ra tối đa, JSON output hoặc tool calls; trang giá DeepSeek là nguồn chi phí cụ thể nhất trong bộ nguồn này [
30].
- Thử Kimi K2.6 trước nếu ưu tiên của bạn là hướng đi đa phương thức, lập trình và tác tử AI của Moonshot, đồng thời bạn sẵn sàng xác minh riêng ngữ cảnh, giá, đầu ra, giấy phép và nhà cung cấp [
37][
38][
41][
42][
43][
45].
Cách đánh giá thực tế cho đội sản phẩm
Với quyết định sản xuất, đừng dựa vào khẩu hiệu “model tốt nhất”. Hãy chạy bake-off theo đúng tác vụ của bạn: cùng prompt, cùng công cụ, cùng kích thước ngữ cảnh, cùng loại tệp đầu vào và cùng thang chấm. Tối thiểu nên theo dõi năm nhóm: tỷ lệ hoàn thành tác vụ, độ tin cậy khi gọi công cụ, độ chính xác khi đọc ngữ cảnh dài, độ trễ và tổng chi phí token sau khi tính đủ input/output.
Với DeepSeek, nên tách chi phí cache hit và cache miss vì trang giá chia rõ hai dòng này [30]. Với GPT-5.5, nên tách chi tiết đã được OpenAI xác nhận khỏi các con số ngữ cảnh/giá do bên thứ ba nêu cho đến khi tài liệu chính thức đầy đủ hơn [
13][
14][
20][
21][
22]. Với Kimi K2.6, hãy xem danh sách nhà cung cấp và tuyên bố open-weight từ nội dung người dùng tạo như manh mối để kiểm chứng, không phải căn cứ mua sắm cuối cùng [
37][
38][
41][
42][
45].
Phán quyết cuối
Nếu đặt bằng chứng lên trước sự hào nhoáng, Claude Opus 4.7 là flagship được tài liệu hóa rõ nhất trong nhóm này, đặc biệt ở ngữ cảnh 1 triệu token, lập trình, tác tử AI và công việc tri thức [1][
3]. DeepSeek V4 có bằng chứng giá mạnh nhất và bằng chứng ngữ cảnh dài đáng chú ý, dù một số chi tiết về kiến trúc/tên Flash và Pro rõ hơn ở nguồn bên thứ ba so với riêng đoạn giá [
27][
30][
32]. GPT-5.5 đã được chính OpenAI xác nhận trong tài liệu API và trang phát hành, nhưng các đoạn chính thức hiện có còn quá mỏng để so sánh hiệu năng đầy đủ [
13][
22]. Kimi K2.6 có định vị chính thức đáng chú ý quanh đa phương thức, lập trình và tác tử AI, nhưng nhiều tuyên bố kỹ thuật và thương mại cụ thể vẫn cần xác nhận nguồn chính mạnh hơn [
37][
38][
41][
42][
43][
45].




