Nếu chỉ nhìn vào con số “1M token”, rất dễ hiểu sai DeepSeek V4 như một mô hình chỉ hơn nhau ở độ dài prompt. Cách đọc hợp lý hơn: đây là một lần phát hành kết hợp giữa mô hình và tầng dịch vụ, gồm hai bản V4-Pro và V4-Flash, công bố cả tổng tham số lẫn tham số kích hoạt, hỗ trợ cửa sổ ngữ cảnh tới 1 triệu token và có API tương thích OpenAI/Anthropic để đưa vào sản phẩm.[1][
14][
17][
18][
20]
DeepSeek Transparency Center liệt kê V4.0 DeepSeek-V4 với ngày phát hành 24/4/2026, đồng thời cung cấp lối vào Model Card và Technical Report.[22] Thông báo chính thức cũng cho biết DeepSeek-V4 Preview đã lên sóng và được công bố là mở nguồn.[
14][
15]
Thông số đã xác nhận: Pro nhắm trần năng lực, Flash nhắm hiệu quả
| Hạng mục | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| Quy mô công bố | 1.6T tổng tham số / 49B tham số kích hoạt [ | 284B tổng tham số / 13B tham số kích hoạt [ |
| Cửa sổ ngữ cảnh | Tối đa 1M token [ | Tối đa 1M token [ |
| Định vị sản phẩm | Mô hình lớn nhất trong gia đình V4 [ | Dành cho tải cần tốc độ và hiệu quả cao hơn [ |
| Tên model khi gọi API | deepseek-v4-pro [ | deepseek-v4-flash [ |
Trang mô hình và giá của DeepSeek còn ghi cả hai model có độ dài đầu ra tối đa 384K, hỗ trợ Json Output và Tool Calls.[17] Nói cách khác, trọng tâm kỹ thuật của V4 không chỉ là “làm model to hơn” hay “kéo ngữ cảnh dài hơn”, mà là đóng gói nhiều mức năng lực — bản mạnh và bản tiết kiệm hơn — thành sản phẩm có thể gọi được qua API.
MoE: vì sao “tổng tham số” và “tham số kích hoạt” đều quan trọng
API Yi và HyperAI đều mô tả V4-Pro và V4-Flash là các mô hình Mixture-of-Experts, thường gọi tắt là MoE — tức “hỗn hợp chuyên gia”.[2][
4] Trong cách thiết kế này, tổng tham số phản ánh quy mô “bể chuyên gia”, còn tham số kích hoạt cho biết phần mô hình thực sự tham gia tính toán trong một lượt suy luận. Đây là lý do thông số V4 luôn nhấn mạnh cả total parameters và active parameters.[
1][
2][
4][
14]
Lợi ích của MoE là phần nào tách được dung lượng mô hình khỏi chi phí tính toán của từng yêu cầu. Nhưng cái giá nằm ở tầng hệ thống: máy chủ phải xử lý định tuyến chuyên gia, song song hóa, truyền thông giữa thiết bị và cân bằng tải. Sau khi V4 ra mắt, nhóm SGLang / Miles cho biết đã hỗ trợ suy luận và huấn luyện RL cho DeepSeek-V4, với các thích nghi cho hybrid sparse-attention, mHC và FP4 expert weights; điều này cho thấy độ khó đã lan từ bản thân mô hình sang cả serving/training stack.[5]
1M token: áp lực thật nằm ở phía phục vụ
Với người dùng cuối, 1M token có nghĩa là có thể đưa vào một lượng văn bản rất lớn — ví dụ nhiều tài liệu, nhiều file code hoặc lịch sử tác vụ dài hơn. Token không hoàn toàn tương đương “từ”; nó thường là mảnh từ, ký tự hoặc cụm ký tự, nên số trang thực tế còn tùy ngôn ngữ và nội dung. Dù vậy, về mặt sản phẩm, đây vẫn là một bước đáng chú ý cho các bài toán cần nhớ và tham chiếu dài.
Tài liệu dành cho nhà phát triển của NVIDIA định vị V4-Pro và V4-Flash là các mô hình hướng tới suy luận hiệu quả với ngữ cảnh triệu token, đồng thời nêu các tình huống như code dài, phân tích tài liệu, truy xuất thông tin và quy trình agentic AI.[1] Tài liệu API của DeepSeek cũng liệt kê độ dài ngữ cảnh của cả hai model là 1M.[
17]
Nhưng với phía vận hành, cửa sổ 1M token sẽ phóng đại áp lực lên tính toán attention, bộ nhớ đệm ngữ cảnh, VRAM/băng thông và lịch điều phối throughput. Vì vậy, đánh giá V4 không nên dừng ở con số cửa sổ ngữ cảnh. Cần thử trong kho mã thật, bộ tài liệu dài, pipeline RAG và chuỗi công cụ Agent để đo độ trễ, chi phí, khả năng giữ tham chiếu xa và chất lượng Tool Calls.[1][
17]
Attention: hướng đi rõ, nhưng tên gọi cần đọc thận trọng
Các tài liệu công khai hiện chưa thống nhất hoàn toàn về thuật ngữ cho phần attention dài ngữ cảnh. API Yi nói ngữ cảnh 1M của V4 được hỗ trợ bởi Hybrid Attention và DSA sparse attention.[2] HyperAI tóm tắt rằng hybrid attention kết hợp Compressed Sparse Attention, viết tắt CSA, và Heavily Compressed Attention, viết tắt HCA, đồng thời nhắc tới mHC.[
4] Trong khi đó, SGLang / Miles nói stack mã nguồn mở của họ đã thích nghi cho hybrid sparse-attention, mHC và FP4 expert weights.[
5]
Cách đọc an toàn là: các nguồn trong hệ sinh thái V4 cùng chỉ về một hướng lớn — kết hợp attention thưa/nén/lai với tối ưu tầng phục vụ. Tuy nhiên, tên module cụ thể, chi tiết triển khai và mức hiệu quả thực tế không nên được xem là đã chốt chỉ dựa trên tóm tắt thứ cấp hay video phân tích. Với các quyết định kỹ thuật quan trọng, nên đối chiếu Model Card và Technical Report mà DeepSeek Transparency Center liệt kê.[22]
API: chi phí chuyển đổi được đưa vào thiết kế sản phẩm
Nhật ký cập nhật của DeepSeek cho biết API đã hỗ trợ V4-Pro và V4-Flash, có thể gọi qua OpenAI ChatCompletions interface và Anthropic interface. Khi truy cập model mới, base_url không đổi; phần cần sửa là tham số model, chuyển sang deepseek-v4-pro hoặc deepseek-v4-flash.[18][
19] Tài liệu “first API call” của DeepSeek ghi
base_url theo định dạng OpenAI là https://api.deepseek.com, còn định dạng Anthropic là https://api.deepseek.com/anthropic.[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicHai tên model cũ cũng có lịch rõ ràng: deepseek-chat và deepseek-reasoner sẽ bị ngừng dùng vào ngày 24/7/2026. Trong giai đoạn chuyển tiếp, chúng lần lượt trỏ tới chế độ không suy nghĩ và chế độ suy nghĩ của deepseek-v4-flash.[18][
19][
21]
Với ứng dụng đang chạy thật, việc nên làm trước tiên là thay tên model, quyết định dùng Pro hay Flash, rồi chạy regression test cho ngữ cảnh dài, Tool Calls, độ dài đầu ra và chi phí.[17][
18]
Những điểm vẫn cần kiểm chứng độc lập
Thứ nhất là mức “dẫn đầu” về hiệu năng. Trang phát hành tiếng Trung của DeepSeek nói V4-Pro đạt mức dẫn đầu trong nước và trong nhóm mã nguồn mở ở năng lực Agent, kiến thức thế giới và suy luận; API Yi cũng liệt kê điểm benchmark như SWE-Verified.[15][
2] Các thông tin này có giá trị như tuyên bố từ bên phát hành và hệ sinh thái, nhưng hiệu quả trong từng workload vẫn nên được đo lại với prompt, ngân sách và tiêu chí nghiệp vụ cụ thể.
Thứ hai là chi tiết cơ chế bên trong. Hybrid Attention, DSA, CSA, HCA, mHC và FP4 expert weights đã xuất hiện ở nhiều tài liệu công khai, nhưng cấp nguồn và cách đặt tên không hoàn toàn giống nhau.[2][
4][
5] Ngoài Technical Report chính thức, sẽ không thận trọng nếu coi mọi thuật ngữ là một sự thật triển khai đã được xác minh đầy đủ.[
22]
Thứ ba, 1M token không tự động đồng nghĩa mọi yêu cầu dùng hết cửa sổ đều có độ trễ thấp và chi phí thấp. Tài liệu chính thức và tài liệu hệ sinh thái xác nhận hướng thông số và khả năng gọi API của V4; hiệu năng thực tế vẫn phụ thuộc vào độ dài tài liệu, cache hit, mức đồng thời, chuỗi gọi công cụ và bộ đánh giá của từng ứng dụng.[1][
17][
18]
Kết luận thực dụng cho developer
Điểm “nặng đô” của DeepSeek V4 nằm ở tổ hợp: V4-Pro với 1.6T tổng tham số/49B tham số kích hoạt, V4-Flash với 284B/13B, cửa sổ ngữ cảnh tối đa 1M token và API tương thích OpenAI/Anthropic trong cùng một dòng sản phẩm có thể triển khai.[1][
14][
17][
18]
Với đội ngũ phát triển, hành động ngắn hạn không phải là lặp lại khẩu hiệu 1M token, mà là chạy thử end-to-end trên tài liệu dài, kho mã, RAG và workflow Agent của chính mình. Nếu đang dùng deepseek-chat hoặc deepseek-reasoner, cũng cần lên lịch chuyển sang deepseek-v4-flash hoặc deepseek-v4-pro trước ngày 24/7/2026.[18][
21]




