| Dòng model | Changelog nêu DeepSeek-V3.2 và DeepSeek-V3.2-Speciale. | V4 tách thành DeepSeek-V4-Pro và DeepSeek-V4-Flash. | Dễ thiết kế thử nghiệm hơn giữa cấu hình mạnh hơn và cấu hình nhẹ hơn. |
Điểm mới nổi bật nhất của DeepSeek V4 Preview là context 1M token. Về mặt ứng dụng, điều này đặc biệt quan trọng khi một lần gọi model cần chứa nhiều file trong repository, tài liệu kỹ thuật dài, log hệ thống, lịch sử hội thoại dài hoặc chuỗi tác vụ agent nhiều bước.
Tuy nhiên, không nên hiểu rằng long context chỉ bắt đầu từ V4. Trước đó, DeepSeek-V3.2-Exp đã giới thiệu DeepSeek Sparse Attention, được mô tả là giúp training và inference hiệu quả hơn trên long context. Cách đọc chính xác hơn là: V4 đưa long context lên thành một phần trung tâm của thế hệ model mới, còn V3.2-Exp là nhánh thử nghiệm quan trọng trên cùng hướng này.
Ở thế hệ V3.2, DeepSeek liệt kê DeepSeek-V3.2 và DeepSeek-V3.2-Speciale trong changelog. Sang V4, tài liệu Preview chuyển sang hai nhánh DeepSeek-V4-Pro và DeepSeek-V4-Flash.
Theo trang V4 Preview, V4-Pro có 1.6T tổng tham số với 49B active parameters, còn V4-Flash có 284B tổng tham số với 13B active parameters. Điều này tạo một cách đánh giá thực dụng hơn: thử V4-Pro cho bài toán khó cần chất lượng cao nhất trong dòng V4, và thử V4-Flash khi cần đo cân bằng giữa chất lượng, latency, chi phí và throughput trên nhiều request.
Cách tiếp cận an toàn là không chọn model chỉ theo tên. Hãy chạy cùng bộ prompt, cùng dữ liệu, cùng giới hạn token và cùng tiêu chí chấm điểm cho V3.2, V4-Flash và V4-Pro trước khi quyết định model mặc định.
DeepSeek V3.2 đã là một bản quan trọng cho agent vì release này nhấn mạnh thinking kết hợp tool-use. Nói cách khác, V3.2 không chỉ được định vị cho câu trả lời một lượt, mà còn cho các luồng gồm suy luận, gọi công cụ, đọc kết quả và tiếp tục xử lý.
V4 Preview tiếp tục hướng đó nhưng nhấn mạnh hơn vào agentic coding: các workflow trong đó model phải đọc ngữ cảnh code, lập kế hoạch, chỉnh sửa và phối hợp nhiều bước thay vì chỉ sinh một đoạn code ngắn.
Vì vậy, khác biệt không phải là V3.2 không làm agent còn V4 mới làm agent. Khác biệt hợp lý hơn là: V3.2 đặt nền tảng reasoning và tool-use, còn V4 cố gắng mở rộng hướng đó cho coding-agent và long-context workflow.
DeepSeek công bố benchmark và định vị hiệu năng trong cả trang V3.2 Release lẫn V4 Preview Release. Ngoài nguồn chính thức, một phân tích kỹ thuật bên ngoài về các model DeepSeek từ V3 đến V3.2 cũng đánh giá V3.2 là đáng chú ý nhờ hiệu năng và việc có bản open-weight.
Điểm cần thận trọng là các nguồn đang có ở đây chủ yếu là release note, tài liệu API và phân tích kỹ thuật dựa trên thông tin công bố. Chúng hữu ích để xác định hướng nâng cấp, nhưng chưa thay thế cho benchmark nội bộ trên workload thật của bạn.
Với production, câu hỏi nên là: model nào tốt hơn trên prompt của bạn, dữ liệu của bạn, ngân sách token của bạn, SLA latency của bạn và thang đo chất lượng của bạn. Nếu các tiêu chí đó chưa được đo lại, V4 nên được xem là ứng viên thử nghiệm mạnh, không phải lựa chọn mặc định ngay lập tức.
V4 kéo theo một thay đổi quan trọng về cách gọi model. DeepSeek thông báo trong V4 Preview rằng deepseek-chat và deepseek-reasoner hiện đang route sang deepseek-v4-flash ở hai chế độ non-thinking và thinking, và hai alias này sẽ bị ngừng hoàn toàn sau 24/07/2026 15:59 UTC.
Điều này đáng chú ý vì tài liệu API trước đó nêu deepseek-chat và deepseek-reasoner tương ứng với DeepSeek-V3.2. Nếu hệ thống production đang gọi alias thay vì model ID cụ thể, hành vi model có thể thay đổi theo cách bạn không chủ động kiểm soát.
Về tích hợp, tài liệu DeepSeek API cho biết API có định dạng tương thích OpenAI, cho phép dùng OpenAI SDK hoặc phần mềm tương thích OpenAI bằng cách chỉnh cấu hình endpoint. DeepSeek cũng có tài liệu Anthropic API compatibility, trong đó nêu trạng thái hỗ trợ cho các trường như
max_tokens, stream, system, temperature và thinking.
Checklist migration nên gồm:
deepseek-chat, deepseek-reasoner hay model ID cụ thể.Nên thử V4 nếu bạn cần context rất dài, đang xây coding-agent, muốn so sánh V4-Pro cho tác vụ khó, hoặc muốn đánh giá V4-Flash cho workload nhiều request.
Nên giữ V3.2 làm baseline tạm thời nếu pipeline hiện tại đã ổn định, bạn chưa cần context 1M token, hoặc hệ thống production cần thêm benchmark nội bộ trước khi đổi model.
Kết luận ngắn gọn: V3.2 là bước nhảy về reasoning và tool-use; V4 Preview là bước tiếp theo về long context, V4-Pro/V4-Flash và agentic coding. Với đội kỹ thuật, phần quan trọng không chỉ là chất lượng model mà còn là kế hoạch migration khỏi các alias API cũ trước hạn ngừng chính thức.
Comments
0 comments