「DeepSeek V4 少用 98% 記憶體」這句話最容易誤導的地方,是把 KV cache 壓縮 寫成 整個模型部署的 VRAM 需求下降。目前公開資料支持的結論較窄:DeepSeek V4 針對長上下文推理的 KV cache 和 attention 成本做了明確優化;但未見官方 API 發布、模型卡或技術說明把「整體 VRAM 少用 98%」列為正式規格 [5][
13][
14]。
最安全的結論
如果要準確描述 DeepSeek V4,較穩妥的說法是:
DeepSeek V4 透過 Hybrid Attention、Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA)等設計,大幅降低長上下文推理中的 KV cache 壓力;但現有資料不足以支持「整體 VRAM 少用 98%」這個說法 [
13][
14]。
這個分別很重要。KV cache 可以是長上下文 LLM 推理的主要瓶頸之一,但它不是部署和服務一個模型時所有記憶體成本的總和。
官方資料真正確認了甚麼
DeepSeek 官方 API 新聞頁列出 DeepSeek-V4 Preview 於 2026/04/24 發布 。DeepSeek V4 模型卡則列明系列包括 和 ,並描述 V4 是 Mixture-of-Experts(MoE)語言模型系列,保留 DeepSeekMoE framework 和 Multi-Token Prediction(MTP)strategy,同時加入 Hybrid Attention Architecture 等架構改動 。




