未見 DeepSeek 官方資料證實 V4 整體 VRAM 少用 98%;可核對的是 V4 Preview 於 2026/04/24 發布,架構重點是用 Hybrid Attention、CSA/HCA 壓縮長上下文 KV cache,而不是同幅降低所有記憶體成本 [5][13][14]。 較清楚的第三方數字是:相對 DeepSeek V3.2,V4 只需 27% single token inference FLOPs 和 10% KV cache,即約 90% KV cache 減少;98% 主要見於 LinkedIn 用戶生成文章,不宜當成容量規劃依據 [20][21]。

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 少用 98% 記憶體?先看 KV Cache 證據. Article summary: 未見 DeepSeek 官方資料證實 V4 整體 VRAM 少用 98%;可核對的是 V4 Preview 於 2026/04/24 發布,架構重點是 CSA/HCA 等 Hybrid Attention 壓縮長上下文 KV cache,而不是同幅降低所有記憶體成本 [5][13][14]。. Topic tags: deepseek, ai, llm, ai infrastructure, gpu. Reference image context from search candidates: Reference image 1: visual subject "# 新浪看点. # DeepSeek V4报告太详尽了!484天换代之路全公开. > ## henry 发自 凹非寺量子位 | 公众号 QbitAI. DeepSeek V4“迟到”半年,但发布后的好评如潮还在如潮。. V4-Pro和V4-Flash,**1.6万亿参数/2840亿参数**,**上下文都是1M**。1M场景下,V4-Pro的单token FL" source context "DeepSeek V4报告太详尽了!484天换代之路全公开|人工智能深度|技术迭代复盘|Token|DeepSeek-V4|大模型技术报告_新浪新闻" Reference image 2: visual subject "1M token 上下文设置下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV Cache 仅为 V3.2 的 10%;V4-Flash 更激进——FLOPs 10%、KV Cache 7%。百万上下文从演示用 demo,变成了可以日常跑的工作负载。. DeepSeek-V4 想解
「DeepSeek V4 少用 98% 記憶體」這句話最容易誤導的地方,是把 KV cache 壓縮 寫成 整個模型部署的 VRAM 需求下降。目前公開資料支持的結論較窄:DeepSeek V4 針對長上下文推理的 KV cache 和 attention 成本做了明確優化;但未見官方 API 發布、模型卡或技術說明把「整體 VRAM 少用 98%」列為正式規格 [5][
13][
14]。
如果要準確描述 DeepSeek V4,較穩妥的說法是:
DeepSeek V4 透過 Hybrid Attention、Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA)等設計,大幅降低長上下文推理中的 KV cache 壓力;但現有資料不足以支持「整體 VRAM 少用 98%」這個說法 [
13][
14]。
這個分別很重要。KV cache 可以是長上下文 LLM 推理的主要瓶頸之一,但它不是部署和服務一個模型時所有記憶體成本的總和。
DeepSeek 官方 API 新聞頁列出 DeepSeek-V4 Preview 於 2026/04/24 發布 。DeepSeek V4 模型卡則列明系列包括 和 ,並描述 V4 是 Mixture-of-Experts(MoE)語言模型系列,保留 DeepSeekMoE framework 和 Multi-Token Prediction(MTP)strategy,同時加入 Hybrid Attention Architecture 等架構改動 。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
未見 DeepSeek 官方資料證實 V4 整體 VRAM 少用 98%;可核對的是 V4 Preview 於 2026/04/24 發布,架構重點是用 Hybrid Attention、CSA/HCA 壓縮長上下文 KV cache,而不是同幅降低所有記憶體成本 [5][13][14]。
未見 DeepSeek 官方資料證實 V4 整體 VRAM 少用 98%;可核對的是 V4 Preview 於 2026/04/24 發布,架構重點是用 Hybrid Attention、CSA/HCA 壓縮長上下文 KV cache,而不是同幅降低所有記憶體成本 [5][13][14]。 較清楚的第三方數字是:相對 DeepSeek V3.2,V4 只需 27% single token inference FLOPs 和 10% KV cache,即約 90% KV cache 減少;98% 主要見於 LinkedIn 用戶生成文章,不宜當成容量規劃依據 [20][21]。
繼續“Apple 傳聞「有鏡頭 AirPods」:更可能係 IR 感應器,唔係迷你相機”以獲得另一個角度和額外的引用。
Open related page對照「Solana衝100美元前,分析師先睇92至95美元阻力區」交叉檢查此答案。
Open related pageTo enable efficient training and inference for DeepSeek-V4 series as well as productive de-velopment, we introduce several infrastructure optimizations. First, we design and implement a single fused kernel for MoE modules that fully overlaps computation, co...
Recently Updated Google Plans to Invest Up to $40 Billion in Anthropic in Two-Phase Deal Tied to Performance Targets Meta Laying Off 8,000 Employees on May 20 as AI Spending Reaches Up to $135 Billion in 2026 OpenAI Releases GPT-5.5 With Stronger Agentic Co...
API Reference News DeepSeek-V4 Preview Release 2026/04/24 DeepSeek-V3.2 Release 2025/12/01 DeepSeek-V3.2-Exp Release 2025/09/29 DeepSeek V3.1 Update 2025/09/22 DeepSeek V3.1 Release 2025/08/21 DeepSeek-R1-0528 Release 2025/05/28 DeepSeek-V3-0324 Release 202...
Compressed Sparse Attention (CSA): Leverages dynamic sequence compression to compress KV entries to reduce the KV cache memory footprint and then applies DeepSeek Sparse Attention (DSA) to sparsify the attention matrices and reduce computational overhead. H...
與「省記憶體」最直接相關的,是長上下文 attention 的處理。NVIDIA 的技術文章指出,V4 的 Compressed Sparse Attention(CSA) 會用 dynamic sequence compression 壓縮 KV entries,以減少 KV cache memory footprint,再用 DeepSeek Sparse Attention(DSA)令 attention matrices 更 sparse;Heavily Compressed Attention(HCA) 則會把多組 token 的 KV entries 合併成單一 compressed entry,進一步降低 KV cache size [13]。
換句話說,資料能直接支持的是:V4 對 KV cache size 和 attention 計算開銷 有設計上的優化。這不等於官方承諾所有 VRAM 成本都按同一比例下降。
目前資料中,最直接出現 98% 的,是一篇 LinkedIn 用戶生成文章,標題聲稱「DeepSeek Sparse Attention Shrinks KV Memory by 98 Percent in Real World Serving」[21]。這類內容可以作為傳聞來源追查,但不應直接視為 DeepSeek 官方規格。
較容易核對的第三方數字,是 10% KV cache。Wccftech 報道稱,相對 DeepSeek V3.2,DeepSeek V4 只需要 27% single-token inference FLOPs 和 10% key-value(KV)cache [20]。如果只按「10% KV cache」理解,意思是 KV cache 約減少 90%;但比較基準是 DeepSeek V3.2,也不等於所有 context 長度、batch 設定、硬件配置,或者整體 VRAM 都減少 90% [
20]。
另有新聞標題把 DeepSeek V4 描述為 9.5x lower memory requirements [3]。即使用最直接的數學換算,1/9.5 約等於 10.5% 的剩餘需求,即約 89.5% 減少;這仍不是 98%,而且仍要確認它指的是 KV cache、特定長上下文場景,還是完整部署記憶體 [
3]。
| 說法 | 證據狀態 | 較準確解讀 |
|---|---|---|
| 整體 VRAM 少用 98% | 未見官方資料支持 | 不應寫入採購或對外宣傳規格 [ |
| KV cache 大幅壓縮 | 有技術資料支持 | CSA/HCA 針對長上下文 KV entries 壓縮 [ |
| 10% KV cache | 第三方報道引述 | 可理解為相對 V3.2 約 90% KV cache 減少,但不是總 VRAM 減少 [ |
| 9.5x lower memory | 第三方新聞標題 | 約等於 89.5% 減少,仍需確認比較範圍 [ |
KV cache 在長上下文推理中特別關鍵。Hugging Face 對 DeepSeek V4 的介紹指出,在長時間 agentic workload 中,工具結果會不斷追加到 context;後續 token 要面對更長的上下文,而 single-token inference FLOPs 和 KV cache size 都會隨 sequence length 增加 [17]。Hugging Face 的 GitHub 版本亦把長任務常見失敗模式描述為 trace 超出 context budget、KV cache 填滿 GPU,或工具調用回合令任務變慢 [
22]。
但完整部署一個模型時,VRAM 不只用於 KV cache。即使是提出 98% 說法的 LinkedIn 文章,也把 shared weights、expert weights、activations、KV cache 和 framework overhead 分開列出 [21]。這反而說明容量規劃要分開看:就算 KV cache 在某個長上下文場景下大幅減少,也不能直接推論整個 serving stack 的 VRAM 會按同一百分比下降。
DeepSeek V4 的技術方向值得關注,因為它針對的是 million-token context 推理時最昂貴的部分之一:長序列下的 attention 與 KV cache。NVIDIA 對 CSA/HCA 的描述顯示,V4 透過壓縮 KV entries、稀疏化 attention matrices,以及把多個 token set 的 KV entries 合併,來降低 KV cache size 和計算開銷 [13]。
DeepSeek V4 技術報告亦提到推理與訓練基礎設施優化,例如為 MoE modules 設計 single fused kernel,以 overlap computation、communication 和 memory access [2]。這些都是有意義的效率工程;但它們仍不是「整體 VRAM 少用 98%」的直接證據。
如果你正在評估 DeepSeek V4 是否適合長文件、長對話或 agent 工作流,重點不是追逐一個「98%」標題,而是確認你的瓶頸是否真的是 KV cache。公開資料足以支持 V4 在長上下文 KV cache 上有明顯優化,但不足以把「98% less memory」寫入採購規格、容量規劃或對外 marketing claim [13][
20][
21][
22]。
較可靠的做法,是用自己的 context 長度、batch size、concurrency、serving engine 和硬件配置做 benchmark。若你的 workload 主要受 KV cache 限制,V4 的壓縮設計可能很有價值;若瓶頸在模型權重、activation、框架開銷或併發策略,KV cache 的減少就不會自動等於同幅度的總 VRAM 節省 [13][
21][
22]。
1 DeepSeek V4 Technical Documentation Publication date: April 27, 2026 Updated date: April 24, 2026 2 DeepSeek V4 - Model Card General Information Model Provider DeepSeek AI Model name DeepSeek V4, including: • DeepSeek-V4-Pro • DeepSeek-V4-Flash Release da...
DeepSeek-V4: a million-token context that agents can actually use Image 1: Hugging Face's logoHugging Face Models Datasets Spaces Buckets new Docs Enterprise Pricing Log In Sign Up Back to Articles , every tool result is appended to the context, and every s...
AI Hardware DeepSeek Aims At Memory Shortage With Latest AI Model But Might Sacrifice Performance Ramish Zafar • Add Wccftech on Google Comments Chinese artificial intelligence lab DeepSeek claims to significantly reduce computing resources required for tok...
Shared weights: 16.00 GB Expert weights (MoE): 500.00 GB Activations: 447.74 GB KV cache: 895.48 GB Framework overhead: 6.16 GB Total compounded VRAM demand for parallel 8 users: 1,849.39 GB Now pair this with real hardware. Suppose you deploy 30× NVIDIA H1...
Focusing on long running agentic workloads. Running a frontier open model as an agent today breaks in predictable ways. The model stops. You reprompt. The trace blows past the context budget, or the KV cache fills the GPU, or tool-call round trips degrade h...