studioglobal
熱門發現
答案已發布9 來源

¿DeepSeek V4 usa un 98% menos memoria? La evidencia apunta solo a la caché KV

No hay documentación oficial revisada que confirme que DeepSeek V4 reduzca un 98% la VRAM total; lo que sí aparece es una optimización de la caché KV mediante Hybrid Attention, CSA y HCA [5][13][14]. El dato más verificable en fuentes de terceros habla de un 10% de caché KV frente a DeepSeek V3.2, es decir, alrededo...

14K0
DeepSeek V4 與 KV cache 記憶體壓縮爭議的抽象示意圖
DeepSeek V4 少用 98% 記憶體?先看 KV Cache 證據DeepSeek V4 的可靠證據指向長上下文 KV cache 壓縮;「整體記憶體少用 98%」仍未見官方確認。
AI 提示

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 少用 98% 記憶體?先看 KV Cache 證據. Article summary: 未見 DeepSeek 官方資料證實 V4 整體 VRAM 少用 98%;可核對的是 V4 Preview 於 2026/04/24 發布,架構重點是 CSA/HCA 等 Hybrid Attention 壓縮長上下文 KV cache,而不是同幅降低所有記憶體成本 [5][13][14]。. Topic tags: deepseek, ai, llm, ai infrastructure, gpu. Reference image context from search candidates: Reference image 1: visual subject "# 新浪看点. # DeepSeek V4报告太详尽了!484天换代之路全公开. > ## henry 发自 凹非寺量子位 | 公众号 QbitAI. DeepSeek V4“迟到”半年,但发布后的好评如潮还在如潮。. V4-Pro和V4-Flash,**1.6万亿参数/2840亿参数**,**上下文都是1M**。1M场景下,V4-Pro的单token FL" source context "DeepSeek V4报告太详尽了!484天换代之路全公开|人工智能深度|技术迭代复盘|Token|DeepSeek-V4|大模型技术报告_新浪新闻" Reference image 2: visual subject "1M token 上下文设置下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV Cache 仅为 V3.2 的 10%;V4-Flash 更激进——FLOPs 10%、KV Cache 7%。百万上下文从演示用 demo,变成了可以日常跑的工作负载。. DeepSeek-V4 想解

openai.com

La frase suena potente: DeepSeek V4 usaría un 98% menos de memoria. Pero, leída con cuidado, la evidencia pública apunta a algo más concreto y bastante distinto: compresión de la caché KV en inferencia de contexto largo, no una reducción garantizada del 98% en toda la VRAM necesaria para desplegar el modelo.

Para un equipo que está calculando costes de GPU, concurrencia o capacidad de servicio, la diferencia no es menor. La caché KV puede ser uno de los grandes cuellos de botella cuando un modelo trabaja con ventanas de contexto enormes, pero no es toda la memoria de la tarjeta gráfica.

La conclusión más prudente

La forma más segura de describir DeepSeek V4 hoy sería esta:

DeepSeek V4 introduce cambios como Hybrid Attention, Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA) para reducir de forma importante la presión de la caché KV y el coste de atención en contextos largos. Pero las fuentes públicas disponibles no bastan para afirmar que la VRAM total baje un 98% [13][14].

Ese matiz importa porque muchas lecturas rápidas mezclan tres cosas diferentes: memoria de caché KV, memoria total de inferencia y memoria total de despliegue. No son lo mismo.

Qué confirma realmente la documentación

La página oficial de noticias de la API de DeepSeek lista el lanzamiento de DeepSeek-V4 Preview el 24 de abril de 2026 [5]. La model card de DeepSeek V4 indica que la familia incluye DeepSeek-V4-Pro y DeepSeek-V4-Flash, y describe V4 como una serie de modelos de lenguaje Mixture-of-Experts (MoE) que conserva el marco DeepSeekMoE y la estrategia Multi-Token Prediction (MTP), además de introducir cambios como Hybrid Attention Architecture [14].

La parte relevante para la memoria aparece en el tratamiento de la atención en contextos largos. Un artículo técnico de NVIDIA explica que Compressed Sparse Attention (CSA) usa compresión dinámica de secuencias para comprimir entradas KV y reducir la huella de memoria de la caché KV; después aplica DeepSeek Sparse Attention (DSA) para hacer más dispersas las matrices de atención y reducir coste computacional. Heavily Compressed Attention (HCA) va más allá al consolidar entradas KV de varios grupos de tokens en una sola entrada comprimida, lo que reduce aún más el tamaño de la caché KV [13].

Dicho de otra manera: hay respaldo para afirmar que V4 optimiza la caché KV y el coste de atención en contextos largos. No hay el mismo respaldo para convertir eso en una promesa general de que toda la VRAM del sistema se reduce en la misma proporción.

98%, 90% y 9,5x: tres números que no conviene mezclar

El número 98% aparece de forma directa en una publicación de LinkedIn generada por un usuario, cuyo título afirma que DeepSeek Sparse Attention reduce la memoria KV un 98% en escenarios reales de servicio [21]. Ese tipo de contenido puede servir como pista para investigar, pero no debería tratarse como especificación oficial de DeepSeek.

El dato de terceros más fácil de contrastar es otro: 10% de caché KV. Wccftech informó de que, frente a DeepSeek V3.2, DeepSeek V4 requeriría solo el 27% de los FLOPs de inferencia de un solo token y el 10% de la caché key-value (KV) [20]. Si se lee literalmente, ese 10% equivale a una reducción aproximada del 90% en caché KV. Pero la comparación es con DeepSeek V3.2 y no implica que todos los tamaños de contexto, lotes, motores de serving, configuraciones de hardware o despliegues completos reduzcan su VRAM total en un 90% [20].

También hay titulares que hablan de 9,5x menos requisitos de memoria [3]. Incluso con la conversión más directa, 1/9,5 supone que queda alrededor del 10,5% de la necesidad original, es decir, una reducción cercana al 89,5%. Sigue sin ser 98%, y además habría que comprobar si el titular se refiere a caché KV, a un caso específico de contexto largo o a una configuración de despliegue completa [3].

AfirmaciónEstado de la evidenciaLectura más precisa
La VRAM total baja un 98%No aparece respaldada como especificación oficial en las fuentes revisadasNo debería usarse como dato de compras o marketing [5][14][21]
La caché KV se comprime de forma importanteSí hay soporte técnicoCSA y HCA comprimen entradas KV en contextos largos [13]
V4 usa el 10% de la caché KV de V3.2Es una cifra citada por tercerosEquivale a cerca de un 90% menos de caché KV, no de VRAM total [20]
9,5x menos memoriaAparece en titulares de tercerosAproximadamente un 89,5% menos, pero falta precisar el alcance [3]

Por qué la caché KV no es toda la VRAM

En un modelo de lenguaje, la caché KV almacena información de tokens anteriores para no recalcular ciertas partes de la atención en cada paso. Cuanto más largo es el contexto, más relevante se vuelve. Hugging Face explica que, en cargas de trabajo agentic de larga duración, los resultados de herramientas se van añadiendo al contexto y cada token posterior debe operar con un historial cada vez mayor; ahí importan especialmente dos métricas: los FLOPs de inferencia de un solo token y el tamaño de la caché KV, ambas crecientes con la longitud de secuencia [17].

La versión en GitHub del texto de Hugging Face describe fallos típicos de estas tareas largas: la traza supera el presupuesto de contexto, la caché KV llena la GPU o las rondas de llamadas a herramientas degradan el rendimiento a mitad de una tarea extensa [22].

Pero un despliegue completo no vive solo de la caché KV. La VRAM también se consume en pesos compartidos, pesos de expertos en modelos MoE, activaciones, sobrecarga del framework y otros elementos del stack. De hecho, incluso la publicación de LinkedIn que populariza el 98% separa shared weights, expert weights, activations, KV cache y framework overhead [21]. Esa separación es precisamente la razón por la que no se puede convertir una mejora en caché KV en una reducción automática e idéntica de toda la memoria de GPU.

CSA y HCA son ingeniería de eficiencia, no una cifra mágica

Lo interesante de DeepSeek V4 no es un eslogan, sino el tipo de problema que intenta resolver: hacer más viable la inferencia con contextos muy largos, incluso de escala millonaria. NVIDIA describe CSA y HCA como mecanismos para comprimir entradas KV, hacer más dispersas las matrices de atención y consolidar varios conjuntos de tokens en entradas comprimidas, reduciendo tanto el tamaño de la caché KV como el coste computacional asociado [13].

El informe técnico de DeepSeek V4 también menciona optimizaciones de infraestructura para entrenamiento e inferencia, como un kernel fusionado único para módulos MoE diseñado para solapar cómputo, comunicación y acceso a memoria [2]. Son mejoras relevantes de ingeniería. Pero no son, por sí mismas, una prueba de que el despliegue completo necesite un 98% menos de VRAM.

Cómo evaluar DeepSeek V4 en la práctica

Si estás valorando DeepSeek V4 para documentos largos, conversaciones extensas o agentes que encadenan herramientas, la pregunta útil no es si el titular del 98% es llamativo. La pregunta es si tu cuello de botella real está en la caché KV.

Las fuentes disponibles sí respaldan que V4 introduce optimizaciones importantes para la caché KV y la atención en contextos largos [13][20][22]. Lo que no respaldan con la misma claridad es usar «98% menos memoria» como dato para presupuestos de GPU, planificación de capacidad o promesas comerciales [21].

La recomendación práctica es medir con tu propio caso: longitud de contexto, batch size, concurrencia, motor de serving y hardware concreto. Si tu carga está limitada sobre todo por caché KV, las técnicas de compresión de V4 pueden ser muy valiosas. Si el límite está en pesos del modelo, activaciones, sobrecarga del framework o estrategia de concurrencia, una reducción de la caché KV no se traducirá automáticamente en el mismo ahorro de VRAM total [13][21][22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • No hay documentación oficial revisada que confirme que DeepSeek V4 reduzca un 98% la VRAM total; lo que sí aparece es una optimización de la caché KV mediante Hybrid Attention, CSA y HCA [5][13][14].
  • El dato más verificable en fuentes de terceros habla de un 10% de caché KV frente a DeepSeek V3.2, es decir, alrededor de un 90% menos en ese componente, no en toda la memoria de despliegue [20].
  • El 98% aparece principalmente en una publicación de LinkedIn generada por un usuario, por lo que no conviene usarlo como base para compras, planificación de capacidad o mensajes comerciales [21].

人們還問

「¿DeepSeek V4 usa un 98% menos memoria? La evidencia apunta solo a la caché KV」的簡短答案是什麼?

No hay documentación oficial revisada que confirme que DeepSeek V4 reduzca un 98% la VRAM total; lo que sí aparece es una optimización de la caché KV mediante Hybrid Attention, CSA y HCA [5][13][14].

首先要驗證的關鍵點是什麼?

No hay documentación oficial revisada que confirme que DeepSeek V4 reduzca un 98% la VRAM total; lo que sí aparece es una optimización de la caché KV mediante Hybrid Attention, CSA y HCA [5][13][14]. El dato más verificable en fuentes de terceros habla de un 10% de caché KV frente a DeepSeek V3.2, es decir, alrededor de un 90% menos en ese componente, no en toda la memoria de despliegue [20].

接下來在實務上我該做什麼?

El 98% aparece principalmente en una publicación de LinkedIn generada por un usuario, por lo que no conviene usarlo como base para compras, planificación de capacidad o mensajes comerciales [21].

接下來我應該探索哪個相關主題?

繼續“Claude Security 公測版:Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「xAI Grok 4.3 API 解讀:1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

搜尋更多關於 DeepSeek V4 嘅秘密:記憶體少用 98% 嘅資料。

Studio Global AI30 來源

引用的答案

我搵到嘅重點係:DeepSeek V4「記憶體少用 98%」呢個講法未見到由 DeepSeek 官方文件直接確認;較可靠資料只支持「大幅減少 KV cache / 長上下文記憶體」呢個方向,而 98% 似乎主要來自第三方或社交平台分析,證據不足。

  • DeepSeek 官方 API 文件顯示,DeepSeek-V4 Preview 於 2026-04-24 發布,型號包括 V4-Pro 同 V4-Flash [10]

  • DeepSeek V4 技術文件/模型卡顯示,V4 包括 DeepSeek-V4-Pro、DeepSeek-V4-Flash,發布日期為 2026-04-24,模型卡發布/更新日期亦喺 2026 年 4 月底 [3]

  • 技術核心唔係「神秘記憶體」,而係長上下文 attention 壓縮:資料顯示 V4 使用 hybrid attention,包含 Compressed Sparse Attention/CSA 同 Heavily Compressed Attention/HCA,用嚟壓縮 KV entries、減少 KV cache memory footprint 同 attention 計算開銷 [2]

  • NVIDIA 技術文章亦提到,CSA 會動態壓縮序列入面嘅 KV entries,再用 sparse attention 減少 attention matrices 嘅計算;HCA 就係更進取嘅壓縮版本 [2]

  • DeepSeek V4 論文摘要指,V4 為長上下文效率設計 hybrid attention,並保留 DeepSeekMoE 同 Multi-Token Prediction 等架構元素 [4]

  • 關於「98% 少用記憶體」:搜尋結果入面有一篇 LinkedIn 文章標題聲稱「DeepSeek Sparse Attention Shrinks KV Memory by 98 Percent」,但呢個係用戶生成內容,可信度低,唔應視為官方結論 [25]

  • 較保守嘅第三方解讀講法係「約 90% less KV cache at 1M tokens」,而唔係 98%;呢類資料仍屬第三方分析,可靠性低過官方技術文件 [13]

  • 另一篇新聞標題講「9.5x lower memory requirements」,換算大約係減少約 89.5%,亦唔等於 98%;而且仍需睇佢比較基準係邊個模型、邊種 context 長度、邊種 batch / serving 設定 [7]

  • 所以,最準確講法應該係:DeepSeek V4 透過 CSA/HCA、低精度儲存/計算、MoE 同 fused kernel 等方法,大幅降低長上下文推理時嘅 KV cache 壓力;但「少用 98% 記憶體」暫時證據不足,唔應當成官方事實 [2][4][25]

如果你要寫成短片/帖文標題,可以用較安全版本:

  • 「DeepSeek V4 點樣大幅壓縮 KV Cache?」
  • 「98% 少用記憶體?DeepSeek V4 真相係咩」
  • 「DeepSeek V4 嘅秘密唔係魔法,而係 CSA + HCA 壓縮 attention」

來源