studioglobal
熱門發現
答案已發布9 來源

DeepSeek V4 и «98% экономии памяти»: что на самом деле подтверждают источники

В доступных официальных материалах DeepSeek нет подтверждения, что V4 требует на 98% меньше общей VRAM. Самая проверяемая сторонняя цифра — 10% KV cache относительно DeepSeek V3.2, то есть примерно 90% сокращения именно KV cache.

14K0
DeepSeek V4 與 KV cache 記憶體壓縮爭議的抽象示意圖
DeepSeek V4 少用 98% 記憶體?先看 KV Cache 證據DeepSeek V4 的可靠證據指向長上下文 KV cache 壓縮;「整體記憶體少用 98%」仍未見官方確認。
AI 提示

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 少用 98% 記憶體?先看 KV Cache 證據. Article summary: 未見 DeepSeek 官方資料證實 V4 整體 VRAM 少用 98%;可核對的是 V4 Preview 於 2026/04/24 發布,架構重點是 CSA/HCA 等 Hybrid Attention 壓縮長上下文 KV cache,而不是同幅降低所有記憶體成本 [5][13][14]。. Topic tags: deepseek, ai, llm, ai infrastructure, gpu. Reference image context from search candidates: Reference image 1: visual subject "# 新浪看点. # DeepSeek V4报告太详尽了!484天换代之路全公开. > ## henry 发自 凹非寺量子位 | 公众号 QbitAI. DeepSeek V4“迟到”半年,但发布后的好评如潮还在如潮。. V4-Pro和V4-Flash,**1.6万亿参数/2840亿参数**,**上下文都是1M**。1M场景下,V4-Pro的单token FL" source context "DeepSeek V4报告太详尽了!484天换代之路全公开|人工智能深度|技术迭代复盘|Token|DeepSeek-V4|大模型技术报告_新浪新闻" Reference image 2: visual subject "1M token 上下文设置下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV Cache 仅为 V3.2 的 10%;V4-Flash 更激进——FLOPs 10%、KV Cache 7%。百万上下文从演示用 demo,变成了可以日常跑的工作负载。. DeepSeek-V4 想解

openai.com

Фраза «DeepSeek V4 использует на 98% меньше памяти» звучит как готовый аргумент для закупки GPU. Но именно здесь легко перепутать разные вещи: сжатие KV cache и общую потребность модели во VRAM. По открытым источникам более надёжный вывод уже, но важнее: DeepSeek V4 действительно оптимизирует длинноконтекстный инференс, снижая размер KV cache и стоимость attention; однако публичные документы не подтверждают, что вся видеопамять при развёртывании модели уменьшается на 98% [5][13][14].

Самая безопасная формулировка

Корректнее говорить так:

DeepSeek V4 использует Hybrid Attention, Compressed Sparse Attention и Heavily Compressed Attention, чтобы заметно уменьшить давление KV cache при длинном контексте. Но имеющихся данных недостаточно, чтобы утверждать: вся VRAM для развёртывания модели сокращается на 98% [13][14].

Разница принципиальная. KV cache — это кэш ключей и значений, который нужен трансформерной модели при генерации, чтобы не пересчитывать заново прошлый контекст. В длинных документах, многоходовых диалогах и агентных сценариях он может стать одним из главных потребителей памяти. Но он не равен всей памяти, которую занимает модель и обслуживающий стек.

Что подтверждают официальные материалы

На странице новостей API DeepSeek указано, что DeepSeek-V4 Preview вышел 24 апреля 2026 года [5]. Модельная карта DeepSeek V4 перечисляет две версии — DeepSeek-V4-Pro и DeepSeek-V4-Flash — и описывает V4 как серию языковых моделей Mixture-of-Experts, то есть MoE. В ней также сказано, что V4 сохраняет DeepSeekMoE framework и стратегию Multi-Token Prediction, но добавляет архитектурные изменения, включая Hybrid Attention Architecture [14].

Самое важное для темы памяти — то, как V4 работает с attention на длинном контексте. В технической статье NVIDIA говорится, что Compressed Sparse Attention использует dynamic sequence compression для сжатия KV entries и уменьшения footprint KV cache, а затем применяет DeepSeek Sparse Attention для разреживания attention matrices и снижения вычислительных затрат. Heavily Compressed Attention идёт дальше: объединяет KV entries для групп токенов в одну сжатую запись, что ещё сильнее уменьшает размер KV cache [13].

Иными словами, документы прямо поддерживают тезис: DeepSeek V4 оптимизирует KV cache и вычисления attention. Но это не то же самое, что официальное обещание снизить всю VRAM на тот же процент.

98%, 90% и 9,5× — это разные утверждения

Цифра 98% в доступных материалах наиболее явно встречается в пользовательской статье LinkedIn с заголовком о том, что DeepSeek Sparse Attention сокращает KV memory на 98% в реальном serving [21]. Такой источник можно использовать как повод для проверки слуха, но не как официальную спецификацию DeepSeek.

Более внятная сторонняя цифра — 10% KV cache. Wccftech пишет, что по сравнению с DeepSeek V3.2 модель DeepSeek V4 требует 27% single-token inference FLOPs и 10% key-value cache [20]. Если читать это буквально, речь идёт примерно о 90-процентном сокращении KV cache относительно V3.2. Но это всё равно не означает, что на 90% уменьшается вся VRAM при любых длинах контекста, batch size, настройках concurrency и конфигурациях железа [20].

Есть и заголовок gHacks про 9,5× lower memory requirements [3]. Даже простая арифметика даёт здесь около 10,5% оставшейся потребности, то есть примерно 89,5% сокращения, а не 98%. Кроме того, без уточнения области сравнения непонятно, имеется ли в виду KV cache, конкретный длинноконтекстный сценарий или полное развёртывание модели [3].

ФормулировкаСтатус доказательствКак читать аккуратно
Вся VRAM меньше на 98%Официального подтверждения в доступных материалах нетНе стоит вносить в закупочные требования, capacity planning или маркетинговые обещания [5][14][21]
KV cache сильно сжатПоддерживается техническими описаниямиCSA и HCA сжимают KV entries и уменьшают KV cache в длинном контексте [13]
10% KV cacheСторонний материал с конкретным сравнениемМожно понимать как примерно 90% сокращения KV cache относительно V3.2, но не всей VRAM [20]
9,5× lower memoryНовостной заголовокПримерно 89,5% сокращения при прямом пересчёте, но область сравнения нужно проверять [3]

Почему KV cache — это не вся видеопамять

Для длинного контекста KV cache действительно критичен. Hugging Face объясняет это на примере агентных задач: результаты инструментов постоянно добавляются в context, а каждый следующий токен платит attention cost по всё более длинной истории; поэтому важны два числа — single-token inference FLOPs и размер KV cache, и оба растут с длиной sequence [17]. В GitHub-версии того же материала типичные сбои длинных агентных задач описаны практично: trace выходит за context budget, KV cache заполняет GPU или круги tool-call начинают тормозить выполнение [22].

Но при полном развёртывании LLM видеопамять расходуется не только на KV cache. Даже статья LinkedIn, где фигурирует 98%, отдельно перечисляет shared weights, expert weights, activations, KV cache и framework overhead [21]. Это как раз показывает, почему планирование памяти нельзя сводить к одному проценту: если KV cache в конкретном длинном контексте сильно сократился, из этого ещё не следует, что вся serving-система стала требовать на столько же меньше VRAM.

CSA/HCA — серьёзная инженерия, но не магическое число

Архитектурная идея DeepSeek V4 заслуживает внимания именно потому, что бьёт по одному из самых дорогих мест длинноконтекстного инференса: attention и хранению KV cache. По описанию NVIDIA, V4 снижает нагрузку через сжатие KV entries, разреживание attention matrices и объединение KV entries для нескольких наборов токенов в одну compressed entry [13].

Технический отчёт DeepSeek V4 также упоминает инфраструктурные оптимизации для обучения и инференса: например, single fused kernel для MoE modules, который перекрывает computation, communication и memory access [2]. Это важные улучшения эффективности. Но они всё равно не являются доказательством формулы «минус 98% всей VRAM».

Что проверять перед внедрением

Если вы оцениваете DeepSeek V4 для длинных документов, юридических или технических баз, многоходовых чатов или agent workflow, главный вопрос не в красивом числе 98%. Важно понять, где именно у вас узкое место. Если workload упирается в KV cache на длинном контексте, механизмы CSA/HCA могут быть очень полезны [13][17][22].

Для практической оценки нужны собственные тесты: длина context, batch size, concurrency, serving engine, схема квантизации и конкретные GPU могут заметно менять картину. Если ограничение находится в весах модели, activations, overhead фреймворка или стратегии параллелизма, сокращение KV cache не превратится автоматически в такое же сокращение общей VRAM [13][21][22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • В доступных официальных материалах DeepSeek нет подтверждения, что V4 требует на 98% меньше общей VRAM.
  • Самая проверяемая сторонняя цифра — 10% KV cache относительно DeepSeek V3.2, то есть примерно 90% сокращения именно KV cache.

人們還問

「DeepSeek V4 и «98% экономии памяти»: что на самом деле подтверждают источники」的簡短答案是什麼?

В доступных официальных материалах DeepSeek нет подтверждения, что V4 требует на 98% меньше общей VRAM.

首先要驗證的關鍵點是什麼?

В доступных официальных материалах DeepSeek нет подтверждения, что V4 требует на 98% меньше общей VRAM. Самая проверяемая сторонняя цифра — 10% KV cache относительно DeepSeek V3.2, то есть примерно 90% сокращения именно KV cache.

接下來我應該探索哪個相關主題?

繼續“Claude Security 公測版:Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「xAI Grok 4.3 API 解讀:1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

搜尋更多關於 DeepSeek V4 嘅秘密:記憶體少用 98% 嘅資料。

Studio Global AI30 來源

引用的答案

我搵到嘅重點係:DeepSeek V4「記憶體少用 98%」呢個講法未見到由 DeepSeek 官方文件直接確認;較可靠資料只支持「大幅減少 KV cache / 長上下文記憶體」呢個方向,而 98% 似乎主要來自第三方或社交平台分析,證據不足。

  • DeepSeek 官方 API 文件顯示,DeepSeek-V4 Preview 於 2026-04-24 發布,型號包括 V4-Pro 同 V4-Flash [10]

  • DeepSeek V4 技術文件/模型卡顯示,V4 包括 DeepSeek-V4-Pro、DeepSeek-V4-Flash,發布日期為 2026-04-24,模型卡發布/更新日期亦喺 2026 年 4 月底 [3]

  • 技術核心唔係「神秘記憶體」,而係長上下文 attention 壓縮:資料顯示 V4 使用 hybrid attention,包含 Compressed Sparse Attention/CSA 同 Heavily Compressed Attention/HCA,用嚟壓縮 KV entries、減少 KV cache memory footprint 同 attention 計算開銷 [2]

  • NVIDIA 技術文章亦提到,CSA 會動態壓縮序列入面嘅 KV entries,再用 sparse attention 減少 attention matrices 嘅計算;HCA 就係更進取嘅壓縮版本 [2]

  • DeepSeek V4 論文摘要指,V4 為長上下文效率設計 hybrid attention,並保留 DeepSeekMoE 同 Multi-Token Prediction 等架構元素 [4]

  • 關於「98% 少用記憶體」:搜尋結果入面有一篇 LinkedIn 文章標題聲稱「DeepSeek Sparse Attention Shrinks KV Memory by 98 Percent」,但呢個係用戶生成內容,可信度低,唔應視為官方結論 [25]

  • 較保守嘅第三方解讀講法係「約 90% less KV cache at 1M tokens」,而唔係 98%;呢類資料仍屬第三方分析,可靠性低過官方技術文件 [13]

  • 另一篇新聞標題講「9.5x lower memory requirements」,換算大約係減少約 89.5%,亦唔等於 98%;而且仍需睇佢比較基準係邊個模型、邊種 context 長度、邊種 batch / serving 設定 [7]

  • 所以,最準確講法應該係:DeepSeek V4 透過 CSA/HCA、低精度儲存/計算、MoE 同 fused kernel 等方法,大幅降低長上下文推理時嘅 KV cache 壓力;但「少用 98% 記憶體」暫時證據不足,唔應當成官方事實 [2][4][25]

如果你要寫成短片/帖文標題,可以用較安全版本:

  • 「DeepSeek V4 點樣大幅壓縮 KV Cache?」
  • 「98% 少用記憶體?DeepSeek V4 真相係咩」
  • 「DeepSeek V4 嘅秘密唔係魔法,而係 CSA + HCA 壓縮 attention」

來源