| 284B общих параметров / 13B активных параметров |
| Контекстное окно | До 1M токенов | До 1M токенов |
| Позиционирование | Самая крупная модель семейства V4 | Вариант для более быстрых и эффективных нагрузок |
| Имя модели в API | deepseek-v4-pro | deepseek-v4-flash |
В документации DeepSeek по моделям и ценам также указано, что у обеих моделей максимальная длина вывода составляет 384K, а среди поддерживаемых функций есть Json Output и Tool Calls. Поэтому главный инженерный смысл V4 — не просто «сделать больше параметров» или «растянуть окно», а упаковать разные уровни возможностей и эффективности в вызываемые через API продукты.
API易 и HyperAI описывают V4-Pro и V4-Flash как модели Mixture-of-Experts, то есть MoE. В такой архитектуре общий размер параметров ближе к ёмкости «пула экспертов», а активные параметры показывают, какая часть модели реально участвует в вычислении одного прохода. Это объясняет, почему в спецификациях V4 отдельно подчёркиваются total parameters и active parameters.
Практический выигрыш MoE — частичное разделение общей ёмкости модели и стоимости одного инференса. Но у этого есть оборотная сторона: серверная часть должна справляться с маршрутизацией к экспертам, экспертным параллелизмом, обменом данными и балансировкой нагрузки. Команда SGLang / Miles после релиза V4 заявила о поддержке инференса и RL-обучения, а также указала, что её стек адаптирован под hybrid sparse-attention, mHC и FP4 expert weights для V4. Это важный сигнал: сложность релиза лежит не только в самой модели, но и в serving/training stack.
Материалы NVIDIA для разработчиков позиционируют V4-Pro и V4-Flash как модели для эффективного инференса с контекстом на миллион токенов и называют среди сценариев длинноконтекстное программирование, анализ документов, retrieval и agentic AI workflows. Документация DeepSeek API также указывает для обеих моделей длину контекста 1M.
Для пользователя ценность длинного окна понятна: меньше нарезки документов, меньше ручной склейки фрагментов, меньше риска потерять важную часть контекста. Для сервера же миллион токенов резко усиливает нагрузку на attention-вычисления, кэш контекста, видеопамять, пропускную способность и планирование очередей. Поэтому оценивать V4 только по числу «1M» нельзя. В реальных задачах нужно проверять задержку, стоимость, устойчивость дальних ссылок в контексте и работу Tool Calls на собственных репозиториях кода, длинных документах, RAG-пайплайнах и agent-сценариях.
Вокруг эффективности длинного контекста публичные источники используют не полностью совпадающую терминологию. API易 пишет, что 1M-контекст V4 поддерживается Hybrid Attention и DSA sparse attention. В резюме HyperAI говорится о hybrid attention, объединяющем Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA), а также упоминается mHC.
SGLang / Miles, в свою очередь, пишет об адаптации открытого стека под hybrid sparse-attention, mHC и FP4 expert weights.
Самая осторожная интерпретация такая: материалы экосистемы V4 в целом указывают на путь «разреженное/сжатое/гибридное внимание плюс оптимизация сервисного стека». Но конкретные названия модулей, детали реализации и масштаб выигрыша не стоит считать окончательно подтверждёнными только по вторичным резюме или видео. Лучше сверяться с Model Card и Technical Report, на которые ссылается Transparency Center DeepSeek.
В changelog DeepSeek сказано, что API уже поддерживает V4-Pro и V4-Flash через OpenAI ChatCompletions и Anthropic-совместимый интерфейс. Для доступа к новым моделям base_url не меняется — нужно заменить только параметр model на deepseek-v4-pro или deepseek-v4-flash. В документации первого API-вызова указаны базовые адреса: для OpenAI-формата —
https://api.deepseek.com, для Anthropic-формата — https://api.deepseek.com/anthropic.
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicУ старых имён моделей есть конкретный дедлайн: deepseek-chat и deepseek-reasoner должны быть прекращены 24 июля 2026 года; в переходный период они соответственно указывают на неразмышляющий и размышляющий режимы deepseek-v4-flash. Для уже работающих приложений первый шаг — заменить имя модели, выбрать между Pro и Flash, а затем прогнать регрессионные тесты по длинному контексту, Tool Calls, максимальной длине вывода и стоимости.
Во-первых, к заявлениям о лидерстве в производительности стоит относиться аккуратно. Официальная китайская страница релиза утверждает, что V4-Pro лидирует в Китае и в open-source-сегменте по Agent-возможностям, мировым знаниям и reasoning, а также приводит сравнения пользовательского опыта с частью закрытых моделей; API易, со своей стороны, публикует benchmark-результаты, включая SWE-Verified. Это полезные заявления релизной стороны и экосистемы, но в разных промптах, бюджетах и бизнес-задачах итог всё равно нужно проверять независимыми тестами.
Во-вторых, детали внутренних механизмов стоит разделять по уровню источников. Hybrid Attention, DSA, CSA, HCA, mHC и FP4 expert weights встречаются в разных публичных материалах, но происхождение этих сведений и терминология не везде одинаковы. За пределами официального технического отчёта не стоит воспринимать каждый термин как полностью проверенный факт реализации.
В-третьих, 1M контекста не означает автоматически, что любой запрос на полном окне будет дешёвым и быстрым. Официальные и экосистемные материалы подтверждают направление спецификаций и доступность API; реальное поведение будет зависеть от длины документов, попаданий в кэш, параллелизма, цепочки вызовов инструментов и ваших критериев оценки.
Инженерная «безумность» DeepSeek V4 — в комбинации: V4-Pro с 1,6T/49B active, V4-Flash с 284B/13B active, контекст до 1M токенов и совместимый с OpenAI/Anthropic API собраны в одну вызываемую продуктовую линейку. Для разработчиков самый полезный следующий шаг — не пересказывать маркетинговые формулы, а прогнать V4 на собственных длинных документах, кодовых базах, RAG и Agent-процессах, а также завершить переход со старых имён моделей до 24 июля 2026 года.
Comments
0 comments