DeepSeek V4 不应只被理解为「一个 1M 上下文模型」。更准确地说,它是一次模型与服务栈的组合发布:V4-Pro 和 V4-Flash 两个档位、公开标注的总参数/激活参数、百万 token 窗口,以及兼容 OpenAI/Anthropic 的 API 调用方式。[18][
20]
DeepSeek 透明中心将 V4.0 DeepSeek-V4 的发布日期列为 2026-04-24,并提供 Model Card 与 Technical Report 入口;官方公告称 DeepSeek-V4 Preview 已上线并同步开源。[22][
14][
15]
已确认规格:Pro 追求上限,Flash 追求效率
| 项目 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 公开规模 | 1.6T 总参数 / 49B 激活参数 [ | 284B 总参数 / 13B 激活参数 [ |
| 上下文窗口 | 最高 1M token [ | 最高 1M token [ |
| 产品定位 | V4 家族中最大的模型 [ | 面向更高速、更高效率的负载 [ |
| API 模型名 | deepseek-v4-pro [ | deepseek-v4-flash [ |
DeepSeek 的模型与价格页还列出,两个模型的最大输出长度为 384K,并支持 Json Output、Tool Calls 等功能。[17] 这些规格说明,V4 的工程重点并不是单纯把参数或上下文窗口做大,而是把能力档和效率档同时做成可调用产品。
MoE 的意义:容量和单次推理成本不再完全绑定
API 易与 HyperAI 等公开材料均将 V4-Pro 和 V4-Flash 描述为 Mixture-of-Experts(MoE)模型。[2][
4] 在 MoE 语境下,总参数更接近专家池容量,激活参数则表示一次推理中实际参与计算的子集;这解释了为什么 V4 的规格同时强调 total parameters 和 active parameters。[
1][
2][
4][
14]
这类设计的收益,是让模型容量与单次计算量部分解耦;代价是服务端必须处理专家路由、专家并行、通信和负载均衡等问题。SGLang / Miles 团队在 V4 发布后称已提供推理与 RL 训练支持,并表示其系统针对 V4 的 hybrid sparse-attention、mHC 和 FP4 expert weights 做了适配,说明难点已经延伸到 serving/training stack。[5]
1M token 上下文:真正的压力在服务端
NVIDIA 开发者材料把 V4-Pro 和 V4-Flash 定位为面向高效 million-token context inference 的模型,并点名长上下文代码、文档分析、检索和 agentic AI 工作流等场景。[1] DeepSeek API 文档也列出两者上下文长度为 1M。[
17]
对使用者来说,1M 上下文的直接价值是减少切片、拼接和检索遗漏;对服务端来说,它会放大注意力计算、上下文缓存、显存/带宽和吞吐调度压力。也因此,评价 V4 不能只看窗口数字,更应在真实的代码仓库、长文档、RAG 和 Agent 工具链中测试延迟、费用、长距离引用稳定性和工具调用表现。[1][
17]
注意力架构:方向清楚,术语仍要谨慎
围绕长上下文效率,公开材料的术语并不完全一致。API 易称 V4 的 1M 上下文由 Hybrid Attention 与 DSA sparse attention 支撑。[2] HyperAI 摘要写到 hybrid attention 结合 Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA),并提到 mHC。[
4] SGLang / Miles 则称其开源栈针对 hybrid sparse-attention、mHC 和 FP4 expert weights 做了适配。[
5]
稳妥的读法是:V4 生态材料普遍指向“稀疏/压缩/混合注意力 + 服务栈优化”这条路线;但具体模块名称、实现细节和效果幅度,不应只凭二级摘要或视频定论,最好回到 DeepSeek 透明中心列出的 Model Card 与 Technical Report 核对。[22]
API 落地:迁移成本被放进产品设计
DeepSeek 更新日志显示,API 已支持 V4-Pro 与 V4-Flash,并可通过 OpenAI ChatCompletions 接口和 Anthropic 接口调用;访问新模型时 base_url 不变,只需把 model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash。[18][
19] 官方首次调用文档列出的 base URL 分别是 OpenAI 格式的
https://api.deepseek.com 和 Anthropic 格式的 https://api.deepseek.com/anthropic。[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic旧模型名也有明确时间表:deepseek-chat 与 deepseek-reasoner 将于 2026-07-24 弃用;过渡期内,它们分别指向 deepseek-v4-flash 的非思考模式和思考模式。[18][
19][
21] 对已有应用来说,最先要做的是替换模型名、确认 Pro/Flash 选择,并对长上下文、Tool Calls、输出长度和成本做回归测试。[
17][
18]
哪些说法还需要独立验证
第一,性能领先幅度要谨慎。官方中文发布页称 V4-Pro 在 Agent、世界知识和推理能力上达到国内与开源领域领先,并给出与部分闭源模型的体验对比;API 易也列出 SWE-Verified 等 benchmark 分数。[15][
2] 这些可以作为发布方和生态方主张,但不同提示词、成本约束和业务任务下的表现仍应以独立复测为准。
第二,内部机制细节要分层看待。Hybrid Attention、DSA、CSA、HCA、mHC 和 FP4 expert weights 已出现在不同公开材料中,但来源层级和命名并不一致。[2][
4][
5] 在官方技术报告之外,把每个术语都当成已完全验证的实现事实并不稳妥。[
22]
第三,1M 上下文不自动等于所有满窗请求都低延迟、低成本。官方和生态材料能确认 V4 的规格方向与可调用性;真实服务表现仍取决于你的文档长度、缓存命中、并发量、工具调用链和评测标准。[1][
17][
18]
实用结论
DeepSeek V4 的“疯狂工程”在于组合:V4-Pro 的 1.6T/49B active、V4-Flash 的 284B/13B active、最高 1M token 上下文,以及 OpenAI/Anthropic 兼容 API 被放进同一个可调用产品线中。[1][
14][
17][
18] 对开发者来说,短期最实际的行动不是复述宣传语,而是用自己的长文档、代码库、RAG 与 Agent 工作流做端到端测试,并在 2026-07-24 前完成旧模型名迁移。[
18][
21]




