DeepSeek V4 Preview 看起来是一次很有分量的更新,但对工程团队来说,正确问题不是“V4 是否一定比 V3.2 好”,而是“它是否值得替换你现在线上的默认模型”。结合 DeepSeek 的 V4 Preview、V3.2 发布说明和 API 文档,真正影响升级决策的主要是五件事:上下文长度、模型分线、agentic coding、benchmark 的解读方式,以及 API alias 的迁移计划。[3][
16][
23]
一图看懂:V4 Preview 与 V3.2 差在哪里?
| 对比项 | DeepSeek V3.2 | DeepSeek V4 Preview | 升级时的含义 |
|---|---|---|---|
| 发布状态 | DeepSeek-V3.2 出现在 2025年12月1日的 release 中。[ | DeepSeek-V4 出现在 2026年4月24日的 changelog,并有独立的 Preview Release 页面。[ | V4 更新,但仍应按 preview 版本先验证,不宜直接替换生产默认值。 |
| 产品重点 | V3.2 发布说明强调 reasoning、thinking 与面向 agent 的 tool-use。[ | V4 强调 1M token 上下文、V4-Pro/V4-Flash 两条线以及 agentic coding。[ | 对大型代码库、长文档和多步骤 agent 更值得测试。 |
| 长上下文 | DeepSeek-V3.2-Exp 曾引入 DeepSeek Sparse Attention,用于提升长上下文训练和推理效率。[ | V4 Preview 将 1M token context 作为核心卖点。[ | 如果一次调用要放入大量资料,这是最直接的变化。 |
| 模型分线 | Changelog 列出 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。[ | V4 分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。[ | 更方便在“高质量”和“高效率”之间做 A/B 测试。 |
| API 影响 | API 文档称 deepseek-chat 和 deepseek-reasoner 对应 DeepSeek-V3.2。[ | V4 Preview 称这两个 alias 当前路由到 deepseek-v4-flash,并将在 2026年7月24日15:59(UTC)后停用。[ | 不要长期依赖旧 alias,生产系统要尽早迁移到明确的模型 ID。 |
1. 1M token 上下文:最容易感知的升级点
V4 Preview 最醒目的变化,是把 context window 提到 1M token。[3] 对普通聊天来说,这未必每天都用得上;但对研发场景就很关键,比如一次性读取多个仓库文件、长篇技术文档、系统日志、漫长对话历史,或让 agent 连续执行多步任务。
不过,长上下文并不是从 V4 才开始。DeepSeek-V3.2-Exp 已经引入 DeepSeek Sparse Attention,官方描述是让长上下文训练和推理更快、更高效。[20] 更准确的理解是:V3.2-Exp 是这条路线上的重要实验分支,而 V4 Preview 把长上下文提升为新一代模型的中心能力之一。[
3][
20]
2. V4-Pro 与 V4-Flash:把“更强”和“更省”分开评估
在 V3.2 时代,DeepSeek 的 changelog 列出 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。[22] 到 V4 Preview,官方改为 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两个分支。[
3]
按 V4 Preview 页面给出的规格,V4-Pro 为 1.6T 总参数、49B active parameters;V4-Flash 为 284B 总参数、13B active parameters。[3] 这给工程评测一个更清晰的路线:复杂推理、难代码任务可优先试 V4-Pro;大并发、多请求、对延迟和成本敏感的场景,则应重点测 V4-Flash。
但别只看名字做决定。更稳妥的做法,是用同一批 prompt、同一套数据、相同 token 限制和一致的评分标准,把 V3.2、V4-Flash、V4-Pro 同时跑一遍,再决定默认模型。
3. Agentic coding:不是“能不能写代码”,而是能否完成多步工作流
V3.2 已经是面向 agent 的重要版本,发布说明强调 thinking 与 tool-use 的结合。[16] 换句话说,它不只是回答单轮问题,也面向“先推理、再调用工具、读取结果、继续处理”的流程。
V4 Preview 沿着这个方向继续推进,并把 agentic coding 放到更显眼的位置:模型需要理解代码上下文、规划修改、跨文件推理,并在多步骤中协同完成任务,而不只是生成一小段函数。[3]
所以差异不是“V3.2 不会做 agent,V4 才会”。更合理的说法是:V3.2 打下了 reasoning 与 tool-use 的基础;V4 Preview 试图把这条路线扩展到更长上下文的 coding agent 工作流。[3][
16]
4. Benchmark 可以参考,但不能替代你自己的回归测试
DeepSeek 在 V3.2 Release 和 V4 Preview Release 中都公布了性能定位和 benchmark 信息。[3][
16] 官方之外,Sebastian Raschka 对 DeepSeek 从 V3 到 V3.2 的技术分析也认为,V3.2 因性能表现和 open-weight 版本而值得关注。[
1]
需要留个心眼的是,当前可用材料主要是 release note、API 文档和基于公开信息的技术分析。它们适合判断技术方向,却不能替代你自己业务负载上的内部 benchmark。[3][
16][
23]
上线前真正要问的是:在你的 prompt、你的数据、你的 token 预算、你的延迟 SLA 和你的质量评估标准下,哪个模型更好。如果这些还没测,V4 Preview 应被看作强候选,而不是“开箱即换”的生产默认项。
5. API alias 退役:这是最容易被低估的风险
V4 Preview 还带来一个很实际的 API 变化。DeepSeek 表示,deepseek-chat 和 deepseek-reasoner 当前分别以 non-thinking 和 thinking 模式路由到 deepseek-v4-flash,并将在 2026年7月24日15:59(UTC)之后完全退役、无法访问。[3]
这点之所以重要,是因为此前 API 文档写明 deepseek-chat 与 deepseek-reasoner 对应 DeepSeek-V3.2。[23] 如果你的生产系统调用的是 alias,而不是明确的模型 ID,模型行为就可能在你没有主动变更代码的情况下发生变化。
集成层面,DeepSeek API 文档称其 API 采用兼容 OpenAI 的格式,可通过调整 endpoint 配置使用 OpenAI SDK 或兼容 OpenAI API 的软件访问 DeepSeek API。[23] DeepSeek 还提供 Anthropic API compatibility 文档,并列出
max_tokens、stream、system、temperature、thinking 等字段的支持状态。[13]
一个务实的迁移清单如下:
- 扫描代码库、配置和密钥管理,确认是否还在调用
deepseek-chat、deepseek-reasoner或只使用 alias。[3]
- 如果工作流依赖 reasoning,分别在 thinking 与 non-thinking 模式下重跑关键 prompt。[
3]
- 用真实数据重新测延迟、成本、错误率、超时率和答案质量。
- 在 2026年7月24日15:59(UTC)前迁出旧 alias。[
3]
- 如果使用 OpenAI 或 Anthropic 兼容层,逐项核对字段支持情况。[
13][
23]
到底要不要从 V3.2 升级到 V4?
如果你需要超长上下文、正在做 coding agent、想用 V4-Pro 挑战高难任务,或希望用 V4-Flash 测试高吞吐场景,V4 Preview 很值得进入评测队列。[3]
如果现有 pipeline 已经稳定、暂时不需要 1M token context,或者生产环境还没做完内部 benchmark,那么把 V3.2 继续作为 baseline 也很合理。[16]
一句话总结:V3.2 的关键词是 reasoning 与 tool-use;V4 Preview 的关键词是长上下文、Pro/Flash 分线和 agentic coding。[3][
16] 对工程团队来说,模型质量之外,还要把 API alias 迁移排进计划表,别等到停用日期临近才发现线上调用路径还没改。[
3]




