DeepSeek V4 的“疯狂”在系统组合:2026 年 4 月 24 日发布的 V4 Pro(1.6T/49B active)和 V4 Flash(284B/13B active)都支持最高 1M token 上下文;规格与 API 可核查,但性能领先幅度和部分内部机制仍需独立复测。 开发者要先改模型名:deepseek v4 pro 或 deepseek v4 flash;旧 deepseek chat 与 deepseek reasoner 计划在 2026 07 24 弃用。

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 工程解析:1M 上下文背后的 MoE 与 API 落地. Article summary: DeepSeek V4 的核心是系统工程组合:2026 04 24 发布的 V4 Pro(1.6T/49B active)与 V4 Flash(284B/13B active)都面向 1M token 上下文;可靠事实是规格和 API 已公开,性能领先幅度与部分内部机制仍需独立验证。. Topic tags: ai, deepseek, llm, mixture of experts, long context. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" source context "DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底 - iTech - 博客园" Reference image 2: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" sour
DeepSeek V4 不应只被理解为「一个 1M 上下文模型」。更准确地说,它是一次模型与服务栈的组合发布:V4-Pro 和 V4-Flash 两个档位、公开标注的总参数/激活参数、百万 token 窗口,以及兼容 OpenAI/Anthropic 的 API 调用方式。[18][
20]
DeepSeek 透明中心将 V4.0 DeepSeek-V4 的发布日期列为 2026-04-24,并提供 Model Card 与 Technical Report 入口;官方公告称 DeepSeek-V4 Preview 已上线并同步开源。[22][
14][
15]
| 项目 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 公开规模 | 1.6T 总参数 / 49B 激活参数 [ |
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
DeepSeek V4 的“疯狂”在系统组合:2026 年 4 月 24 日发布的 V4 Pro(1.6T/49B active)和 V4 Flash(284B/13B active)都支持最高 1M token 上下文;规格与 API 可核查,但性能领先幅度和部分内部机制仍需独立复测。
DeepSeek V4 的“疯狂”在系统组合:2026 年 4 月 24 日发布的 V4 Pro(1.6T/49B active)和 V4 Flash(284B/13B active)都支持最高 1M token 上下文;规格与 API 可核查,但性能领先幅度和部分内部机制仍需独立复测。 开发者要先改模型名:deepseek v4 pro 或 deepseek v4 flash;旧 deepseek chat 与 deepseek reasoner 计划在 2026 07 24 弃用。
评估重点不只是能否塞满 1M token,而是长文档、代码库、RAG 和 Agent 场景下的延迟、成本、检索稳定性和工具调用表现。
继续“香港警务备考指南:廉署、警权与问责,一次串清”以获得另一个角度和额外的引用。
Open related page对照“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”交叉检查此答案。
Open related pageDeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference. DeepSeek-V4-Pro is the largest model in the family, with 1.6T total param...
- Two models launched : deepseek-v4-pro (1.6T total / 49B active) and deepseek-v4-flash (284B total / 13B active), both MoE - 1M context : Full 1,000,000-token context across the family, powered by a new Hybrid Attention architecture + DSA sparse attention...
We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context l...
- HiSparse: Turbocharging Sparse Attention with Hierarchical Memory ... The SGLang and Miles TeamApril 25, 2026 We are thrilled to announce Day-0 support for DeepSeek-V4 across both inference and RL training. SGLang and Miles form the first open-source stac...
| 284B 总参数 / 13B 激活参数 [ |
| 上下文窗口 | 最高 1M token [ | 最高 1M token [ |
| 产品定位 | V4 家族中最大的模型 [ | 面向更高速、更高效率的负载 [ |
| API 模型名 | deepseek-v4-pro [ | deepseek-v4-flash [ |
DeepSeek 的模型与价格页还列出,两个模型的最大输出长度为 384K,并支持 Json Output、Tool Calls 等功能。[17] 这些规格说明,V4 的工程重点并不是单纯把参数或上下文窗口做大,而是把能力档和效率档同时做成可调用产品。
API 易与 HyperAI 等公开材料均将 V4-Pro 和 V4-Flash 描述为 Mixture-of-Experts(MoE)模型。[2][
4] 在 MoE 语境下,总参数更接近专家池容量,激活参数则表示一次推理中实际参与计算的子集;这解释了为什么 V4 的规格同时强调 total parameters 和 active parameters。[
1][
2][
4][
14]
这类设计的收益,是让模型容量与单次计算量部分解耦;代价是服务端必须处理专家路由、专家并行、通信和负载均衡等问题。SGLang / Miles 团队在 V4 发布后称已提供推理与 RL 训练支持,并表示其系统针对 V4 的 hybrid sparse-attention、mHC 和 FP4 expert weights 做了适配,说明难点已经延伸到 serving/training stack。[5]
NVIDIA 开发者材料把 V4-Pro 和 V4-Flash 定位为面向高效 million-token context inference 的模型,并点名长上下文代码、文档分析、检索和 agentic AI 工作流等场景。[1] DeepSeek API 文档也列出两者上下文长度为 1M。[
17]
对使用者来说,1M 上下文的直接价值是减少切片、拼接和检索遗漏;对服务端来说,它会放大注意力计算、上下文缓存、显存/带宽和吞吐调度压力。也因此,评价 V4 不能只看窗口数字,更应在真实的代码仓库、长文档、RAG 和 Agent 工具链中测试延迟、费用、长距离引用稳定性和工具调用表现。[1][
17]
围绕长上下文效率,公开材料的术语并不完全一致。API 易称 V4 的 1M 上下文由 Hybrid Attention 与 DSA sparse attention 支撑。[2] HyperAI 摘要写到 hybrid attention 结合 Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA),并提到 mHC。[
4] SGLang / Miles 则称其开源栈针对 hybrid sparse-attention、mHC 和 FP4 expert weights 做了适配。[
5]
稳妥的读法是:V4 生态材料普遍指向“稀疏/压缩/混合注意力 + 服务栈优化”这条路线;但具体模块名称、实现细节和效果幅度,不应只凭二级摘要或视频定论,最好回到 DeepSeek 透明中心列出的 Model Card 与 Technical Report 核对。[22]
DeepSeek 更新日志显示,API 已支持 V4-Pro 与 V4-Flash,并可通过 OpenAI ChatCompletions 接口和 Anthropic 接口调用;访问新模型时 base_url 不变,只需把 model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash。[18][
19] 官方首次调用文档列出的 base URL 分别是 OpenAI 格式的
https://api.deepseek.com 和 Anthropic 格式的 https://api.deepseek.com/anthropic。[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic旧模型名也有明确时间表:deepseek-chat 与 deepseek-reasoner 将于 2026-07-24 弃用;过渡期内,它们分别指向 deepseek-v4-flash 的非思考模式和思考模式。[18][
19][
21] 对已有应用来说,最先要做的是替换模型名、确认 Pro/Flash 选择,并对长上下文、Tool Calls、输出长度和成本做回归测试。[
17][
18]
第一,性能领先幅度要谨慎。官方中文发布页称 V4-Pro 在 Agent、世界知识和推理能力上达到国内与开源领域领先,并给出与部分闭源模型的体验对比;API 易也列出 SWE-Verified 等 benchmark 分数。[15][
2] 这些可以作为发布方和生态方主张,但不同提示词、成本约束和业务任务下的表现仍应以独立复测为准。
第二,内部机制细节要分层看待。Hybrid Attention、DSA、CSA、HCA、mHC 和 FP4 expert weights 已出现在不同公开材料中,但来源层级和命名并不一致。[2][
4][
5] 在官方技术报告之外,把每个术语都当成已完全验证的实现事实并不稳妥。[
22]
第三,1M 上下文不自动等于所有满窗请求都低延迟、低成本。官方和生态材料能确认 V4 的规格方向与可调用性;真实服务表现仍取决于你的文档长度、缓存命中、并发量、工具调用链和评测标准。[1][
17][
18]
DeepSeek V4 的“疯狂工程”在于组合:V4-Pro 的 1.6T/49B active、V4-Flash 的 284B/13B active、最高 1M token 上下文,以及 OpenAI/Anthropic 兼容 API 被放进同一个可调用产品线中。[1][
14][
17][
18] 对开发者来说,短期最实际的行动不是复述宣传语,而是用自己的长文档、代码库、RAG 与 Agent 工作流做端到端测试,并在 2026-07-24 前完成旧模型名迁移。[
18][
21]
DeepSeek V4 Preview Release 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. Performance rivaling the world's top closed-source models. 🔹 D...
DeepSeek-V4 预览版:迈入百万上下文普惠时代 今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。 DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本: 即日起登录官网 chat.deepseek.com 或官方App,即可与最新的 DeepSeek-V4 对话,探索 1M 超长上下文记忆的全新体验。API 服务已同步更新,通过修改 model name 为 deepseek-v4-pr...
模型细节 模型 模型 deepseek-v4-flash^(1)^ deepseek-v4-pro -- -- -- -- BASE URL (OpenAI 格式) BASE URL (OpenAI 格式) BASE URL (Anthropic 格式) BASE URL (Anthropic 格式) 模型版本 模型版本 DeepSeek-V4-Flash DeepSeek-V4-Pro 思考模式 思考模式 支持非思考与思考模式(默认) 切换方式详见思考模式 支持非思考与思考模式(默认) 切换方式详见思考...
时间: 2026-04-24 DeepSeek-V4 DeepSeek API 已支持 V4-Pro 与 V4-Flash,支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时,base url 不变, model 参数需要改为 或 旧有的 API 接口的两个模型名 与 将于三个月后(2026-07-24)停止使用。当前阶段内,这两个模型名分别 指向 的非思考模式与思考模式。 ... 我们非正式部署了 DeepSeek-V3.2-Speciale 的 API...
Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the base url remains unchanged, and the model parameter should b...
Your First API Call The DeepSeek API uses an API format compatible with OpenAI/Anthropic. By modifying the configuration, you can use the OpenAI/Anthropic SDK or softwares compatible with the OpenAI/Anthropic API to access the DeepSeek API. PARAM VALUE -- -...
DeepSeek API 使用与 OpenAI/Anthropic 兼容的 API 格式,通过修改配置,您可以使用 OpenAI/Anthropic SDK 来访问 DeepSeek API,或使用与 OpenAI/Anthropic API 兼容的软件。 PARAM VALUE -- -- base url (OpenAI) base url (Anthropic) api key apply for an API key model (将于 2026/07/24 弃用) (将于 2026/07/24 弃用...
Learn about DeepSeek's published models Model Principles and Training Methodology View Details V4.0DeepSeek-V4New Release Date April 24, 2026 Model CardTechnical ReportV3.2DeepSeek-V3.2 Release Date December 1, 2025 Model CardTechnical Report