studioglobal
トレンドを発見する
レポート公開済み12 ソース

DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点

DeepSeek V4の特徴は、V4 ProとV4 Flashの2段構成、MoE、最大100万トークンのコンテキスト、OpenAI/Anthropic互換APIをまとめて提供している点にある。 開発者はまずモデル名をdeepseek v4 proまたはdeepseek v4 flashへ切り替える必要がある。deepseek chatとdeepseek reasonerは2026年7月24日に廃止予定。

11K0
DeepSeek V4 工程架构示意图,包含 1M 上下文、MoE 专家路由和 API 服务化元素
DeepSeek V4 工程解析:1M 上下文背后的 MoE 与 API 落地AI 生成的 DeepSeek V4 工程示意图,表现百万 token 上下文、MoE 专家路由与 API 服务化。
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 工程解析:1M 上下文背后的 MoE 与 API 落地. Article summary: DeepSeek V4 的核心是系统工程组合:2026 04 24 发布的 V4 Pro(1.6T/49B active)与 V4 Flash(284B/13B active)都面向 1M token 上下文;可靠事实是规格和 API 已公开,性能领先幅度与部分内部机制仍需独立验证。. Topic tags: ai, deepseek, llm, mixture of experts, long context. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" source context "DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底 - iTech - 博客园" Reference image 2: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" sour

openai.com

DeepSeek V4は、単に「100万トークンのコンテキストを扱えるモデル」と見るだけでは足りません。実態としては、V4-ProとV4-Flashという2つのグレード、公開された総パラメータ数/活性化パラメータ数、最大1M tokenの文脈長、そしてOpenAI/Anthropic互換のAPI呼び出しを組み合わせた、モデルとサービス基盤の同時リリースです。[18][20]

DeepSeekのTransparency Centerは、V4.0 DeepSeek-V4のリリース日を2026年4月24日とし、Model CardとTechnical Reportへの導線を掲載しています。公式告知でも、DeepSeek-V4 Previewが公開され、同時にオープンソース化されたと説明されています。[22][14][15]

まず確認できる仕様:Proは上限、Flashは効率寄り

項目DeepSeek-V4-ProDeepSeek-V4-Flash
公開規模1.6T総パラメータ/49B活性化パラメータ [1][14]284B総パラメータ/13B活性化パラメータ [1][14]
コンテキスト長最大1M token [1][17]最大1M token [1][17]
位置づけV4ファミリーで最大のモデル [1]より高速・高効率な負荷向け [1]
APIモデル名deepseek-v4-pro [18][20]deepseek-v4-flash [18][20]

DeepSeekのモデル・価格ページでは、両モデルとも最大出力長が384Kで、Json OutputやTool Callsなどの機能に対応するとされています。[17] つまりV4の設計上の焦点は、単にパラメータ数やコンテキスト長を大きくすることではなく、能力重視のProと効率重視のFlashを、どちらも実際にAPIから呼び出せる形で提供する点にあります。

MoEの意味:巨大な総容量と1回あたりの計算量を切り離す

API易やHyperAIなどの公開資料は、V4-ProとV4-FlashをMixture-of-Experts、つまりMoEモデルとして説明しています。[2][4] MoEの文脈では、総パラメータ数は専門家群全体の容量に近く、活性化パラメータ数は1回の推論で実際に計算に使われる部分を示します。このため、V4の仕様ではtotal parametersとactive parametersの両方が強調されています。[1][2][4][14]

この設計の狙いは、モデル全体の容量と1回の推論コストをある程度切り離すことです。一方で、サーバー側には専門家ルーティング、専門家並列、通信、負荷分散といった難題が出てきます。SGLang/MilesチームはV4公開後、推論とRLトレーニングのサポートを提供したとし、hybrid sparse-attention、mHC、FP4 expert weightsに合わせてシステムを最適化したと述べています。これは、難しさがモデル本体だけでなく、serving/training stackにまで及んでいることを示します。[5]

1M tokenコンテキスト:本当の負荷はサーバー側に出る

NVIDIAの開発者向け資料は、V4-ProとV4-Flashを「効率的なmillion-token context inference」を可能にするモデルと位置づけ、長文脈のコーディング、文書分析、検索、agentic AIワークフローといった用途を挙げています。[1] DeepSeek APIドキュメントでも、両モデルのコンテキスト長は1Mとされています。[17]

利用者にとって、1Mコンテキストの直接的な価値は、文書やコードを細かく分割してつなぎ直す手間、あるいは検索漏れのリスクを減らせることです。一方、提供側にとっては、注意機構の計算、コンテキストキャッシュ、GPUメモリや帯域、スループット調整の負荷が大きくなります。したがってV4を評価する際は、窓の大きさだけを見るのではなく、実際のコードリポジトリ、長大な仕様書、RAG、Agentツールチェーンで、遅延、費用、遠距離参照の安定性、ツール呼び出しの挙動を確認する必要があります。[1][17]

注意機構の呼び名はまだ慎重に読むべき

長文脈効率をめぐる公開資料の用語は、完全にはそろっていません。API易は、V4の1MコンテキストをHybrid AttentionとDSA sparse attentionが支えると説明しています。[2] HyperAIの要約では、hybrid attentionがCompressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を組み合わせるとされ、mHCにも言及しています。[4] SGLang/Milesは、同チームのオープンソーススタックがhybrid sparse-attention、mHC、FP4 expert weightsに対応したと述べています。[5]

現時点で堅実な読み方は、「V4周辺の公開情報は、疎/圧縮/ハイブリッド注意機構とサービス基盤の最適化という方向を指している」というものです。ただし、各モジュール名、実装の詳細、効果の大きさについては、二次情報や動画だけで断定せず、DeepSeekのTransparency Centerに掲載されているModel CardやTechnical Reportで確認するのが安全です。[22]

API導入:移行コストを下げる設計になっている

DeepSeekの更新ログによると、APIはV4-ProとV4-Flashに対応しており、OpenAI ChatCompletionsインターフェースとAnthropicインターフェースの両方から利用できます。新モデルを呼び出す際、base_urlは従来のままで、modelパラメータをdeepseek-v4-proまたはdeepseek-v4-flashに変更すればよいとされています。[18][19] 公式の初回API呼び出しドキュメントでは、OpenAI形式のbase URLはhttps://api.deepseek.com、Anthropic形式のbase URLはhttps://api.deepseek.com/anthropicと示されています。[20][21]

text
model: deepseek-v4-pro
model: deepseek-v4-flash

OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic

旧モデル名についてもスケジュールが明記されています。deepseek-chatdeepseek-reasonerは2026年7月24日に廃止予定で、移行期間中はそれぞれdeepseek-v4-flashの非思考モードと思考モードを指します。[18][19][21] 既存アプリケーションの運用者にとって最初にやるべきことは、モデル名を置き換え、ProとFlashのどちらを使うかを決めたうえで、長文脈、Tool Calls、出力長、コストの回帰テストを行うことです。[17][18]

まだ独立検証が必要な点

第一に、性能の優位性は慎重に扱うべきです。公式中国語リリースページは、V4-ProがAgent、世界知識、推論能力で中国国内およびオープンソース領域の先頭水準にあるとし、一部クローズドモデルとの体験比較も示しています。API易もSWE-Verifiedなどのベンチマークスコアを掲載しています。[15][2] これらは発表元やエコシステム側の主張として参考になりますが、プロンプト、コスト制約、業務タスクが変われば結果も変わるため、独立した再検証が重要です。

第二に、内部メカニズムの細部は階層を分けて見る必要があります。Hybrid Attention、DSA、CSA、HCA、mHC、FP4 expert weightsといった用語は複数の公開資料に出ていますが、情報源のレベルや命名は一致していません。[2][4][5] 公式Technical Report以外の情報だけを根拠に、すべての用語を完全に検証済みの実装事実として扱うのは早計です。[22]

第三に、1Mコンテキストは「常に低遅延・低コスト」を意味しません。公式資料とエコシステム資料から確認できるのは、V4の仕様上の方向性とAPIとしての呼び出し可能性です。実際のサービス品質は、文書の長さ、キャッシュヒット率、同時実行数、ツール呼び出しの連鎖、評価基準に左右されます。[1][17][18]

実務上の結論

DeepSeek V4の「大きな工学的挑戦」は、V4-Proの1.6T/49B active、V4-Flashの284B/13B active、最大1M tokenコンテキスト、OpenAI/Anthropic互換APIを、同じ製品ラインの中にまとめた点にあります。[1][14][17][18] 開発者にとって当面の実務は、宣伝文句を追うことではなく、自社の長文書、コードベース、RAG、Agentワークフローでエンドツーエンドの検証を行い、2026年7月24日までに旧モデル名からの移行を完了することです。[18][21]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • DeepSeek V4の特徴は、V4 ProとV4 Flashの2段構成、MoE、最大100万トークンのコンテキスト、OpenAI/Anthropic互換APIをまとめて提供している点にある。
  • 開発者はまずモデル名をdeepseek v4 proまたはdeepseek v4 flashへ切り替える必要がある。deepseek chatとdeepseek reasonerは2026年7月24日に廃止予定。
  • 評価すべきなのは「100万トークンを入れられるか」だけではなく、長文書、コードベース、RAG、Agentワークフローでの遅延、コスト、参照安定性、ツール呼び出しの実動作だ。

人々も尋ねます

「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」の短い答えは何ですか?

DeepSeek V4の特徴は、V4 ProとV4 Flashの2段構成、MoE、最大100万トークンのコンテキスト、OpenAI/Anthropic互換APIをまとめて提供している点にある。

最初に検証する重要なポイントは何ですか?

DeepSeek V4の特徴は、V4 ProとV4 Flashの2段構成、MoE、最大100万トークンのコンテキスト、OpenAI/Anthropic互換APIをまとめて提供している点にある。 開発者はまずモデル名をdeepseek v4 proまたはdeepseek v4 flashへ切り替える必要がある。deepseek chatとdeepseek reasonerは2026年7月24日に廃止予定。

次の実践では何をすればいいでしょうか?

評価すべきなのは「100万トークンを入れられるか」だけではなく、長文書、コードベース、RAG、Agentワークフローでの遅延、コスト、参照安定性、ツール呼び出しの実動作だ。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「Northwest Timber と Southeast Timber:なぜ答えは「larger; larger」なのか」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

研究「The insane engineering of Deepseek V4」

Studio Global AI26 ソース

引用された回答

我把「The insane engineering of Deepseek V4」理解为:围绕 DeepSeek V4 的工程设计做一份可核查的研究摘要。结论是:V4 的“疯狂工程”主要不在单一算法,而在把超大 MoE、百万 token 上下文、稀疏/混合注意力、低活跃参数推理和服务栈适配组合到一起;但目前很多性能和架构细节仍主要来自官方或生态方材料,独立评测证据还不充分。

Key findings

  • DeepSeek-V4 预览版已上线,官方称其支持 1M 超长上下文,并分为 V4-Pro 与 V4-Flash 两个版本。[7]

  • V4-Pro 的公开规格是 1.6T 总参数、49B 激活参数;V4-Flash 的公开规格是 284B 总参数、13B 激活参数。[2][5]

  • 这说明 V4 继续采用稀疏激活的 MoE 思路:模型总容量很大,但每个 token 只激活一小部分参数,从而把“模型容量”和“推理成本”部分解耦。[2][5]

  • 百万 token 上下文是 V4 最核心的工程卖点之一,因为长上下文推理的瓶颈通常会集中在注意力计算、KV cache 存储、显存带宽和跨设备通信上。[2][7]

  • 第三方 API 文档称 V4 的 1M 上下文依赖 Hybrid Attention 与 DSA sparse attention,但这一点应视为生态方说明,而不是完整技术论文级证据。[3]

  • DeepSeek 官方 API 文档显示,V4-Pro 与 V4-Flash 可通过 OpenAI Chat Completions 接口和 Anthropic 兼容接口调用,模型名分别为 deepseek-v4-prodeepseek-v4-flash[12][16]

  • 官方更新日志称旧模型名 deepseek-chatdeepseek-reasoner 将在 2026-07-24 后停止使用,并在过渡期分别指向新的 V4 系列模型。[12]

  • NVIDIA 的开发者材料把 V4 定位为面向高效百万 token 上下文推理的模型,并提到可在 Blackwell 与 GPU 加速端点上构建应用。[2]

  • SGLang / LMSYS 生态方称其在发布日提供了 DeepSeek-V4 的推理与 RL 训练支持,这说明 V4 的工程影响不只是模型本身,还包括开源 serving / training stack 的适配。[11]

为什么说它“工程量很大”

  • 参数规模与激活规模的差异很大:V4-Pro 是 1.6T 总参数但每次只激活 49B 参数,这要求路由、专家并行、负载均衡和通信调度都足够稳定,否则 MoE 的理论效率会被系统开销吃掉。[2][5]

  • 1M 上下文会显著放大 KV cache 与注意力计算压力,因此如果没有稀疏注意力、分层缓存、分页 KV 或类似机制,推理成本会很难控制。[2][3]

  • V4-Flash 的 284B 总参数 / 13B 激活参数定位明显偏向低成本、高吞吐服务,而 V4-Pro 则偏向能力上限,这是一种“同架构、多成本档位”的产品工程策略。[2][5]

  • API 层同时兼容 OpenAI 与 Anthropic 格式,降低了迁移成本;这类兼容性本身不是模型创新,但对实际采用率很关键。[12][16]

  • Day-0 生态支持意味着模型权重、推理 kernel、调度器、并行策略和训练/强化学习工具链需要快速协同适配,这通常比单纯发布权重更复杂。[11]

Evidence notes

  • 最强证据来自 DeepSeek 官方 API/公告页面和 NVIDIA 开发者材料;这些来源能支持模型名称、参数规模、上下文长度和 API 支持等事实。[2][5][7][12]

  • 关于 Hybrid Attention、DSA sparse attention 等具体架构细节,目前我找到的强证据主要来自生态方或聚合文档,不等同于完整官方技术报告或同行评审论文。[3]

  • 学术搜索没有找到明确的 DeepSeek-V4 专门技术报告;只找到与长上下文、混合架构相关的相邻研究,因此不能用它来严格证明 V4 的内部实现。[1]

Limitations / uncertainty

  • Insufficient evidence:目前没有足够独立证据确认 V4 在所有公开 benchmark 上“比肩顶级闭源模型”的具体幅度。

  • Insufficient evidence:没有足够证据验证视频或文章中可能提到的所有内部工程细节,例如训练成本、具体 GPU 数量、完整数据配方、路由算法细节或真实线上延迟。

  • Insufficient evidence:若有人声称 V4 使用某些未被官方技术报告明确确认的专有机制,应先视为未经充分验证的说法。

Summary

DeepSeek V4 的核心看点是:用 MoE 把总容量做到万亿级,同时把每 token 激活参数压到几十 B;再用百万 token 上下文、稀疏/混合注意力和工程化 serving stack,把超长上下文模型做成可调用的 API 产品。[2][5][7][12] 这确实是复杂系统工程,但目前应把“规格与可用性”视为较可靠事实,把“性能领先幅度与内部实现细节”视为仍需独立验证的部分。

情報源

  • [1] Build with DeepSeek V4 Using NVIDIA Blackwell and GPU ...developer.nvidia.com

    DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference. DeepSeek-V4-Pro is the largest model in the family, with 1.6T total param...

  • [2] DeepSeek V4-Pro / V4-Flash Launch: 1M Context + Open ... - API易docs.apiyi.com

    - Two models launched : deepseek-v4-pro (1.6T total / 49B active) and deepseek-v4-flash (284B total / 13B active), both MoE - 1M context : Full 1,000,000-token context across the family, powered by a new Hybrid Attention architecture + DSA sparse attention...

  • [4] HyperAIbeta.hyper.ai

    We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context l...

  • [5] DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with ...lmsys.org

    - HiSparse: Turbocharging Sparse Attention with Hierarchical Memory ... The SGLang and Miles TeamApril 25, 2026 We are thrilled to announce Day-0 support for DeepSeek-V4 across both inference and RL training. SGLang and Miles form the first open-source stac...

  • [14] Dedicated Optimizations For...api-docs.deepseek.com

    DeepSeek V4 Preview Release 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. Performance rivaling the world's top closed-source models. 🔹 D...

  • [15] DeepSeek-V4 预览版:迈入百万上下文普惠时代api-docs.deepseek.com

    DeepSeek-V4 预览版:迈入百万上下文普惠时代 今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。 DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本: 即日起登录官网 chat.deepseek.com 或官方App,即可与最新的 DeepSeek-V4 对话,探索 1M 超长上下文记忆的全新体验。API 服务已同步更新,通过修改 model name 为 deepseek-v4-pr...

  • [17] 模型& 价格 - DeepSeek API Docsapi-docs.deepseek.com

    模型细节 ​ 模型 模型 deepseek-v4-flash^(1)^ deepseek-v4-pro -- -- -- -- BASE URL (OpenAI 格式) BASE URL (OpenAI 格式) BASE URL (Anthropic 格式) BASE URL (Anthropic 格式) 模型版本 模型版本 DeepSeek-V4-Flash DeepSeek-V4-Pro 思考模式 思考模式 支持非思考与思考模式(默认) 切换方式详见思考模式 支持非思考与思考模式(默认) 切换方式详见思考...

  • [18] 更新日志 - DeepSeek API Docsapi-docs.deepseek.com

    时间: 2026-04-24​ DeepSeek-V4​ DeepSeek API 已支持 V4-Pro 与 V4-Flash,支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时,base url 不变, model 参数需要改为 或 旧有的 API 接口的两个模型名 与 将于三个月后(2026-07-24)停止使用。当前阶段内,这两个模型名分别 指向 的非思考模式与思考模式。 ... 我们非正式部署了 DeepSeek-V3.2-Speciale 的 API...

  • [19] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the base url remains unchanged, and the model parameter should b...

  • [20] DeepSeek API Docs: Your First API Callapi-docs.deepseek.com

    Your First API Call The DeepSeek API uses an API format compatible with OpenAI/Anthropic. By modifying the configuration, you can use the OpenAI/Anthropic SDK or softwares compatible with the OpenAI/Anthropic API to access the DeepSeek API. PARAM VALUE -- -...

  • [21] 首次调用APIapi-docs.deepseek.com

    DeepSeek API 使用与 OpenAI/Anthropic 兼容的 API 格式,通过修改配置,您可以使用 OpenAI/Anthropic SDK 来访问 DeepSeek API,或使用与 OpenAI/Anthropic API 兼容的软件。 PARAM VALUE -- -- base url (OpenAI) base url (Anthropic) api key apply for an API key model (将于 2026/07/24 弃用) (将于 2026/07/24 弃用...

  • [22] Transparency Center - DeepSeekdeepseek.com

    Learn about DeepSeek's published models Model Principles and Training Methodology View Details V4.0DeepSeek-V4New Release Date April 24, 2026 Model CardTechnical ReportV3.2DeepSeek-V3.2 Release Date December 1, 2025 Model CardTechnical Report