DeepSeek V4は、単に「100万トークンのコンテキストを扱えるモデル」と見るだけでは足りません。実態としては、V4-ProとV4-Flashという2つのグレード、公開された総パラメータ数/活性化パラメータ数、最大1M tokenの文脈長、そしてOpenAI/Anthropic互換のAPI呼び出しを組み合わせた、モデルとサービス基盤の同時リリースです。[18][
20]
DeepSeekのTransparency Centerは、V4.0 DeepSeek-V4のリリース日を2026年4月24日とし、Model CardとTechnical Reportへの導線を掲載しています。公式告知でも、DeepSeek-V4 Previewが公開され、同時にオープンソース化されたと説明されています。[22][
14][
15]
まず確認できる仕様:Proは上限、Flashは効率寄り
| 項目 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 公開規模 | 1.6T総パラメータ/49B活性化パラメータ [ | 284B総パラメータ/13B活性化パラメータ [ |
| コンテキスト長 | 最大1M token [ | 最大1M token [ |
| 位置づけ | V4ファミリーで最大のモデル [ | より高速・高効率な負荷向け [ |
| APIモデル名 | deepseek-v4-pro [ | deepseek-v4-flash [ |
DeepSeekのモデル・価格ページでは、両モデルとも最大出力長が384Kで、Json OutputやTool Callsなどの機能に対応するとされています。[17] つまりV4の設計上の焦点は、単にパラメータ数やコンテキスト長を大きくすることではなく、能力重視のProと効率重視のFlashを、どちらも実際にAPIから呼び出せる形で提供する点にあります。
MoEの意味:巨大な総容量と1回あたりの計算量を切り離す
API易やHyperAIなどの公開資料は、V4-ProとV4-FlashをMixture-of-Experts、つまりMoEモデルとして説明しています。[2][
4] MoEの文脈では、総パラメータ数は専門家群全体の容量に近く、活性化パラメータ数は1回の推論で実際に計算に使われる部分を示します。このため、V4の仕様ではtotal parametersとactive parametersの両方が強調されています。[
1][
2][
4][
14]
この設計の狙いは、モデル全体の容量と1回の推論コストをある程度切り離すことです。一方で、サーバー側には専門家ルーティング、専門家並列、通信、負荷分散といった難題が出てきます。SGLang/MilesチームはV4公開後、推論とRLトレーニングのサポートを提供したとし、hybrid sparse-attention、mHC、FP4 expert weightsに合わせてシステムを最適化したと述べています。これは、難しさがモデル本体だけでなく、serving/training stackにまで及んでいることを示します。[5]
1M tokenコンテキスト:本当の負荷はサーバー側に出る
NVIDIAの開発者向け資料は、V4-ProとV4-Flashを「効率的なmillion-token context inference」を可能にするモデルと位置づけ、長文脈のコーディング、文書分析、検索、agentic AIワークフローといった用途を挙げています。[1] DeepSeek APIドキュメントでも、両モデルのコンテキスト長は1Mとされています。[
17]
利用者にとって、1Mコンテキストの直接的な価値は、文書やコードを細かく分割してつなぎ直す手間、あるいは検索漏れのリスクを減らせることです。一方、提供側にとっては、注意機構の計算、コンテキストキャッシュ、GPUメモリや帯域、スループット調整の負荷が大きくなります。したがってV4を評価する際は、窓の大きさだけを見るのではなく、実際のコードリポジトリ、長大な仕様書、RAG、Agentツールチェーンで、遅延、費用、遠距離参照の安定性、ツール呼び出しの挙動を確認する必要があります。[1][
17]
注意機構の呼び名はまだ慎重に読むべき
長文脈効率をめぐる公開資料の用語は、完全にはそろっていません。API易は、V4の1MコンテキストをHybrid AttentionとDSA sparse attentionが支えると説明しています。[2] HyperAIの要約では、hybrid attentionがCompressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を組み合わせるとされ、mHCにも言及しています。[
4] SGLang/Milesは、同チームのオープンソーススタックがhybrid sparse-attention、mHC、FP4 expert weightsに対応したと述べています。[
5]
現時点で堅実な読み方は、「V4周辺の公開情報は、疎/圧縮/ハイブリッド注意機構とサービス基盤の最適化という方向を指している」というものです。ただし、各モジュール名、実装の詳細、効果の大きさについては、二次情報や動画だけで断定せず、DeepSeekのTransparency Centerに掲載されているModel CardやTechnical Reportで確認するのが安全です。[22]
API導入:移行コストを下げる設計になっている
DeepSeekの更新ログによると、APIはV4-ProとV4-Flashに対応しており、OpenAI ChatCompletionsインターフェースとAnthropicインターフェースの両方から利用できます。新モデルを呼び出す際、base_urlは従来のままで、modelパラメータをdeepseek-v4-proまたはdeepseek-v4-flashに変更すればよいとされています。[18][
19] 公式の初回API呼び出しドキュメントでは、OpenAI形式のbase URLは
https://api.deepseek.com、Anthropic形式のbase URLはhttps://api.deepseek.com/anthropicと示されています。[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic旧モデル名についてもスケジュールが明記されています。deepseek-chatとdeepseek-reasonerは2026年7月24日に廃止予定で、移行期間中はそれぞれdeepseek-v4-flashの非思考モードと思考モードを指します。[18][
19][
21] 既存アプリケーションの運用者にとって最初にやるべきことは、モデル名を置き換え、ProとFlashのどちらを使うかを決めたうえで、長文脈、Tool Calls、出力長、コストの回帰テストを行うことです。[
17][
18]
まだ独立検証が必要な点
第一に、性能の優位性は慎重に扱うべきです。公式中国語リリースページは、V4-ProがAgent、世界知識、推論能力で中国国内およびオープンソース領域の先頭水準にあるとし、一部クローズドモデルとの体験比較も示しています。API易もSWE-Verifiedなどのベンチマークスコアを掲載しています。[15][
2] これらは発表元やエコシステム側の主張として参考になりますが、プロンプト、コスト制約、業務タスクが変われば結果も変わるため、独立した再検証が重要です。
第二に、内部メカニズムの細部は階層を分けて見る必要があります。Hybrid Attention、DSA、CSA、HCA、mHC、FP4 expert weightsといった用語は複数の公開資料に出ていますが、情報源のレベルや命名は一致していません。[2][
4][
5] 公式Technical Report以外の情報だけを根拠に、すべての用語を完全に検証済みの実装事実として扱うのは早計です。[
22]
第三に、1Mコンテキストは「常に低遅延・低コスト」を意味しません。公式資料とエコシステム資料から確認できるのは、V4の仕様上の方向性とAPIとしての呼び出し可能性です。実際のサービス品質は、文書の長さ、キャッシュヒット率、同時実行数、ツール呼び出しの連鎖、評価基準に左右されます。[1][
17][
18]
実務上の結論
DeepSeek V4の「大きな工学的挑戦」は、V4-Proの1.6T/49B active、V4-Flashの284B/13B active、最大1M tokenコンテキスト、OpenAI/Anthropic互換APIを、同じ製品ラインの中にまとめた点にあります。[1][
14][
17][
18] 開発者にとって当面の実務は、宣伝文句を追うことではなく、自社の長文書、コードベース、RAG、Agentワークフローでエンドツーエンドの検証を行い、2026年7月24日までに旧モデル名からの移行を完了することです。[
18][
21]




