把 DeepSeek V4 稱為「一個 1M 上下文模型」不算錯,但這樣說太窄。更接近產品現實的描述是:它把 V4-Pro、V4-Flash 兩個模型檔位,公開標示的總參數/啟用參數,100 萬 token 上下文視窗,以及 OpenAI、Anthropic 相容 API,一起做成可直接呼叫的模型服務。[18][
20]
DeepSeek 透明中心將 V4.0 DeepSeek-V4 的發布日期列為 2026 年 4 月 24 日,並提供 Model Card 與 Technical Report 入口;官方公告也稱 DeepSeek-V4 Preview 已正式上線並同步開源。[22][
14][
15]
已確認規格:Pro 衝能力上限,Flash 主打效率
| 項目 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 公開規模 | 1.6T 總參數 / 49B 啟用參數 [ | 284B 總參數 / 13B 啟用參數 [ |
| 上下文視窗 | 最高 1M token [ | 最高 1M token [ |
| 產品定位 | V4 家族中最大的模型 [ | 面向更高速、更高效率的負載 [ |
| API 模型名稱 | deepseek-v4-pro [ | deepseek-v4-flash [ |
DeepSeek 的模型與價格頁還列出,兩個模型最大輸出長度為 384K,並支援 Json Output、Tool Calls 等功能。[17] 這些規格顯示,V4 的工程重點不是單純把參數或上下文視窗做大,而是同時推出能力檔與效率檔,並且讓它們成為可以在 API 裡切換的產品。
MoE 怎麼看:容量與單次推論成本不再完全綁死
API 易與 HyperAI 等公開資料都將 V4-Pro、V4-Flash 描述為 Mixture-of-Experts,亦即 MoE、混合專家模型。[2][
4] 在 MoE 語境下,總參數更像是整個「專家池」的容量;啟用參數則代表一次推論中實際參與計算的子集合。這也解釋了為什麼 V4 的規格會同時強調 total parameters 與 active parameters。[
1][
2][
4][
14]
這類設計的好處,是讓模型容量與單次計算量部分解耦;代價則是服務端必須處理專家路由、專家並行、通訊與負載平衡等問題。SGLang / Miles 團隊在 V4 發布後稱已提供推論與 RL 訓練支援,並表示其系統針對 V4 的 hybrid sparse-attention、mHC 與 FP4 expert weights 做了適配,說明挑戰已經延伸到 serving 與 training stack。[5]
1M token 上下文:真正壓力多半在服務端
NVIDIA 開發者材料把 V4-Pro 與 V4-Flash 定位為面向高效率 million-token context inference 的模型,並點名長上下文程式碼、文件分析、檢索與 agentic AI 工作流等場景。[1] DeepSeek API 文件也列出兩者上下文長度為 1M。[
17]
對使用者來說,1M 上下文的直接價值,是減少切片、拼接與檢索遺漏;但對服務端而言,它會放大注意力計算、上下文快取、GPU 記憶體/頻寬與吞吐量調度壓力。也因此,評估 V4 不能只看「視窗有多長」,更應該放到真實的程式碼庫、長文件、RAG 與 Agent 工具鏈中,測延遲、費用、長距離引用穩定性與工具呼叫表現。[1][
17]
注意力架構:方向明確,術語仍要保守解讀
圍繞長上下文效率,公開資料中的術語並不完全一致。API 易稱 V4 的 1M 上下文由 Hybrid Attention 與 DSA sparse attention 支撐。[2] HyperAI 摘要寫到 hybrid attention 結合 Compressed Sparse Attention(CSA)與 Heavily Compressed Attention(HCA),並提到 mHC。[
4] SGLang / Miles 則稱其開源堆疊針對 hybrid sparse-attention、mHC 與 FP4 expert weights 做了適配。[
5]
較穩妥的讀法是:V4 相關生態資料普遍指向「稀疏/壓縮/混合注意力,加上服務堆疊最佳化」這條路線;但具體模組名稱、實作細節與效果幅度,不宜只憑二手摘要或影片定論。若要做嚴肅技術判斷,最好回到 DeepSeek 透明中心列出的 Model Card 與 Technical Report 核對。[22]
API 落地:遷移成本被放進產品設計
DeepSeek 更新日誌顯示,API 已支援 V4-Pro 與 V4-Flash,並可透過 OpenAI ChatCompletions 介面和 Anthropic 介面呼叫;存取新模型時 base_url 不變,只需要把 model 參數改為 deepseek-v4-pro 或 deepseek-v4-flash。[18][
19] 官方首次呼叫文件列出的 base URL,分別是 OpenAI 格式的
https://api.deepseek.com,以及 Anthropic 格式的 https://api.deepseek.com/anthropic。[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic舊模型名稱也已有明確時間表:deepseek-chat 與 deepseek-reasoner 將於 2026 年 7 月 24 日棄用;過渡期內,兩者分別指向 deepseek-v4-flash 的非思考模式與思考模式。[18][
19][
21] 對既有應用而言,最先要做的是替換模型名稱、確認 Pro 或 Flash 的選擇,並針對長上下文、Tool Calls、輸出長度與成本重新做回歸測試。[
17][
18]
哪些說法還需要獨立驗證?
第一,性能領先幅度要謹慎看待。官方中文發布頁稱 V4-Pro 在 Agent、世界知識與推理能力上達到「國內與開源領域」領先,並提供與部分閉源模型的體驗對比;API 易也列出 SWE-Verified 等 benchmark 分數。[15][
2] 這些可以視為發布方與生態方主張,但不同提示詞、成本限制與業務任務下的表現,仍應以獨立複測為準。
第二,內部機制細節要分層看待。Hybrid Attention、DSA、CSA、HCA、mHC 與 FP4 expert weights 已出現在不同公開資料中,但來源層級與命名並不一致。[2][
4][
5] 在官方技術報告之外,把每個術語都當成已完全驗證的實作事實,並不穩妥。[
22]
第三,1M 上下文不自動等於所有滿窗請求都低延遲、低成本。官方與生態資料能確認 V4 的規格方向與可呼叫性;真實服務表現仍取決於你的文件長度、快取命中率、併發量、工具呼叫鏈與評測標準。[1][
17][
18]
實務結論
DeepSeek V4 的工程難度,重點在「組合」:V4-Pro 的 1.6T/49B active、V4-Flash 的 284B/13B active、最高 1M token 上下文,以及 OpenAI/Anthropic 相容 API,被放進同一條可呼叫產品線中。[1][
14][
17][
18]
對開發者來說,短期最實際的行動不是重複宣傳語,而是拿自己的長文件、程式碼庫、RAG 與 Agent 工作流做端到端測試:該用 Pro 還是 Flash、長上下文是否真的改善任務、工具呼叫是否穩定、成本是否可控。若你仍在使用舊模型名稱,則應在 2026 年 7 月 24 日前完成遷移規劃與回歸測試。[18][
21]




