如果只用「一個支援 1M context 的模型」形容 DeepSeek V4,其實有少少睇少咗。比較準確的講法是:DeepSeek 今次是模型加服務棧一齊推出——V4-Pro、V4-Flash 兩個檔位,公開標明總參數/啟用參數,支援百萬 token 視窗,並提供相容 OpenAI/Anthropic 的 API 調用方式。[18][
20]
DeepSeek 透明中心將 V4.0 DeepSeek-V4 的 Release Date 列為 2026年4月24日,並提供 Model Card 及 Technical Report 入口;官方公告亦稱 DeepSeek-V4 Preview 已上線並同步開源。[22][
14][
15]
已確認規格:Pro 衝上限,Flash 衝效率
| 項目 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 公開規模 | 1.6T 總參數/49B 啟用參數(active parameters)[ | 284B 總參數/13B 啟用參數(active parameters)[ |
| Context window | 最高 1M token [ | 最高 1M token [ |
| 產品定位 | V4 家族入面最大型的模型 [ | 面向更高速、更高效率的負載 [ |
| API 模型名 | deepseek-v4-pro [ | deepseek-v4-flash [ |
DeepSeek 的模型及價格頁亦列出,兩款模型最大輸出長度為 384K,並支援 Json Output、Tool Calls 等功能。[17] 換句話講,V4 的工程重點唔單止是「把 context window 拉大」,而是將能力檔同效率檔都包裝成可直接調用的產品。
MoE 點解重要:容量同單次推理成本唔再完全綁死
API 易同 HyperAI 等公開材料都將 V4-Pro、V4-Flash 描述為 Mixture-of-Experts(MoE)模型。[2][
4] 用簡單講法,MoE 可以理解為一個「專家池」:總參數比較接近整個專家池的容量;啟用參數則表示一次推理實際參與計算的部分。這亦解釋了點解 V4 的規格會同時強調 total parameters 同 active parameters。[
1][
2][
4][
14]
這種設計的好處,是令模型容量同每次推理的計算量可以部分解耦;代價是服務端要處理專家路由、專家並行、通訊同負載均衡等複雜問題。SGLang/Miles 團隊在 V4 發布後表示已提供推理及 RL 訓練支援,並稱其系統針對 V4 的 hybrid sparse-attention、mHC 及 FP4 expert weights 作出適配,反映難點已經由模型本身延伸到 serving/training stack。[5]
1M token context:用戶見到的是方便,服務端承受的是壓力
NVIDIA 開發者材料把 V4-Pro、V4-Flash 定位為面向高效 million-token context inference 的模型,並點名長上下文寫 code、文件分析、檢索及 agentic AI workflow 等場景。[1] DeepSeek API 文件亦列明兩款模型的上下文長度為 1M。[
17]
對使用者來講,1M context 的潛在價值很直接:少啲切片、少啲人手拼接,亦有機會減少檢索漏料。對服務端來講,問題就冇咁輕鬆——注意力計算、context cache、顯存/頻寬、吞吐調度都會被放大。正因如此,評估 V4 唔應該只望窗口數字,而要放入真實程式碼庫、長文件、RAG 同 Agent 工具鏈,測延遲、成本、長距離引用穩定性,以及 Tool Calls 表現。[1][
17]
注意力架構:方向清楚,但術語要小心讀
圍繞長上下文效率,不同公開材料用的術語並不完全一致。API 易稱 V4 的 1M context 由 Hybrid Attention 及 DSA sparse attention 支撐。[2] HyperAI 摘要則寫到 hybrid attention 結合 Compressed Sparse Attention(CSA)同 Heavily Compressed Attention(HCA),並提到 mHC。[
4] SGLang/Miles 就稱其開源棧針對 hybrid sparse-attention、mHC 及 FP4 expert weights 作出適配。[
5]
比較穩陣的讀法是:V4 生態材料普遍指向「稀疏/壓縮/混合注意力 + 服務棧優化」這條路線;但具體模組名稱、實作細節同效果幅度,不應單靠二級摘要或影片定論,最好回到 DeepSeek 透明中心列出的 Model Card 及 Technical Report 核對。[22]
API 落地:遷移成本被放入產品設計
DeepSeek 更新日誌顯示,API 已支援 V4-Pro 與 V4-Flash,並可透過 OpenAI ChatCompletions 介面及 Anthropic 介面調用;要使用新模型,base_url 不變,只需要把 model 參數改成 deepseek-v4-pro 或 deepseek-v4-flash。[18][
19] 官方首次調用文件列出的 base URL 分別是 OpenAI 格式的
https://api.deepseek.com,以及 Anthropic 格式的 https://api.deepseek.com/anthropic。[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic舊模型名亦有清晰時間表:deepseek-chat 與 deepseek-reasoner 將於 2026年7月24日棄用;過渡期內,兩者分別指向 deepseek-v4-flash 的非思考模式及思考模式。[18][
19][
21] 對已有應用來講,最先要做的是替換模型名、確認揀 Pro 還是 Flash,然後針對長 context、Tool Calls、輸出長度及成本做回歸測試。[
17][
18]
邊啲說法仍然要獨立驗證?
第一,性能領先幅度要保守看。官方中文發布頁稱 V4-Pro 在 Agent、世界知識及推理能力方面達到國內與開源領域領先,並提供與部分閉源模型的體驗對比;API 易亦列出 SWE-Verified 等 benchmark 分數。[15][
2] 這些可以視為發布方及生態方的主張,但不同提示詞、成本限制同業務任務之下,實際表現仍應以獨立複測為準。
第二,內部機制細節要分層理解。Hybrid Attention、DSA、CSA、HCA、mHC、FP4 expert weights 已出現在不同公開材料,但來源層級同命名並不一致。[2][
4][
5] 在官方技術報告之外,直接把每個術語都當成已完全驗證的實作事實,並不穩妥。[
22]
第三,1M context 不等於所有滿窗請求都一定低延遲、低成本。官方及生態材料可以確認 V4 的規格方向與可調用性;真實服務表現仍取決於你的文件長度、cache 命中、並發量、工具調用鏈同評測標準。[1][
17][
18]
實用結論
DeepSeek V4 的「工程量大」在於組合:V4-Pro 的 1.6T/49B active、V4-Flash 的 284B/13B active、最高 1M token context,以及 OpenAI/Anthropic 相容 API,被放進同一條可調用產品線入面。[1][
14][
17][
18] 對開發者而言,短期最實際的做法唔係背宣傳語,而是用自己的長文件、程式碼庫、RAG 同 Agent workflow 做端到端測試,並在 2026年7月24日前完成舊模型名遷移。[
18][
21]




