報告已發布2026年5月3日Last edited 2026年5月6日12 來源

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

DeepSeek V4 唔應該只當成「1M context 模型」：V4 Pro 是 1.6T 總參數／49B active，V4 Flash 是 284B／13B active，兩者都支援最高 1M token context。[1][14][17] API 遷移重點好直接：新模型名是 deepseek v4 pro、deepseek v4 flash；舊 deepseek chat、deepseek reasoner 計劃於 2026年7月24日棄用。[18][21] 真正要測的不是能否塞滿 100萬 token，而是在長文件、程式碼庫、RAG、Agent workflow 入面，延遲、成本、遠距引用穩定性同工具調用表現係...

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

12K0

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素 — DeepSeek V4 工程解析：1M 上下文背后的 MoE 与 API 落地AI 生成的 DeepSeek V4 工程示意图，表现百万 token 上下文、MoE 专家路由与 API 服务化。
AI 提示
Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 工程解析：1M 上下文背后的 MoE 与 API 落地. Article summary: DeepSeek V4 的核心是系统工程组合：2026 04 24 发布的 V4 Pro（1.6T/49B active）与 V4 Flash（284B/13B active）都面向 1M token 上下文；可靠事实是规格和 API 已公开，性能领先幅度与部分内部机制仍需独立验证。. Topic tags: ai, deepseek, llm, mixture of experts, long context. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek-V4 深夜炸场：1M 上下文、384K 输出、双模型，API 定价直接卷到底. 2026年4月24日，DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" source context "DeepSeek-V4 深夜炸场：1M 上下文、384K 输出、双模型，API 定价直接卷到底 - iTech - 博客园" Reference image 2: visual subject "# DeepSeek-V4 深夜炸场：1M 上下文、384K 输出、双模型，API 定价直接卷到底. 2026年4月24日，DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" sour
openai.com

如果只用「一個支援 1M context 的模型」形容 DeepSeek V4，其實有少少睇少咗。比較準確的講法是：DeepSeek 今次是模型加服務棧一齊推出——V4-Pro、V4-Flash 兩個檔位，公開標明總參數／啟用參數，支援百萬 token 視窗，並提供相容 OpenAI／Anthropic 的 API 調用方式。^[18]^[20]

DeepSeek 透明中心將 V4.0 DeepSeek-V4 的 Release Date 列為 2026年4月24日，並提供 Model Card 及 Technical Report 入口；官方公告亦稱 DeepSeek-V4 Preview 已上線並同步開源。^[22]^[14]^[15]

已確認規格：Pro 衝上限，Flash 衝效率

項目	DeepSeek-V4-Pro	DeepSeek-V4-Flash
公開規模	1.6T 總參數／49B 啟用參數（active parameters）^[1]^[14]	284B 總參數／13B 啟用參數（active parameters）^[1]^[14]
Context window	最高 1M token ^[1]^[17]	最高 1M token ^[1]^[17]
產品定位	V4 家族入面最大型的模型 ^[1]	面向更高速、更高效率的負載 ^[1]
API 模型名	`deepseek-v4-pro` ^[18]^[20]	`deepseek-v4-flash` ^[18]^[20]

DeepSeek 的模型及價格頁亦列出，兩款模型最大輸出長度為 384K，並支援 Json Output、Tool Calls 等功能。^[17] 換句話講，V4 的工程重點唔單止是「把 context window 拉大」，而是將能力檔同效率檔都包裝成可直接調用的產品。

MoE 點解重要：容量同單次推理成本唔再完全綁死

API 易同 HyperAI 等公開材料都將 V4-Pro、V4-Flash 描述為 Mixture-of-Experts（MoE）模型。^[2]^[4] 用簡單講法，MoE 可以理解為一個「專家池」：總參數比較接近整個專家池的容量；啟用參數則表示一次推理實際參與計算的部分。這亦解釋了點解 V4 的規格會同時強調 total parameters 同 active parameters。^[1]^[2]^[4]^[14]

這種設計的好處，是令模型容量同每次推理的計算量可以部分解耦；代價是服務端要處理專家路由、專家並行、通訊同負載均衡等複雜問題。SGLang／Miles 團隊在 V4 發布後表示已提供推理及 RL 訓練支援，並稱其系統針對 V4 的 hybrid sparse-attention、mHC 及 FP4 expert weights 作出適配，反映難點已經由模型本身延伸到 serving／training stack。^[5]

1M token context：用戶見到的是方便，服務端承受的是壓力

NVIDIA 開發者材料把 V4-Pro、V4-Flash 定位為面向高效 million-token context inference 的模型，並點名長上下文寫 code、文件分析、檢索及 agentic AI workflow 等場景。^[1] DeepSeek API 文件亦列明兩款模型的上下文長度為 1M。^[17]

對使用者來講，1M context 的潛在價值很直接：少啲切片、少啲人手拼接，亦有機會減少檢索漏料。對服務端來講，問題就冇咁輕鬆——注意力計算、context cache、顯存／頻寬、吞吐調度都會被放大。正因如此，評估 V4 唔應該只望窗口數字，而要放入真實程式碼庫、長文件、RAG 同 Agent 工具鏈，測延遲、成本、長距離引用穩定性，以及 Tool Calls 表現。^[1]^[17]

注意力架構：方向清楚，但術語要小心讀

圍繞長上下文效率，不同公開材料用的術語並不完全一致。API 易稱 V4 的 1M context 由 Hybrid Attention 及 DSA sparse attention 支撐。^[2] HyperAI 摘要則寫到 hybrid attention 結合 Compressed Sparse Attention（CSA）同 Heavily Compressed Attention（HCA），並提到 mHC。^[4] SGLang／Miles 就稱其開源棧針對 hybrid sparse-attention、mHC 及 FP4 expert weights 作出適配。^[5]

比較穩陣的讀法是：V4 生態材料普遍指向「稀疏／壓縮／混合注意力 + 服務棧優化」這條路線；但具體模組名稱、實作細節同效果幅度，不應單靠二級摘要或影片定論，最好回到 DeepSeek 透明中心列出的 Model Card 及 Technical Report 核對。^[22]

API 落地：遷移成本被放入產品設計

DeepSeek 更新日誌顯示，API 已支援 V4-Pro 與 V4-Flash，並可透過 OpenAI ChatCompletions 介面及 Anthropic 介面調用；要使用新模型，base_url 不變，只需要把 model 參數改成 deepseek-v4-pro 或 deepseek-v4-flash。^[18]^[19] 官方首次調用文件列出的 base URL 分別是 OpenAI 格式的 https://api.deepseek.com，以及 Anthropic 格式的 https://api.deepseek.com/anthropic。^[20]^[21]

text

model: deepseek-v4-pro
model: deepseek-v4-flash

OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic

舊模型名亦有清晰時間表：deepseek-chat 與 deepseek-reasoner 將於 2026年7月24日棄用；過渡期內，兩者分別指向 deepseek-v4-flash 的非思考模式及思考模式。^[18]^[19]^[21] 對已有應用來講，最先要做的是替換模型名、確認揀 Pro 還是 Flash，然後針對長 context、Tool Calls、輸出長度及成本做回歸測試。^[17]^[18]

邊啲說法仍然要獨立驗證？

第一，性能領先幅度要保守看。官方中文發布頁稱 V4-Pro 在 Agent、世界知識及推理能力方面達到國內與開源領域領先，並提供與部分閉源模型的體驗對比；API 易亦列出 SWE-Verified 等 benchmark 分數。^[15]^[2] 這些可以視為發布方及生態方的主張，但不同提示詞、成本限制同業務任務之下，實際表現仍應以獨立複測為準。

第二，內部機制細節要分層理解。Hybrid Attention、DSA、CSA、HCA、mHC、FP4 expert weights 已出現在不同公開材料，但來源層級同命名並不一致。^[2]^[4]^[5] 在官方技術報告之外，直接把每個術語都當成已完全驗證的實作事實，並不穩妥。^[22]

第三，1M context 不等於所有滿窗請求都一定低延遲、低成本。官方及生態材料可以確認 V4 的規格方向與可調用性；真實服務表現仍取決於你的文件長度、cache 命中、並發量、工具調用鏈同評測標準。^[1]^[17]^[18]

實用結論

DeepSeek V4 的「工程量大」在於組合：V4-Pro 的 1.6T／49B active、V4-Flash 的 284B／13B active、最高 1M token context，以及 OpenAI／Anthropic 相容 API，被放進同一條可調用產品線入面。^[1]^[14]^[17]^[18] 對開發者而言，短期最實際的做法唔係背宣傳語，而是用自己的長文件、程式碼庫、RAG 同 Agent workflow 做端到端測試，並在 2026年7月24日前完成舊模型名遷移。^[18]^[21]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

DeepSeek V4 唔應該只當成「1M context 模型」：V4 Pro 是 1.6T 總參數／49B active，V4 Flash 是 284B／13B active，兩者都支援最高 1M token context。[1][14][17]
API 遷移重點好直接：新模型名是 deepseek v4 pro、deepseek v4 flash；舊 deepseek chat、deepseek reasoner 計劃於 2026年7月24日棄用。[18][21]
真正要測的不是能否塞滿 100萬 token，而是在長文件、程式碼庫、RAG、Agent workflow 入面，延遲、成本、遠距引用穩定性同工具調用表現係咪過關。[1][17]

人們還問

「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」的簡短答案是什麼？

DeepSeek V4 唔應該只當成「1M context 模型」：V4 Pro 是 1.6T 總參數／49B active，V4 Flash 是 284B／13B active，兩者都支援最高 1M token context。[1][14][17]

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

真正要測的不是能否塞滿 100萬 token，而是在長文件、程式碼庫、RAG、Agent workflow 入面，延遲、成本、遠距引用穩定性同工具調用表現係咪過關。[1][17]

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

Illustration of an AI coding agent connected to cloud database and backup systems

PocketOS 資料庫被刪：Claude/Cursor 事件真正警號唔係「AI 發癲」

PocketOS 資料庫刪除事件：Claude/Cursor 風波真正揭示咩？

研究對話

你2026年5月3日

研究問題

研究「The insane engineering of Deepseek V4」

Studio Global AI2026年5月3日26 來源

引用的答案

我把「The insane engineering of Deepseek V4」理解为：围绕 DeepSeek V4 的工程设计做一份可核查的研究摘要。结论是：V4 的“疯狂工程”主要不在单一算法，而在把超大 MoE、百万 token 上下文、稀疏/混合注意力、低活跃参数推理和服务栈适配组合到一起；但目前很多性能和架构细节仍主要来自官方或生态方材料，独立评测证据还不充分。

Key findings

DeepSeek-V4 预览版已上线，官方称其支持 1M 超长上下文，并分为 V4-Pro 与 V4-Flash 两个版本。^[7]
V4-Pro 的公开规格是 1.6T 总参数、49B 激活参数；V4-Flash 的公开规格是 284B 总参数、13B 激活参数。^[2]^[5]
这说明 V4 继续采用稀疏激活的 MoE 思路：模型总容量很大，但每个 token 只激活一小部分参数，从而把“模型容量”和“推理成本”部分解耦。^[2]^[5]
百万 token 上下文是 V4 最核心的工程卖点之一，因为长上下文推理的瓶颈通常会集中在注意力计算、KV cache 存储、显存带宽和跨设备通信上。^[2]^[7]
第三方 API 文档称 V4 的 1M 上下文依赖 Hybrid Attention 与 DSA sparse attention，但这一点应视为生态方说明，而不是完整技术论文级证据。^[3]
DeepSeek 官方 API 文档显示，V4-Pro 与 V4-Flash 可通过 OpenAI Chat Completions 接口和 Anthropic 兼容接口调用，模型名分别为 deepseek-v4-pro 和 deepseek-v4-flash。^[12]^[16]
官方更新日志称旧模型名 deepseek-chat 与 deepseek-reasoner 将在 2026-07-24 后停止使用，并在过渡期分别指向新的 V4 系列模型。^[12]
NVIDIA 的开发者材料把 V4 定位为面向高效百万 token 上下文推理的模型，并提到可在 Blackwell 与 GPU 加速端点上构建应用。^[2]
SGLang / LMSYS 生态方称其在发布日提供了 DeepSeek-V4 的推理与 RL 训练支持，这说明 V4 的工程影响不只是模型本身，还包括开源 serving / training stack 的适配。^[11]

为什么说它“工程量很大”

参数规模与激活规模的差异很大：V4-Pro 是 1.6T 总参数但每次只激活 49B 参数，这要求路由、专家并行、负载均衡和通信调度都足够稳定，否则 MoE 的理论效率会被系统开销吃掉。^[2]^[5]
1M 上下文会显著放大 KV cache 与注意力计算压力，因此如果没有稀疏注意力、分层缓存、分页 KV 或类似机制，推理成本会很难控制。^[2]^[3]
V4-Flash 的 284B 总参数 / 13B 激活参数定位明显偏向低成本、高吞吐服务，而 V4-Pro 则偏向能力上限，这是一种“同架构、多成本档位”的产品工程策略。^[2]^[5]
API 层同时兼容 OpenAI 与 Anthropic 格式，降低了迁移成本；这类兼容性本身不是模型创新，但对实际采用率很关键。^[12]^[16]
Day-0 生态支持意味着模型权重、推理 kernel、调度器、并行策略和训练/强化学习工具链需要快速协同适配，这通常比单纯发布权重更复杂。^[11]

Evidence notes

最强证据来自 DeepSeek 官方 API/公告页面和 NVIDIA 开发者材料；这些来源能支持模型名称、参数规模、上下文长度和 API 支持等事实。^[2]^[5]^[7]^[12]
关于 Hybrid Attention、DSA sparse attention 等具体架构细节，目前我找到的强证据主要来自生态方或聚合文档，不等同于完整官方技术报告或同行评审论文。^[3]
学术搜索没有找到明确的 DeepSeek-V4 专门技术报告；只找到与长上下文、混合架构相关的相邻研究，因此不能用它来严格证明 V4 的内部实现。^[1]

Limitations / uncertainty

Insufficient evidence：目前没有足够独立证据确认 V4 在所有公开 benchmark 上“比肩顶级闭源模型”的具体幅度。
Insufficient evidence：没有足够证据验证视频或文章中可能提到的所有内部工程细节，例如训练成本、具体 GPU 数量、完整数据配方、路由算法细节或真实线上延迟。
Insufficient evidence：若有人声称 V4 使用某些未被官方技术报告明确确认的专有机制，应先视为未经充分验证的说法。

Summary

DeepSeek V4 的核心看点是：用 MoE 把总容量做到万亿级，同时把每 token 激活参数压到几十 B；再用百万 token 上下文、稀疏/混合注意力和工程化 serving stack，把超长上下文模型做成可调用的 API 产品。^[2]^[5]^[7]^[12] 这确实是复杂系统工程，但目前应把“规格与可用性”视为较可靠事实，把“性能领先幅度与内部实现细节”视为仍需独立验证的部分。

來源

[1] Build with DeepSeek V4 Using NVIDIA Blackwell and GPU ...developer.nvidia.com
DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference. DeepSeek-V4-Pro is the largest model in the family, with 1.6T total param...
[2] DeepSeek V4-Pro / V4-Flash Launch: 1M Context + Open ... - API易docs.apiyi.com
- Two models launched : deepseek-v4-pro (1.6T total / 49B active) and deepseek-v4-flash (284B total / 13B active), both MoE - 1M context : Full 1,000,000-token context across the family, powered by a new Hybrid Attention architecture + DSA sparse attention...
[4] HyperAIbeta.hyper.ai
We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context l...
[5] DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with ...lmsys.org
- HiSparse: Turbocharging Sparse Attention with Hierarchical Memory ... The SGLang and Miles TeamApril 25, 2026 We are thrilled to announce Day-0 support for DeepSeek-V4 across both inference and RL training. SGLang and Miles form the first open-source stac...
[14] Dedicated Optimizations For...api-docs.deepseek.com
DeepSeek V4 Preview Release 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. Performance rivaling the world's top closed-source models. 🔹 D...
[15] DeepSeek-V4 预览版：迈入百万上下文普惠时代api-docs.deepseek.com
DeepSeek-V4 预览版：迈入百万上下文普惠时代今天，我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。 DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本：即日起登录官网 chat.deepseek.com 或官方App，即可与最新的 DeepSeek-V4 对话，探索 1M 超长上下文记忆的全新体验。API 服务已同步更新，通过修改 model name 为 deepseek-v4-pr...
[17] 模型& 价格 - DeepSeek API Docsapi-docs.deepseek.com
模型细节模型模型 deepseek-v4-flash^(1)^ deepseek-v4-pro -- -- -- -- BASE URL (OpenAI 格式) BASE URL (OpenAI 格式) BASE URL (Anthropic 格式) BASE URL (Anthropic 格式) 模型版本模型版本 DeepSeek-V4-Flash DeepSeek-V4-Pro 思考模式思考模式支持非思考与思考模式（默认）切换方式详见思考模式支持非思考与思考模式（默认）切换方式详见思考...
[18] 更新日志 - DeepSeek API Docsapi-docs.deepseek.com
时间: 2026-04-24 DeepSeek-V4 DeepSeek API 已支持 V4-Pro 与 V4-Flash，支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时，base url 不变, model 参数需要改为或旧有的 API 接口的两个模型名与将于三个月后（2026-07-24）停止使用。当前阶段内，这两个模型名分别指向的非思考模式与思考模式。 ... 我们非正式部署了 DeepSeek-V3.2-Speciale 的 API...
[19] Change Log | DeepSeek API Docsapi-docs.deepseek.com
Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the base url remains unchanged, and the model parameter should b...
[20] DeepSeek API Docs: Your First API Callapi-docs.deepseek.com
Your First API Call The DeepSeek API uses an API format compatible with OpenAI/Anthropic. By modifying the configuration, you can use the OpenAI/Anthropic SDK or softwares compatible with the OpenAI/Anthropic API to access the DeepSeek API. PARAM VALUE -- -...
[21] 首次调用APIapi-docs.deepseek.com
DeepSeek API 使用与 OpenAI/Anthropic 兼容的 API 格式，通过修改配置，您可以使用 OpenAI/Anthropic SDK 来访问 DeepSeek API，或使用与 OpenAI/Anthropic API 兼容的软件。 PARAM VALUE -- -- base url (OpenAI) base url (Anthropic) api key apply for an API key model (将于 2026/07/24 弃用) (将于 2026/07/24 弃用...
[22] Transparency Center - DeepSeekdeepseek.com
Learn about DeepSeek's published models Model Principles and Training Methodology View Details V4.0DeepSeek-V4New Release Date April 24, 2026 Model CardTechnical ReportV3.2DeepSeek-V3.2 Release Date December 1, 2025 Model CardTechnical Report

熱門發現

報告已發布2026年5月3日Last edited 2026年5月6日12 來源

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

12K0

已確認規格：Pro 衝上限，Flash 衝效率

項目	DeepSeek-V4-Pro	DeepSeek-V4-Flash
公開規模	1.6T 總參數／49B 啟用參數（active parameters）^[1]^[14]	284B 總參數／13B 啟用參數（active parameters）^[1]^[14]
Context window	最高 1M token ^[1]^[17]	最高 1M token ^[1]^[17]
產品定位	V4 家族入面最大型的模型 ^[1]	面向更高速、更高效率的負載 ^[1]
API 模型名	`deepseek-v4-pro` ^[18]^[20]	`deepseek-v4-flash` ^[18]^[20]

MoE 點解重要：容量同單次推理成本唔再完全綁死

1M token context：用戶見到的是方便，服務端承受的是壓力

注意力架構：方向清楚，但術語要小心讀

API 落地：遷移成本被放入產品設計

text

model: deepseek-v4-pro
model: deepseek-v4-flash

OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic

邊啲說法仍然要獨立驗證？

實用結論

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

DeepSeek V4 唔應該只當成「1M context 模型」：V4 Pro 是 1.6T 總參數／49B active，V4 Flash 是 284B／13B active，兩者都支援最高 1M token context。[1][14][17]
API 遷移重點好直接：新模型名是 deepseek v4 pro、deepseek v4 flash；舊 deepseek chat、deepseek reasoner 計劃於 2026年7月24日棄用。[18][21]
真正要測的不是能否塞滿 100萬 token，而是在長文件、程式碼庫、RAG、Agent workflow 入面，延遲、成本、遠距引用穩定性同工具調用表現係咪過關。[1][17]

人們還問

「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」的簡短答案是什麼？

DeepSeek V4 唔應該只當成「1M context 模型」：V4 Pro 是 1.6T 總參數／49B active，V4 Flash 是 284B／13B active，兩者都支援最高 1M token context。[1][14][17]

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

真正要測的不是能否塞滿 100萬 token，而是在長文件、程式碼庫、RAG、Agent workflow 入面，延遲、成本、遠距引用穩定性同工具調用表現係咪過關。[1][17]

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

PocketOS 資料庫被刪：Claude/Cursor 事件真正警號唔係「AI 發癲」

PocketOS 資料庫刪除事件：Claude/Cursor 風波真正揭示咩？

研究對話

你2026年5月3日

研究問題

研究「The insane engineering of Deepseek V4」

Studio Global AI2026年5月3日26 來源

引用的答案

Key findings

DeepSeek-V4 预览版已上线，官方称其支持 1M 超长上下文，并分为 V4-Pro 与 V4-Flash 两个版本。^[7]
V4-Pro 的公开规格是 1.6T 总参数、49B 激活参数；V4-Flash 的公开规格是 284B 总参数、13B 激活参数。^[2]^[5]
这说明 V4 继续采用稀疏激活的 MoE 思路：模型总容量很大，但每个 token 只激活一小部分参数，从而把“模型容量”和“推理成本”部分解耦。^[2]^[5]
百万 token 上下文是 V4 最核心的工程卖点之一，因为长上下文推理的瓶颈通常会集中在注意力计算、KV cache 存储、显存带宽和跨设备通信上。^[2]^[7]
第三方 API 文档称 V4 的 1M 上下文依赖 Hybrid Attention 与 DSA sparse attention，但这一点应视为生态方说明，而不是完整技术论文级证据。^[3]
DeepSeek 官方 API 文档显示，V4-Pro 与 V4-Flash 可通过 OpenAI Chat Completions 接口和 Anthropic 兼容接口调用，模型名分别为 deepseek-v4-pro 和 deepseek-v4-flash。^[12]^[16]
官方更新日志称旧模型名 deepseek-chat 与 deepseek-reasoner 将在 2026-07-24 后停止使用，并在过渡期分别指向新的 V4 系列模型。^[12]
NVIDIA 的开发者材料把 V4 定位为面向高效百万 token 上下文推理的模型，并提到可在 Blackwell 与 GPU 加速端点上构建应用。^[2]
SGLang / LMSYS 生态方称其在发布日提供了 DeepSeek-V4 的推理与 RL 训练支持，这说明 V4 的工程影响不只是模型本身，还包括开源 serving / training stack 的适配。^[11]

为什么说它“工程量很大”

参数规模与激活规模的差异很大：V4-Pro 是 1.6T 总参数但每次只激活 49B 参数，这要求路由、专家并行、负载均衡和通信调度都足够稳定，否则 MoE 的理论效率会被系统开销吃掉。^[2]^[5]
1M 上下文会显著放大 KV cache 与注意力计算压力，因此如果没有稀疏注意力、分层缓存、分页 KV 或类似机制，推理成本会很难控制。^[2]^[3]
V4-Flash 的 284B 总参数 / 13B 激活参数定位明显偏向低成本、高吞吐服务，而 V4-Pro 则偏向能力上限，这是一种“同架构、多成本档位”的产品工程策略。^[2]^[5]
API 层同时兼容 OpenAI 与 Anthropic 格式，降低了迁移成本；这类兼容性本身不是模型创新，但对实际采用率很关键。^[12]^[16]
Day-0 生态支持意味着模型权重、推理 kernel、调度器、并行策略和训练/强化学习工具链需要快速协同适配，这通常比单纯发布权重更复杂。^[11]

Evidence notes

最强证据来自 DeepSeek 官方 API/公告页面和 NVIDIA 开发者材料；这些来源能支持模型名称、参数规模、上下文长度和 API 支持等事实。^[2]^[5]^[7]^[12]
关于 Hybrid Attention、DSA sparse attention 等具体架构细节，目前我找到的强证据主要来自生态方或聚合文档，不等同于完整官方技术报告或同行评审论文。^[3]
学术搜索没有找到明确的 DeepSeek-V4 专门技术报告；只找到与长上下文、混合架构相关的相邻研究，因此不能用它来严格证明 V4 的内部实现。^[1]

Limitations / uncertainty

Insufficient evidence：目前没有足够独立证据确认 V4 在所有公开 benchmark 上“比肩顶级闭源模型”的具体幅度。
Insufficient evidence：没有足够证据验证视频或文章中可能提到的所有内部工程细节，例如训练成本、具体 GPU 数量、完整数据配方、路由算法细节或真实线上延迟。
Insufficient evidence：若有人声称 V4 使用某些未被官方技术报告明确确认的专有机制，应先视为未经充分验证的说法。

Summary

來源

[1] Build with DeepSeek V4 Using NVIDIA Blackwell and GPU ...developer.nvidia.com
DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference. DeepSeek-V4-Pro is the largest model in the family, with 1.6T total param...
[2] DeepSeek V4-Pro / V4-Flash Launch: 1M Context + Open ... - API易docs.apiyi.com
- Two models launched : deepseek-v4-pro (1.6T total / 49B active) and deepseek-v4-flash (284B total / 13B active), both MoE - 1M context : Full 1,000,000-token context across the family, powered by a new Hybrid Attention architecture + DSA sparse attention...
[4] HyperAIbeta.hyper.ai
We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context l...
[5] DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with ...lmsys.org
- HiSparse: Turbocharging Sparse Attention with Hierarchical Memory ... The SGLang and Miles TeamApril 25, 2026 We are thrilled to announce Day-0 support for DeepSeek-V4 across both inference and RL training. SGLang and Miles form the first open-source stac...
[14] Dedicated Optimizations For...api-docs.deepseek.com
DeepSeek V4 Preview Release 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. Performance rivaling the world's top closed-source models. 🔹 D...
[15] DeepSeek-V4 预览版：迈入百万上下文普惠时代api-docs.deepseek.com
DeepSeek-V4 预览版：迈入百万上下文普惠时代今天，我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。 DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本：即日起登录官网 chat.deepseek.com 或官方App，即可与最新的 DeepSeek-V4 对话，探索 1M 超长上下文记忆的全新体验。API 服务已同步更新，通过修改 model name 为 deepseek-v4-pr...
[17] 模型& 价格 - DeepSeek API Docsapi-docs.deepseek.com
模型细节模型模型 deepseek-v4-flash^(1)^ deepseek-v4-pro -- -- -- -- BASE URL (OpenAI 格式) BASE URL (OpenAI 格式) BASE URL (Anthropic 格式) BASE URL (Anthropic 格式) 模型版本模型版本 DeepSeek-V4-Flash DeepSeek-V4-Pro 思考模式思考模式支持非思考与思考模式（默认）切换方式详见思考模式支持非思考与思考模式（默认）切换方式详见思考...
[18] 更新日志 - DeepSeek API Docsapi-docs.deepseek.com
时间: 2026-04-24 DeepSeek-V4 DeepSeek API 已支持 V4-Pro 与 V4-Flash，支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时，base url 不变, model 参数需要改为或旧有的 API 接口的两个模型名与将于三个月后（2026-07-24）停止使用。当前阶段内，这两个模型名分别指向的非思考模式与思考模式。 ... 我们非正式部署了 DeepSeek-V3.2-Speciale 的 API...
[19] Change Log | DeepSeek API Docsapi-docs.deepseek.com
Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the base url remains unchanged, and the model parameter should b...
[20] DeepSeek API Docs: Your First API Callapi-docs.deepseek.com
Your First API Call The DeepSeek API uses an API format compatible with OpenAI/Anthropic. By modifying the configuration, you can use the OpenAI/Anthropic SDK or softwares compatible with the OpenAI/Anthropic API to access the DeepSeek API. PARAM VALUE -- -...
[21] 首次调用APIapi-docs.deepseek.com
DeepSeek API 使用与 OpenAI/Anthropic 兼容的 API 格式，通过修改配置，您可以使用 OpenAI/Anthropic SDK 来访问 DeepSeek API，或使用与 OpenAI/Anthropic API 兼容的软件。 PARAM VALUE -- -- base url (OpenAI) base url (Anthropic) api key apply for an API key model (将于 2026/07/24 弃用) (将于 2026/07/24 弃用...
[22] Transparency Center - DeepSeekdeepseek.com
Learn about DeepSeek's published models Model Principles and Training Methodology View Details V4.0DeepSeek-V4New Release Date April 24, 2026 Model CardTechnical ReportV3.2DeepSeek-V3.2 Release Date December 1, 2025 Model CardTechnical Report

熱門發現

報告已發布2026年5月3日Last edited 2026年5月6日12 來源

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

12K0

已確認規格：Pro 衝上限，Flash 衝效率

項目	DeepSeek-V4-Pro	DeepSeek-V4-Flash
公開規模	1.6T 總參數／49B 啟用參數（active parameters）^[1]^[14]	284B 總參數／13B 啟用參數（active parameters）^[1]^[14]
Context window	最高 1M token ^[1]^[17]	最高 1M token ^[1]^[17]
產品定位	V4 家族入面最大型的模型 ^[1]	面向更高速、更高效率的負載 ^[1]
API 模型名	`deepseek-v4-pro` ^[18]^[20]	`deepseek-v4-flash` ^[18]^[20]

MoE 點解重要：容量同單次推理成本唔再完全綁死

1M token context：用戶見到的是方便，服務端承受的是壓力

注意力架構：方向清楚，但術語要小心讀

API 落地：遷移成本被放入產品設計

text

model: deepseek-v4-pro
model: deepseek-v4-flash

OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic

邊啲說法仍然要獨立驗證？

實用結論

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

DeepSeek V4 唔應該只當成「1M context 模型」：V4 Pro 是 1.6T 總參數／49B active，V4 Flash 是 284B／13B active，兩者都支援最高 1M token context。[1][14][17]
API 遷移重點好直接：新模型名是 deepseek v4 pro、deepseek v4 flash；舊 deepseek chat、deepseek reasoner 計劃於 2026年7月24日棄用。[18][21]
真正要測的不是能否塞滿 100萬 token，而是在長文件、程式碼庫、RAG、Agent workflow 入面，延遲、成本、遠距引用穩定性同工具調用表現係咪過關。[1][17]

人們還問

「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」的簡短答案是什麼？

DeepSeek V4 唔應該只當成「1M context 模型」：V4 Pro 是 1.6T 總參數／49B active，V4 Flash 是 284B／13B active，兩者都支援最高 1M token context。[1][14][17]

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

真正要測的不是能否塞滿 100萬 token，而是在長文件、程式碼庫、RAG、Agent workflow 入面，延遲、成本、遠距引用穩定性同工具調用表現係咪過關。[1][17]

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

你2026年5月3日

研究問題

研究「The insane engineering of Deepseek V4」

Studio Global AI2026年5月3日26 來源

引用的答案

Key findings

DeepSeek-V4 预览版已上线，官方称其支持 1M 超长上下文，并分为 V4-Pro 与 V4-Flash 两个版本。^[7]
V4-Pro 的公开规格是 1.6T 总参数、49B 激活参数；V4-Flash 的公开规格是 284B 总参数、13B 激活参数。^[2]^[5]
这说明 V4 继续采用稀疏激活的 MoE 思路：模型总容量很大，但每个 token 只激活一小部分参数，从而把“模型容量”和“推理成本”部分解耦。^[2]^[5]
百万 token 上下文是 V4 最核心的工程卖点之一，因为长上下文推理的瓶颈通常会集中在注意力计算、KV cache 存储、显存带宽和跨设备通信上。^[2]^[7]
第三方 API 文档称 V4 的 1M 上下文依赖 Hybrid Attention 与 DSA sparse attention，但这一点应视为生态方说明，而不是完整技术论文级证据。^[3]
DeepSeek 官方 API 文档显示，V4-Pro 与 V4-Flash 可通过 OpenAI Chat Completions 接口和 Anthropic 兼容接口调用，模型名分别为 deepseek-v4-pro 和 deepseek-v4-flash。^[12]^[16]
官方更新日志称旧模型名 deepseek-chat 与 deepseek-reasoner 将在 2026-07-24 后停止使用，并在过渡期分别指向新的 V4 系列模型。^[12]
NVIDIA 的开发者材料把 V4 定位为面向高效百万 token 上下文推理的模型，并提到可在 Blackwell 与 GPU 加速端点上构建应用。^[2]
SGLang / LMSYS 生态方称其在发布日提供了 DeepSeek-V4 的推理与 RL 训练支持，这说明 V4 的工程影响不只是模型本身，还包括开源 serving / training stack 的适配。^[11]

为什么说它“工程量很大”

参数规模与激活规模的差异很大：V4-Pro 是 1.6T 总参数但每次只激活 49B 参数，这要求路由、专家并行、负载均衡和通信调度都足够稳定，否则 MoE 的理论效率会被系统开销吃掉。^[2]^[5]
1M 上下文会显著放大 KV cache 与注意力计算压力，因此如果没有稀疏注意力、分层缓存、分页 KV 或类似机制，推理成本会很难控制。^[2]^[3]
V4-Flash 的 284B 总参数 / 13B 激活参数定位明显偏向低成本、高吞吐服务，而 V4-Pro 则偏向能力上限，这是一种“同架构、多成本档位”的产品工程策略。^[2]^[5]
API 层同时兼容 OpenAI 与 Anthropic 格式，降低了迁移成本；这类兼容性本身不是模型创新，但对实际采用率很关键。^[12]^[16]
Day-0 生态支持意味着模型权重、推理 kernel、调度器、并行策略和训练/强化学习工具链需要快速协同适配，这通常比单纯发布权重更复杂。^[11]

Evidence notes

最强证据来自 DeepSeek 官方 API/公告页面和 NVIDIA 开发者材料；这些来源能支持模型名称、参数规模、上下文长度和 API 支持等事实。^[2]^[5]^[7]^[12]
关于 Hybrid Attention、DSA sparse attention 等具体架构细节，目前我找到的强证据主要来自生态方或聚合文档，不等同于完整官方技术报告或同行评审论文。^[3]
学术搜索没有找到明确的 DeepSeek-V4 专门技术报告；只找到与长上下文、混合架构相关的相邻研究，因此不能用它来严格证明 V4 的内部实现。^[1]

Limitations / uncertainty

Insufficient evidence：目前没有足够独立证据确认 V4 在所有公开 benchmark 上“比肩顶级闭源模型”的具体幅度。
Insufficient evidence：没有足够证据验证视频或文章中可能提到的所有内部工程细节，例如训练成本、具体 GPU 数量、完整数据配方、路由算法细节或真实线上延迟。
Insufficient evidence：若有人声称 V4 使用某些未被官方技术报告明确确认的专有机制，应先视为未经充分验证的说法。

Summary

來源

[1] Build with DeepSeek V4 Using NVIDIA Blackwell and GPU ...developer.nvidia.com
DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference. DeepSeek-V4-Pro is the largest model in the family, with 1.6T total param...
[2] DeepSeek V4-Pro / V4-Flash Launch: 1M Context + Open ... - API易docs.apiyi.com
- Two models launched : deepseek-v4-pro (1.6T total / 49B active) and deepseek-v4-flash (284B total / 13B active), both MoE - 1M context : Full 1,000,000-token context across the family, powered by a new Hybrid Attention architecture + DSA sparse attention...
[4] HyperAIbeta.hyper.ai
We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context l...
[5] DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with ...lmsys.org
- HiSparse: Turbocharging Sparse Attention with Hierarchical Memory ... The SGLang and Miles TeamApril 25, 2026 We are thrilled to announce Day-0 support for DeepSeek-V4 across both inference and RL training. SGLang and Miles form the first open-source stac...
[14] Dedicated Optimizations For...api-docs.deepseek.com
DeepSeek V4 Preview Release 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. Performance rivaling the world's top closed-source models. 🔹 D...
[15] DeepSeek-V4 预览版：迈入百万上下文普惠时代api-docs.deepseek.com
DeepSeek-V4 预览版：迈入百万上下文普惠时代今天，我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。 DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本：即日起登录官网 chat.deepseek.com 或官方App，即可与最新的 DeepSeek-V4 对话，探索 1M 超长上下文记忆的全新体验。API 服务已同步更新，通过修改 model name 为 deepseek-v4-pr...
[17] 模型& 价格 - DeepSeek API Docsapi-docs.deepseek.com
模型细节模型模型 deepseek-v4-flash^(1)^ deepseek-v4-pro -- -- -- -- BASE URL (OpenAI 格式) BASE URL (OpenAI 格式) BASE URL (Anthropic 格式) BASE URL (Anthropic 格式) 模型版本模型版本 DeepSeek-V4-Flash DeepSeek-V4-Pro 思考模式思考模式支持非思考与思考模式（默认）切换方式详见思考模式支持非思考与思考模式（默认）切换方式详见思考...
[18] 更新日志 - DeepSeek API Docsapi-docs.deepseek.com
时间: 2026-04-24 DeepSeek-V4 DeepSeek API 已支持 V4-Pro 与 V4-Flash，支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时，base url 不变, model 参数需要改为或旧有的 API 接口的两个模型名与将于三个月后（2026-07-24）停止使用。当前阶段内，这两个模型名分别指向的非思考模式与思考模式。 ... 我们非正式部署了 DeepSeek-V3.2-Speciale 的 API...
[19] Change Log | DeepSeek API Docsapi-docs.deepseek.com
Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the base url remains unchanged, and the model parameter should b...
[20] DeepSeek API Docs: Your First API Callapi-docs.deepseek.com
Your First API Call The DeepSeek API uses an API format compatible with OpenAI/Anthropic. By modifying the configuration, you can use the OpenAI/Anthropic SDK or softwares compatible with the OpenAI/Anthropic API to access the DeepSeek API. PARAM VALUE -- -...
[21] 首次调用APIapi-docs.deepseek.com
DeepSeek API 使用与 OpenAI/Anthropic 兼容的 API 格式，通过修改配置，您可以使用 OpenAI/Anthropic SDK 来访问 DeepSeek API，或使用与 OpenAI/Anthropic API 兼容的软件。 PARAM VALUE -- -- base url (OpenAI) base url (Anthropic) api key apply for an API key model (将于 2026/07/24 弃用) (将于 2026/07/24 弃用...
[22] Transparency Center - DeepSeekdeepseek.com
Learn about DeepSeek's published models Model Principles and Training Methodology View Details V4.0DeepSeek-V4New Release Date April 24, 2026 Model CardTechnical ReportV3.2DeepSeek-V3.2 Release Date December 1, 2025 Model CardTechnical Report