studioglobal
인기 있는 발견
보고서게시됨12 소스

DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트

DeepSeek V4의 핵심은 단일 숫자가 아니라 조합이다. V4 Pro는 1.6T/49B active, V4 Flash는 284B/13B active 규모이며 둘 다 최대 1M 토큰 컨텍스트를 지원한다. API 이전은 비교적 단순하다.

12K0
DeepSeek V4 工程架构示意图,包含 1M 上下文、MoE 专家路由和 API 服务化元素
DeepSeek V4 工程解析:1M 上下文背后的 MoE 与 API 落地AI 生成的 DeepSeek V4 工程示意图,表现百万 token 上下文、MoE 专家路由与 API 服务化。
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 工程解析:1M 上下文背后的 MoE 与 API 落地. Article summary: DeepSeek V4 的核心是系统工程组合:2026 04 24 发布的 V4 Pro(1.6T/49B active)与 V4 Flash(284B/13B active)都面向 1M token 上下文;可靠事实是规格和 API 已公开,性能领先幅度与部分内部机制仍需独立验证。. Topic tags: ai, deepseek, llm, mixture of experts, long context. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" source context "DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底 - iTech - 博客园" Reference image 2: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" sour

openai.com

DeepSeek V4를 단순히 ‘100만 토큰 컨텍스트 모델’로만 보면 핵심을 절반쯤 놓치게 된다. 공개 자료를 종합하면 V4는 모델과 서비스 스택을 함께 묶은 출시다. V4-Pro와 V4-Flash라는 두 등급, 공개된 총 파라미터와 활성 파라미터, 100만 토큰 창, 그리고 OpenAI·Anthropic 호환 API 호출 방식이 한 제품군 안에 들어왔다.[18][20]

DeepSeek 투명성 센터는 V4.0 DeepSeek-V4의 출시일을 2026년 4월 24일로 표기하고, Model Card와 Technical Report로 이어지는 항목을 제공한다. 공식 공지도 DeepSeek-V4 Preview가 출시됐고 동시에 오픈소스로 공개됐다고 밝혔다.[22][14][15]

확인된 사양: Pro는 상한, Flash는 효율

항목DeepSeek-V4-ProDeepSeek-V4-Flash
공개 규모총 1.6T 파라미터 / 49B 활성 파라미터 [1][14]총 284B 파라미터 / 13B 활성 파라미터 [1][14]
컨텍스트 창최대 1M 토큰 [1][17]최대 1M 토큰 [1][17]
제품 포지션V4 제품군에서 가장 큰 모델 [1]더 빠르고 효율적인 워크로드용 모델 [1]
API 모델명deepseek-v4-pro [18][20]deepseek-v4-flash [18][20]

DeepSeek의 모델·가격 문서는 두 모델의 최대 출력 길이를 384K로 제시하고, Json Output과 Tool Calls 같은 기능도 지원한다고 안내한다.[17] 이 사양을 보면 V4의 공학적 초점은 단순히 파라미터나 컨텍스트 창을 크게 키운 데 있지 않다. 성능 상한을 노리는 등급과 효율을 노리는 등급을 모두 실제 호출 가능한 제품으로 만든 점이 중요하다.

MoE의 의미: 모델 용량과 1회 추론 비용을 일부 분리한다

API易와 HyperAI 등 공개 자료는 V4-Pro와 V4-Flash를 Mixture-of-Experts, 즉 MoE 모델로 설명한다.[2][4] MoE 맥락에서 총 파라미터는 전문가 풀 전체의 용량에 가깝고, 활성 파라미터는 한 번의 추론에서 실제 계산에 참여하는 부분집합을 뜻한다. V4 사양이 total parameters와 active parameters를 함께 강조하는 이유도 여기에 있다.[1][2][4][14]

이 설계의 장점은 모델의 전체 용량과 매번 쓰는 계산량을 어느 정도 떼어놓을 수 있다는 점이다. 대신 서버 쪽에서는 전문가 라우팅, 전문가 병렬화, 통신, 부하 균형 같은 문제가 더 커진다. SGLang/Miles 팀은 V4 공개 이후 추론과 RL 학습 지원을 제공한다고 밝히며, 자사 스택이 V4의 hybrid sparse-attention, mHC, FP4 expert weights에 맞춰 조정됐다고 설명했다. 이는 난도가 모델 파일을 넘어 serving/training stack까지 확장됐다는 신호다.[5]

1M 토큰 컨텍스트: 진짜 압박은 서버에서 온다

NVIDIA 개발자 자료는 V4-Pro와 V4-Flash를 효율적인 million-token context inference를 위한 모델로 소개하며, 장문 코드, 문서 분석, 검색, agentic AI 워크플로를 활용처로 든다.[1] DeepSeek API 문서도 두 모델의 컨텍스트 길이를 1M으로 제시한다.[17]

사용자 입장에서 1M 컨텍스트의 직접적인 이점은 문서를 잘게 나누고 다시 붙이는 작업, 또는 검색 과정에서 빠지는 정보를 줄일 수 있다는 데 있다. 반대로 서비스 제공자 입장에서는 주의 연산, 컨텍스트 캐시, GPU 메모리와 대역폭, 처리량 스케줄링 부담이 함께 커진다. 그래서 V4를 평가할 때는 창 크기 숫자만 볼 일이 아니다. 실제 코드 저장소, 장문 문서, RAG(검색증강생성), Agent 도구 체인에서 지연시간, 비용, 장거리 참조 안정성, 도구 호출 품질을 같이 테스트해야 한다.[1][17]

어텐션 구조: 방향은 보이지만 용어는 조심해야 한다

장문 컨텍스트 효율을 둘러싼 공개 자료의 용어는 완전히 일치하지 않는다. API易는 V4의 1M 컨텍스트가 Hybrid Attention과 DSA sparse attention으로 뒷받침된다고 설명한다.[2] HyperAI 요약은 hybrid attention이 Compressed Sparse Attention(CSA)과 Heavily Compressed Attention(HCA)을 결합한다고 쓰고, mHC도 언급한다.[4] SGLang/Miles는 자사 오픈소스 스택이 hybrid sparse-attention, mHC, FP4 expert weights에 맞춰 조정됐다고 밝혔다.[5]

가장 안전한 해석은 이렇다. V4 생태계 자료는 대체로 ‘희소·압축·혼합 어텐션 + 서비스 스택 최적화’라는 방향을 가리킨다. 다만 구체적인 모듈명, 구현 세부사항, 성능 향상 폭은 2차 요약이나 영상만으로 단정하기 어렵다. 확인이 필요하다면 DeepSeek 투명성 센터에 올라온 Model Card와 Technical Report를 기준으로 대조하는 편이 낫다.[22]

API 적용: 이전 비용까지 제품 설계에 포함됐다

DeepSeek 업데이트 로그에 따르면 API는 V4-Pro와 V4-Flash를 지원하며, OpenAI ChatCompletions 인터페이스와 Anthropic 인터페이스로 호출할 수 있다. 새 모델을 쓰려면 base_url은 그대로 두고 model 파라미터만 deepseek-v4-pro 또는 deepseek-v4-flash로 바꾸면 된다.[18][19] 공식 첫 API 호출 문서는 OpenAI 형식의 base URL을 https://api.deepseek.com, Anthropic 형식의 base URL을 https://api.deepseek.com/anthropic으로 안내한다.[20][21]

text
model: deepseek-v4-pro
model: deepseek-v4-flash

OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic

기존 모델명에도 일정이 있다. deepseek-chatdeepseek-reasoner는 2026년 7월 24일 폐기될 예정이며, 전환 기간에는 각각 deepseek-v4-flash의 비사고 모드와 사고 모드를 가리킨다.[18][19][21] 이미 운영 중인 애플리케이션이라면 먼저 모델명을 교체하고, Pro와 Flash 중 어느 쪽을 쓸지 정한 뒤, 장문 컨텍스트·Tool Calls·출력 길이·비용에 대한 회귀 테스트를 돌리는 것이 현실적인 순서다.[17][18]

아직 독립 검증이 필요한 주장들

첫째, 성능 우위의 폭은 신중하게 봐야 한다. 공식 중국어 발표는 V4-Pro가 Agent, 세계 지식, 추론 능력에서 중국 내·오픈소스 영역의 선도 수준에 도달했다고 주장하고, 일부 폐쇄형 모델과의 체감 비교도 제시한다. API易 역시 SWE-Verified 같은 벤치마크 점수를 열거한다.[15][2] 이는 발표 주체와 생태계 쪽의 주장으로 참고할 수 있지만, 프롬프트, 비용 제약, 업무 유형이 달라지면 결과도 달라질 수 있다. 실제 도입 여부는 독립적인 재현 테스트로 판단하는 편이 안전하다.

둘째, 내부 메커니즘은 출처 층위를 나눠 읽어야 한다. Hybrid Attention, DSA, CSA, HCA, mHC, FP4 expert weights 같은 용어는 여러 공개 자료에 등장하지만, 출처의 성격과 명명 방식이 서로 다르다.[2][4][5] 공식 기술 보고서 밖에서 이 모든 용어를 ‘완전히 검증된 구현 사실’로 받아들이는 것은 성급하다.[22]

셋째, 1M 컨텍스트가 모든 풀윈도 요청의 저지연·저비용을 자동으로 보장하지는 않는다. 공식 및 생태계 자료로 확인할 수 있는 것은 V4의 사양 방향과 호출 가능성이다. 실제 서비스 성능은 입력 문서 길이, 캐시 적중률, 동시 요청 수, 도구 호출 체인, 평가 기준에 따라 달라진다.[1][17][18]

실용적 결론

DeepSeek V4의 ‘큰 공학’은 조합에 있다. V4-Pro의 1.6T/49B active, V4-Flash의 284B/13B active, 최대 1M 토큰 컨텍스트, OpenAI·Anthropic 호환 API가 하나의 호출 가능한 제품군으로 묶였다.[1][14][17][18] 개발자에게 당장 중요한 일은 홍보 문구를 반복하는 것이 아니라, 자신의 장문 문서, 코드베이스, RAG, Agent 워크플로에서 끝까지 테스트하는 것이다. 기존 모델명을 쓰고 있다면 2026년 7월 24일 전까지 이전 작업도 마쳐야 한다.[18][21]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • DeepSeek V4의 핵심은 단일 숫자가 아니라 조합이다. V4 Pro는 1.6T/49B active, V4 Flash는 284B/13B active 규모이며 둘 다 최대 1M 토큰 컨텍스트를 지원한다.
  • API 이전은 비교적 단순하다. 새 모델명은 deepseek v4 pro와 deepseek v4 flash이며, 기존 deepseek chat과 deepseek reasoner는 2026년 7월 24일 폐기될 예정이다.
  • 평가는 ‘100만 토큰을 넣을 수 있는가’에서 끝나지 않는다. 실제 코드 저장소, 장문 문서, RAG, Agent 워크플로에서 지연시간, 비용, 장거리 참조 안정성, 도구 호출을 함께 봐야 한다.

사람들은 또한 묻습니다.

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대한 짧은 대답은 무엇입니까?

DeepSeek V4의 핵심은 단일 숫자가 아니라 조합이다. V4 Pro는 1.6T/49B active, V4 Flash는 284B/13B active 규모이며 둘 다 최대 1M 토큰 컨텍스트를 지원한다.

먼저 검증할 핵심 포인트는 무엇인가요?

DeepSeek V4의 핵심은 단일 숫자가 아니라 조합이다. V4 Pro는 1.6T/49B active, V4 Flash는 284B/13B active 규모이며 둘 다 최대 1M 토큰 컨텍스트를 지원한다. API 이전은 비교적 단순하다. 새 모델명은 deepseek v4 pro와 deepseek v4 flash이며, 기존 deepseek chat과 deepseek reasoner는 2026년 7월 24일 폐기될 예정이다.

실무에서는 다음으로 무엇을 해야 합니까?

평가는 ‘100만 토큰을 넣을 수 있는가’에서 끝나지 않는다. 실제 코드 저장소, 장문 문서, RAG, Agent 워크플로에서 지연시간, 비용, 장거리 참조 안정성, 도구 호출을 함께 봐야 한다.

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Northwest vs. Southeast Timber 탄력성 풀이: 왜 답은 larger; larger일까"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

研究「The insane engineering of Deepseek V4」

Studio Global AI26 소스

인용 답변

我把「The insane engineering of Deepseek V4」理解为:围绕 DeepSeek V4 的工程设计做一份可核查的研究摘要。结论是:V4 的“疯狂工程”主要不在单一算法,而在把超大 MoE、百万 token 上下文、稀疏/混合注意力、低活跃参数推理和服务栈适配组合到一起;但目前很多性能和架构细节仍主要来自官方或生态方材料,独立评测证据还不充分。

Key findings

  • DeepSeek-V4 预览版已上线,官方称其支持 1M 超长上下文,并分为 V4-Pro 与 V4-Flash 两个版本。[7]

  • V4-Pro 的公开规格是 1.6T 总参数、49B 激活参数;V4-Flash 的公开规格是 284B 总参数、13B 激活参数。[2][5]

  • 这说明 V4 继续采用稀疏激活的 MoE 思路:模型总容量很大,但每个 token 只激活一小部分参数,从而把“模型容量”和“推理成本”部分解耦。[2][5]

  • 百万 token 上下文是 V4 最核心的工程卖点之一,因为长上下文推理的瓶颈通常会集中在注意力计算、KV cache 存储、显存带宽和跨设备通信上。[2][7]

  • 第三方 API 文档称 V4 的 1M 上下文依赖 Hybrid Attention 与 DSA sparse attention,但这一点应视为生态方说明,而不是完整技术论文级证据。[3]

  • DeepSeek 官方 API 文档显示,V4-Pro 与 V4-Flash 可通过 OpenAI Chat Completions 接口和 Anthropic 兼容接口调用,模型名分别为 deepseek-v4-prodeepseek-v4-flash[12][16]

  • 官方更新日志称旧模型名 deepseek-chatdeepseek-reasoner 将在 2026-07-24 后停止使用,并在过渡期分别指向新的 V4 系列模型。[12]

  • NVIDIA 的开发者材料把 V4 定位为面向高效百万 token 上下文推理的模型,并提到可在 Blackwell 与 GPU 加速端点上构建应用。[2]

  • SGLang / LMSYS 生态方称其在发布日提供了 DeepSeek-V4 的推理与 RL 训练支持,这说明 V4 的工程影响不只是模型本身,还包括开源 serving / training stack 的适配。[11]

为什么说它“工程量很大”

  • 参数规模与激活规模的差异很大:V4-Pro 是 1.6T 总参数但每次只激活 49B 参数,这要求路由、专家并行、负载均衡和通信调度都足够稳定,否则 MoE 的理论效率会被系统开销吃掉。[2][5]

  • 1M 上下文会显著放大 KV cache 与注意力计算压力,因此如果没有稀疏注意力、分层缓存、分页 KV 或类似机制,推理成本会很难控制。[2][3]

  • V4-Flash 的 284B 总参数 / 13B 激活参数定位明显偏向低成本、高吞吐服务,而 V4-Pro 则偏向能力上限,这是一种“同架构、多成本档位”的产品工程策略。[2][5]

  • API 层同时兼容 OpenAI 与 Anthropic 格式,降低了迁移成本;这类兼容性本身不是模型创新,但对实际采用率很关键。[12][16]

  • Day-0 生态支持意味着模型权重、推理 kernel、调度器、并行策略和训练/强化学习工具链需要快速协同适配,这通常比单纯发布权重更复杂。[11]

Evidence notes

  • 最强证据来自 DeepSeek 官方 API/公告页面和 NVIDIA 开发者材料;这些来源能支持模型名称、参数规模、上下文长度和 API 支持等事实。[2][5][7][12]

  • 关于 Hybrid Attention、DSA sparse attention 等具体架构细节,目前我找到的强证据主要来自生态方或聚合文档,不等同于完整官方技术报告或同行评审论文。[3]

  • 学术搜索没有找到明确的 DeepSeek-V4 专门技术报告;只找到与长上下文、混合架构相关的相邻研究,因此不能用它来严格证明 V4 的内部实现。[1]

Limitations / uncertainty

  • Insufficient evidence:目前没有足够独立证据确认 V4 在所有公开 benchmark 上“比肩顶级闭源模型”的具体幅度。

  • Insufficient evidence:没有足够证据验证视频或文章中可能提到的所有内部工程细节,例如训练成本、具体 GPU 数量、完整数据配方、路由算法细节或真实线上延迟。

  • Insufficient evidence:若有人声称 V4 使用某些未被官方技术报告明确确认的专有机制,应先视为未经充分验证的说法。

Summary

DeepSeek V4 的核心看点是:用 MoE 把总容量做到万亿级,同时把每 token 激活参数压到几十 B;再用百万 token 上下文、稀疏/混合注意力和工程化 serving stack,把超长上下文模型做成可调用的 API 产品。[2][5][7][12] 这确实是复杂系统工程,但目前应把“规格与可用性”视为较可靠事实,把“性能领先幅度与内部实现细节”视为仍需独立验证的部分。

출처

  • [1] Build with DeepSeek V4 Using NVIDIA Blackwell and GPU ...developer.nvidia.com

    DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference. DeepSeek-V4-Pro is the largest model in the family, with 1.6T total param...

  • [2] DeepSeek V4-Pro / V4-Flash Launch: 1M Context + Open ... - API易docs.apiyi.com

    - Two models launched : deepseek-v4-pro (1.6T total / 49B active) and deepseek-v4-flash (284B total / 13B active), both MoE - 1M context : Full 1,000,000-token context across the family, powered by a new Hybrid Attention architecture + DSA sparse attention...

  • [4] HyperAIbeta.hyper.ai

    We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context l...

  • [5] DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with ...lmsys.org

    - HiSparse: Turbocharging Sparse Attention with Hierarchical Memory ... The SGLang and Miles TeamApril 25, 2026 We are thrilled to announce Day-0 support for DeepSeek-V4 across both inference and RL training. SGLang and Miles form the first open-source stac...

  • [14] Dedicated Optimizations For...api-docs.deepseek.com

    DeepSeek V4 Preview Release 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. Performance rivaling the world's top closed-source models. 🔹 D...

  • [15] DeepSeek-V4 预览版:迈入百万上下文普惠时代api-docs.deepseek.com

    DeepSeek-V4 预览版:迈入百万上下文普惠时代 今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。 DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本: 即日起登录官网 chat.deepseek.com 或官方App,即可与最新的 DeepSeek-V4 对话,探索 1M 超长上下文记忆的全新体验。API 服务已同步更新,通过修改 model name 为 deepseek-v4-pr...

  • [17] 模型& 价格 - DeepSeek API Docsapi-docs.deepseek.com

    模型细节 ​ 模型 模型 deepseek-v4-flash^(1)^ deepseek-v4-pro -- -- -- -- BASE URL (OpenAI 格式) BASE URL (OpenAI 格式) BASE URL (Anthropic 格式) BASE URL (Anthropic 格式) 模型版本 模型版本 DeepSeek-V4-Flash DeepSeek-V4-Pro 思考模式 思考模式 支持非思考与思考模式(默认) 切换方式详见思考模式 支持非思考与思考模式(默认) 切换方式详见思考...

  • [18] 更新日志 - DeepSeek API Docsapi-docs.deepseek.com

    时间: 2026-04-24​ DeepSeek-V4​ DeepSeek API 已支持 V4-Pro 与 V4-Flash,支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时,base url 不变, model 参数需要改为 或 旧有的 API 接口的两个模型名 与 将于三个月后(2026-07-24)停止使用。当前阶段内,这两个模型名分别 指向 的非思考模式与思考模式。 ... 我们非正式部署了 DeepSeek-V3.2-Speciale 的 API...

  • [19] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the base url remains unchanged, and the model parameter should b...

  • [20] DeepSeek API Docs: Your First API Callapi-docs.deepseek.com

    Your First API Call The DeepSeek API uses an API format compatible with OpenAI/Anthropic. By modifying the configuration, you can use the OpenAI/Anthropic SDK or softwares compatible with the OpenAI/Anthropic API to access the DeepSeek API. PARAM VALUE -- -...

  • [21] 首次调用APIapi-docs.deepseek.com

    DeepSeek API 使用与 OpenAI/Anthropic 兼容的 API 格式,通过修改配置,您可以使用 OpenAI/Anthropic SDK 来访问 DeepSeek API,或使用与 OpenAI/Anthropic API 兼容的软件。 PARAM VALUE -- -- base url (OpenAI) base url (Anthropic) api key apply for an API key model (将于 2026/07/24 弃用) (将于 2026/07/24 弃用...

  • [22] Transparency Center - DeepSeekdeepseek.com

    Learn about DeepSeek's published models Model Principles and Training Methodology View Details V4.0DeepSeek-V4New Release Date April 24, 2026 Model CardTechnical ReportV3.2DeepSeek-V3.2 Release Date December 1, 2025 Model CardTechnical Report