DeepSeek V4를 단순히 ‘100만 토큰 컨텍스트 모델’로만 보면 핵심을 절반쯤 놓치게 된다. 공개 자료를 종합하면 V4는 모델과 서비스 스택을 함께 묶은 출시다. V4-Pro와 V4-Flash라는 두 등급, 공개된 총 파라미터와 활성 파라미터, 100만 토큰 창, 그리고 OpenAI·Anthropic 호환 API 호출 방식이 한 제품군 안에 들어왔다.[18][
20]
DeepSeek 투명성 센터는 V4.0 DeepSeek-V4의 출시일을 2026년 4월 24일로 표기하고, Model Card와 Technical Report로 이어지는 항목을 제공한다. 공식 공지도 DeepSeek-V4 Preview가 출시됐고 동시에 오픈소스로 공개됐다고 밝혔다.[22][
14][
15]
확인된 사양: Pro는 상한, Flash는 효율
| 항목 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 공개 규모 | 총 1.6T 파라미터 / 49B 활성 파라미터 [ | 총 284B 파라미터 / 13B 활성 파라미터 [ |
| 컨텍스트 창 | 최대 1M 토큰 [ | 최대 1M 토큰 [ |
| 제품 포지션 | V4 제품군에서 가장 큰 모델 [ | 더 빠르고 효율적인 워크로드용 모델 [ |
| API 모델명 | deepseek-v4-pro [ | deepseek-v4-flash [ |
DeepSeek의 모델·가격 문서는 두 모델의 최대 출력 길이를 384K로 제시하고, Json Output과 Tool Calls 같은 기능도 지원한다고 안내한다.[17] 이 사양을 보면 V4의 공학적 초점은 단순히 파라미터나 컨텍스트 창을 크게 키운 데 있지 않다. 성능 상한을 노리는 등급과 효율을 노리는 등급을 모두 실제 호출 가능한 제품으로 만든 점이 중요하다.
MoE의 의미: 모델 용량과 1회 추론 비용을 일부 분리한다
API易와 HyperAI 등 공개 자료는 V4-Pro와 V4-Flash를 Mixture-of-Experts, 즉 MoE 모델로 설명한다.[2][
4] MoE 맥락에서 총 파라미터는 전문가 풀 전체의 용량에 가깝고, 활성 파라미터는 한 번의 추론에서 실제 계산에 참여하는 부분집합을 뜻한다. V4 사양이 total parameters와 active parameters를 함께 강조하는 이유도 여기에 있다.[
1][
2][
4][
14]
이 설계의 장점은 모델의 전체 용량과 매번 쓰는 계산량을 어느 정도 떼어놓을 수 있다는 점이다. 대신 서버 쪽에서는 전문가 라우팅, 전문가 병렬화, 통신, 부하 균형 같은 문제가 더 커진다. SGLang/Miles 팀은 V4 공개 이후 추론과 RL 학습 지원을 제공한다고 밝히며, 자사 스택이 V4의 hybrid sparse-attention, mHC, FP4 expert weights에 맞춰 조정됐다고 설명했다. 이는 난도가 모델 파일을 넘어 serving/training stack까지 확장됐다는 신호다.[5]
1M 토큰 컨텍스트: 진짜 압박은 서버에서 온다
NVIDIA 개발자 자료는 V4-Pro와 V4-Flash를 효율적인 million-token context inference를 위한 모델로 소개하며, 장문 코드, 문서 분석, 검색, agentic AI 워크플로를 활용처로 든다.[1] DeepSeek API 문서도 두 모델의 컨텍스트 길이를 1M으로 제시한다.[
17]
사용자 입장에서 1M 컨텍스트의 직접적인 이점은 문서를 잘게 나누고 다시 붙이는 작업, 또는 검색 과정에서 빠지는 정보를 줄일 수 있다는 데 있다. 반대로 서비스 제공자 입장에서는 주의 연산, 컨텍스트 캐시, GPU 메모리와 대역폭, 처리량 스케줄링 부담이 함께 커진다. 그래서 V4를 평가할 때는 창 크기 숫자만 볼 일이 아니다. 실제 코드 저장소, 장문 문서, RAG(검색증강생성), Agent 도구 체인에서 지연시간, 비용, 장거리 참조 안정성, 도구 호출 품질을 같이 테스트해야 한다.[1][
17]
어텐션 구조: 방향은 보이지만 용어는 조심해야 한다
장문 컨텍스트 효율을 둘러싼 공개 자료의 용어는 완전히 일치하지 않는다. API易는 V4의 1M 컨텍스트가 Hybrid Attention과 DSA sparse attention으로 뒷받침된다고 설명한다.[2] HyperAI 요약은 hybrid attention이 Compressed Sparse Attention(CSA)과 Heavily Compressed Attention(HCA)을 결합한다고 쓰고, mHC도 언급한다.[
4] SGLang/Miles는 자사 오픈소스 스택이 hybrid sparse-attention, mHC, FP4 expert weights에 맞춰 조정됐다고 밝혔다.[
5]
가장 안전한 해석은 이렇다. V4 생태계 자료는 대체로 ‘희소·압축·혼합 어텐션 + 서비스 스택 최적화’라는 방향을 가리킨다. 다만 구체적인 모듈명, 구현 세부사항, 성능 향상 폭은 2차 요약이나 영상만으로 단정하기 어렵다. 확인이 필요하다면 DeepSeek 투명성 센터에 올라온 Model Card와 Technical Report를 기준으로 대조하는 편이 낫다.[22]
API 적용: 이전 비용까지 제품 설계에 포함됐다
DeepSeek 업데이트 로그에 따르면 API는 V4-Pro와 V4-Flash를 지원하며, OpenAI ChatCompletions 인터페이스와 Anthropic 인터페이스로 호출할 수 있다. 새 모델을 쓰려면 base_url은 그대로 두고 model 파라미터만 deepseek-v4-pro 또는 deepseek-v4-flash로 바꾸면 된다.[18][
19] 공식 첫 API 호출 문서는 OpenAI 형식의 base URL을
https://api.deepseek.com, Anthropic 형식의 base URL을 https://api.deepseek.com/anthropic으로 안내한다.[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic기존 모델명에도 일정이 있다. deepseek-chat과 deepseek-reasoner는 2026년 7월 24일 폐기될 예정이며, 전환 기간에는 각각 deepseek-v4-flash의 비사고 모드와 사고 모드를 가리킨다.[18][
19][
21] 이미 운영 중인 애플리케이션이라면 먼저 모델명을 교체하고, Pro와 Flash 중 어느 쪽을 쓸지 정한 뒤, 장문 컨텍스트·Tool Calls·출력 길이·비용에 대한 회귀 테스트를 돌리는 것이 현실적인 순서다.[
17][
18]
아직 독립 검증이 필요한 주장들
첫째, 성능 우위의 폭은 신중하게 봐야 한다. 공식 중국어 발표는 V4-Pro가 Agent, 세계 지식, 추론 능력에서 중국 내·오픈소스 영역의 선도 수준에 도달했다고 주장하고, 일부 폐쇄형 모델과의 체감 비교도 제시한다. API易 역시 SWE-Verified 같은 벤치마크 점수를 열거한다.[15][
2] 이는 발표 주체와 생태계 쪽의 주장으로 참고할 수 있지만, 프롬프트, 비용 제약, 업무 유형이 달라지면 결과도 달라질 수 있다. 실제 도입 여부는 독립적인 재현 테스트로 판단하는 편이 안전하다.
둘째, 내부 메커니즘은 출처 층위를 나눠 읽어야 한다. Hybrid Attention, DSA, CSA, HCA, mHC, FP4 expert weights 같은 용어는 여러 공개 자료에 등장하지만, 출처의 성격과 명명 방식이 서로 다르다.[2][
4][
5] 공식 기술 보고서 밖에서 이 모든 용어를 ‘완전히 검증된 구현 사실’로 받아들이는 것은 성급하다.[
22]
셋째, 1M 컨텍스트가 모든 풀윈도 요청의 저지연·저비용을 자동으로 보장하지는 않는다. 공식 및 생태계 자료로 확인할 수 있는 것은 V4의 사양 방향과 호출 가능성이다. 실제 서비스 성능은 입력 문서 길이, 캐시 적중률, 동시 요청 수, 도구 호출 체인, 평가 기준에 따라 달라진다.[1][
17][
18]
실용적 결론
DeepSeek V4의 ‘큰 공학’은 조합에 있다. V4-Pro의 1.6T/49B active, V4-Flash의 284B/13B active, 최대 1M 토큰 컨텍스트, OpenAI·Anthropic 호환 API가 하나의 호출 가능한 제품군으로 묶였다.[1][
14][
17][
18] 개발자에게 당장 중요한 일은 홍보 문구를 반복하는 것이 아니라, 자신의 장문 문서, 코드베이스, RAG, Agent 워크플로에서 끝까지 테스트하는 것이다. 기존 모델명을 쓰고 있다면 2026년 7월 24일 전까지 이전 작업도 마쳐야 한다.[
18][
21]




