DeepSeek V4가 메모리를 98% 덜 쓴다는 말은 매력적이지만, 그대로 GPU 견적서나 도입 검토서에 옮겨 적기에는 위험하다. 가장 헷갈리는 지점은 KV cache 압축을 모델 전체를 서비스할 때 필요한 VRAM 감소로 받아들이는 데 있다.
현재 공개 자료 기준으로 더 안전한 결론은 좁다. DeepSeek V4는 장문 컨텍스트 추론에서 KV cache와 어텐션 비용을 줄이도록 설계됐다는 근거가 있다. 다만 DeepSeek의 API 뉴스, 모델 카드, NVIDIA 기술 설명에서 전체 VRAM이 98% 줄었다는 공식 사양은 확인되지 않는다 [5][
13][
14].
지금 가장 안전한 표현
정확하게 쓰려면 다음 정도가 무난하다.
DeepSeek V4는 Hybrid Attention, Compressed Sparse Attention(CSA), Heavily Compressed Attention(HCA) 등을 통해 장문 추론의 KV cache 부담을 크게 낮추는 방향으로 설계됐다. 그러나 현재 공개 자료만으로 전체 VRAM이 98% 줄었다고 말하기는 어렵다 [
13][
14].
이 차이는 사소하지 않다. KV cache는 긴 문서, 긴 대화, 에이전트형 작업에서 큰 병목이 될 수 있다. 하지만 모델을 실제로 배포하고 서비스할 때 쓰는 메모리는 KV cache만으로 구성되지 않는다.




