다섯 가지 모델 크기에 대해 QAT 체크포인트가 제공되며, 추론 속도를 높이는 드래프터(drafter) 모델도 함께 배포됩니다. 각 모델은 아래에서 설명할 여러 형식으로 제공되며, BF16 대비 QAT 4비트의 실제 메모리 사용량은 극적으로 변화합니다 .
| 모델 | 아키텍처 | 활성 매개변수 | BF16 메모리 | QAT 4비트 메모리 | 주요 하드웨어 적합성 |
|---|---|---|---|---|---|
| E2B | Dense + PLE | ~23억 (임베딩 포함 51억) | ~9.6 GB | ~3.2 GB (Q4_0); 1 GB (모바일 포맷) | 스마트폰, 엣지 기기, 브라우저 |
| E4B | Dense + PLE | ~45억 (임베딩 포함 80억) | ~15 GB | ~5 GB (Q4_0) | 중급 GPU, RAM 확보된 모바일 기기 |
| 12B | Dense, 인코더 프리 통합 멀티모달 | 119.5억 | ~24 GB | ~7 GB (Q4_0) | 8GB GPU, 외장 그래픽 탑재 노트북 |
| 26B A4B | 전문가 혼합(MoE) | ~38억 활성 (총 260억) | ~48 GB | ~15 GB (Q4_0) | 12~16GB GPU, 고급 워크스테이션 |
| 31B | Dense | 307억 | ~58 GB | 24GB GPU (RTX 3090/4090), 고VRAM 환경 |
메모리 수치는 구글 공식 모델 개요와 Unsloth 문서를 기반으로 하며, Q4_0 수치는 널리 쓰이는 GGUF 양자화 레벨을 나타냅니다 . 특히 E2B의 모바일 포맷에서 나온 약 1GB라는 수치는 이번 발표의 하이라이트입니다. 구글은 특정 디코딩 레이어에 2비트를 적용하고 KV 캐시를 최적화하는 맞춤형 스키마를 설계하여 이 경이로운 수치를 달성했습니다
. 텍스트 전용 모델의 경우 메모리 사용량이 1GB 미만으로 떨어질 수도 있다고 보고됩니다
.
26B A4B 모델은 특히 주목할 만합니다. 이는 총 260억 개의 매개변수를 가진 전문가 혼합(MoE) 아키텍처이지만, 토큰당 약 38억 개의 매개변수만 활성화됩니다. 즉, 대략 40억 수준의 모델과 비슷한 연산 비용으로 훨씬 더 큰 Dense 모델급의 추론 품질을 제공한다는 뜻입니다 . 4비트 형태로 약 12~16GB GPU에 탑재되므로, 많은 개발자가 이미 가지고 있는 하드웨어로 구동할 수 있습니다
.
이번 릴리스에서 가장 중요한 주의사항은 무분별한 형식 변환에 관한 것입니다. QAT 가중치를 올바른 처리 없이 곧바로 Q4_0으로 변환하면 정확도가 크게 떨어질 수 있습니다. Unsloth의 문서에 따르면, 26B QAT 모델을 무분별하게 Q4_0으로 변환할 경우 top-1 정확도가 고작 70.2% 에 그쳤습니다 . 그들이 개발한 동적 양자화 방식(Unsloth Dynamic)을 적용하자 85.6% 로 무려 15.4%포인트나 상승했습니다. 결국 QAT가 제공하려는 품질 이점을 지키려면 반드시 올바른 변환 방법론을 선택해야 한다는 핵심을 보여줍니다
.
대부분의 사용자에게 가장 안전한 출발점은 공식 압축 텐서 혹은 GGUF 체크포인트입니다.
QAT는 단순히 메모리를 줄이는 것을 넘어, 로컬 AI 추론의 하드웨어 지형을 완전히 재편합니다. 기존에 데이터센터급 GPU가 필요했던 모델들이 이제 소비자용 하드웨어와 스마트폰에서 현실적으로 구동됩니다.
스마트폰 및 엣지 기기: E2B는 모바일을 위해 맞춤 설계되었습니다. 구글의 LiteRT-LM 프레임워크는 2비트 및 4비트 양자화를 통해 E2B를 1.5GB 미만의 RAM에서 구동할 수 있으며, 구글 플레이 스토어의 AI Edge Gallery 앱에서는 사용자가 E2B나 E4B를 선택해 완전히 온디바이스에서 실행할 수 있습니다 . 두 모델 모두 텍스트, 이미지, 오디오 입력을 지원하므로, 실시간 음성 번역, 시각적 질의응답, 온디바이스 비서 기능을 클라우드 연결 없이 구현하는 것이 현실화됩니다
.
8GB GPU: QAT 배포의 최적 지점입니다. E2B(~3.2GB), E4B(~5GB), 그리고 12B 모델(~7GB)은 Q4_0 양자화 시 8GB VRAM에 무리 없이 탑재됩니다 . 즉, 모바일 RTX 4060을 탑재한 중급형 노트북이나 구형 데스크탑 RTX 2070에서도 256K 컨텍스트 윈도우를 가진 통합 멀티모달 모델을 돌릴 수 있게 된 것입니다. 이는 16비트 정밀도에서는 24GB 이상을 요구했던 작업입니다.
12~16GB GPU: 26B A4B MoE 모델이 이 영역에 해당하며, Q4_0 형식에서 약 15GB를 차지해 RTX 3080, 4070 Ti, 4080 같은 카드에 적합합니다 . MoE 아키텍처 덕분에 토큰당 일부 매개변수만 활성화되므로, 비슷한 메모리 공간을 차지하는 Dense 모델보다 추론 지연 시간(latency)이 훨씬 낮습니다
.
20~24GB GPU: 31B Dense 모델은 Q4_0 양자화 시 약 17~18GB를 필요로 하여, RTX 3090 및 4090 보유자에게 닿는 영역입니다(KV 캐시와 배치 크기를 위한 약간의 여유 공간 포함) . 16비트 전체 정밀도에서는 이 모델이 거의 60GB를 요구하여 소비자용 GPU로는 접근이 불가능했습니다. QAT는 가장 큰 Gemma 4 모델을 단일 고급형 소비자 카드에서 진정으로 실용적으로 만들어 줍니다.
중요한 현실 점검: 여기서 논의된 메모리 수치는 모델 가중치 크기이며, 총 VRAM 소비량이 아닙니다. 특히 긴 컨텍스트 윈도우를 위한 KV 캐시와 같은 런타임 오버헤드는 수 GB를 추가로 소모할 수 있습니다. 256K 컨텍스트를 사용하는 31B 모델은 기본 가중치 크기보다 훨씬 더 많은 메모리를 소비하며, 커뮤니티 보고에 따르면 컨텍스트 부하가 큰 워크로드에서는 20GB 초중반대까지 요구 사항이 올라갈 수 있습니다 . 항상 나열된 Q4_0 가중치 사용량보다 넉넉한 여유 메모리를 확보하는 것이 좋습니다.
QAT의 핵심 약속은 메모리는 획기적으로 줄이면서도 성능은 원본에 가깝게 유지하는 것이며, 벤치마크 결과는 대체로 이를 뒷받침합니다. 구글 자체 문서는 약 72%의 메모리 감소와 함께 "원본에 가까운" 성능이라고 설명하며, 커뮤니티 벤치마크는 BF16 대비 Q4 양자화 품질 손실이 3~5% 범위에 있다고 보고합니다 .
하지만 진짜 문제는 사소한 세부사항에 있습니다. Unsloth의 경고 사례처럼, 변환 방법에 따라 70.2%에서 85.6%까지 정확도가 극명하게 갈리는 것은, QAT 가중치를 얼마나 잘 다루어 배포하느냐가 최종 품질을 결정한다는 것을 보여줍니다 . 단순히 QAT 체크포인트를 가져와 QAT 처리가 전혀 고려되지 않은 표준 GGUF 변환기에 넣는다면, 기대했던 품질을 얻지 못할 가능성이 큽니다.
프로덕션 용도로는 구글의 공식 QAT 체크포인트를 압축 텐서 형식(vLLM용)이나 Hugging Face의 공식 GGUF 파일로 직접 사용하는 것이 가장 안전한 접근 방식입니다 . 구글이 제공하는 것 이상의 맞춤형 양자화가 필요하다면, 반드시 벤치마킹 시간을 충분히 확보해야 합니다. QAT 가중치는 변환 방법론에 일반적인 사후 훈련 양자화 가중치보다 훨씬 더 민감하게 반응하기 때문입니다.
실용적인 측면에서, 이번 발표는 "이 모델 로컬에서 돌릴 수 있어?"라는 질문의 기본 답변을 바꿔 놓습니다. 주요 오픈 웨이트 모델 제품군이 QAT 체크포인트를 사후 추가가 아닌 최우선 지원 대상으로 출시한 것은 이번이 처음입니다. 그 파장은 여러 응용 분야에 걸쳐 나타납니다.
프라이버시가 중요한 작업: 기존에 클라우드 API가 필수였던 의료, 법률, 개인 비서 애플리케이션을 이제 노트북이나 휴대폰에서 완전히 온디바이스로 구동할 수 있습니다. QAT는 로컬 추론이 실제로 유용할 만큼의 충분한 품질을 보존합니다 .
오프라인 및 엣지 배포: 재난 대응, 현장 연구, 안정적인 연결이 보장되지 않는 산업 현장에서도 범용 하드웨어로 강력한 멀티모달 모델을 배포할 수 있습니다. E2B의 오디오 지원과 1GB 모바일 양자화의 결합은 중급형 스마트폰에서의 실시간 음성 번역을 현실로 만듭니다 .
개발자 도구 및 IDE: 12B 및 26B 모델은 개발자들이 이미 소유한 하드웨어에 적합하여, 지연 시간이나 비용 제약 없이 로컬에서 구동되는 코드 완성, 리팩토링, 문서 생성 기능을 가능하게 합니다. 구글은 양자화 버전을 "IDE, 코딩 어시스턴트, 에이전트 워크플로우"를 위한 것으로 특별히 포지셔닝했습니다 .
실험과 파인튜닝: A100이나 H100 클러스터를 감당할 수 없었던 소규모 연구팀과 개인 개발자들이 이제 12B~31B급 모델을 소비자용 하드웨어에서 다루며 모델 맞춤화와 도메인 특화 파인튜닝의 진입 장벽을 획기적으로 낮출 수 있게 되었습니다.
구글은 기본 Gemma 4 모델과 동일한 Apache 2.0 라이선스 하에 이 체크포인트들을 공개했으며, 5종 모델 모두 지금 즉시 Hugging Face에서 내려받을 수 있습니다 .
Comments
0 comments