Checkpoint resmi ini menggunakan skema W4A16: bobot integer 4-bit dengan aktivasi 16-bit, group_size sebesar 32, dan format compressed-tensors . Ini adalah pendekatan yang sama yang didokumentasikan Google untuk inferensi berbasis vLLM, di mana kombinasi bobot bit rendah dan aktivasi presisi lebih tinggi menyeimbangkan penghematan memori terhadap throughput
.
Lima ukuran model menerima checkpoint QAT, ditambah model drafter yang cocok untuk speculative decoding. Masing-masing tersedia dalam berbagai format (dibahas di bawah), dan jejak memori praktisnya berubah secara dramatis antara BF16 dan QAT 4-bit .
| Model | Arsitektur | Parameter Aktif | Memori BF16 | Memori QAT 4-bit | Kecocokan Hardware Utama |
|---|---|---|---|---|---|
| E2B | Dense + PLE | ~2,3B efektif (5,1B dengan embeddings) | ~9,6 GB | ~3,2 GB (Q4_0); 1 GB (format seluler) | Smartphone, perangkat edge, browser |
| E4B | Dense + PLE | ~4,5B efektif (8B dengan embeddings) | ~15 GB | ~5 GB (Q4_0) | GPU kelas menengah, perangkat seluler dengan RAM lebih besar |
| 12B | Dense, multimodal terpadu tanpa encoder | 11,95B | ~24 GB | ~7 GB (Q4_0) | GPU 8 GB, laptop dengan grafis khusus |
| 26B A4B | Mixture of Experts | ~3,8B aktif (26B total) | ~48 GB | ~15 GB (Q4_0) | GPU 12–16 GB, workstation kelas atas |
| 31B | Dense | 30,7B | ~58 GB | ~17–18 GB (Q4_0) | GPU 24 GB (RTX 3090/4090), setup VRAM tinggi |
Angka memori berasal dari ringkasan model resmi Google dan dokumentasi Unsloth, dengan angka Q4_0 merepresentasikan level kuantisasi GGUF yang populer . Angka E2B format seluler sekitar 1 GB adalah angka yang paling mencuri perhatian — Google secara khusus merekayasa skema kustom dengan lapisan decoding bertarget 2-bit dan KV cache yang dioptimalkan untuk mencapainya
. Untuk model teks-saja tanpa Per-Layer Embeddings, jejaknya dilaporkan bisa di bawah 1 GB
.
Model 26B A4B patut mendapat perhatian khusus. Ini adalah arsitektur Mixture of Experts yang hanya mengaktifkan sekitar 3,8 miliar parameter per token, meskipun memiliki total 26 miliar. Ini berarti ia memberikan perilaku komputasi yang lebih mendekati model 4B sambil menawarkan kualitas penalaran yang secara kasar sebanding dengan model dense yang jauh lebih besar . Dalam bentuk 4-bit, model ini muat di GPU 12-16 GB — jenis perangkat keras yang sudah dimiliki banyak pengembang
.
Google merilis checkpoint QAT dalam empat bentuk berbeda, dan pilihan format secara langsung mempengaruhi kualitas :
Peringatan terpenting dalam keseluruhan rilis ini menyangkut konversi format yang naif. Mengonversi bobot QAT langsung ke Q4_0 tanpa penanganan yang tepat dapat secara drastis mengurangi akurasi. Menurut dokumentasi Unsloth, konversi Q4_0 yang naif dari model 26B QAT hanya mencapai akurasi top-1 sekitar 70,2% . Metode Dynamic mereka sendiri mendorongnya ke 85,6%, peningkatan 15,4 poin persentase — tetapi intinya adalah pemilihan format dan metodologi konversi sangat penting untuk mempertahankan kualitas yang seharusnya diberikan oleh QAT
.
Bagi sebagian besar pengguna, checkpoint resmi compressed-tensors atau GGUF adalah titik awal yang paling aman.
QAT tidak hanya mengurangi memori — ia membentuk ulang lanskap perangkat keras untuk inferensi AI lokal. Model yang sebelumnya membutuhkan GPU data-center sekarang dapat berjalan di perangkat keras konsumen dan bahkan smartphone.
Smartphone dan perangkat edge: E2B dibuat khusus untuk seluler. Framework LiteRT-LM dari Google dapat menjalankan E2B di bawah 1,5 GB RAM dengan kuantisasi 2-bit dan 4-bit, dan aplikasi AI Edge Gallery milik Google di Play Store memungkinkan pengguna untuk memilih dan menjalankan E2B atau E4B sepenuhnya di perangkat . Kedua model mendukung input teks, gambar, dan audio — terjemahan ucapan real-time, tanya-jawab visual, dan asisten di perangkat menjadi mungkin tanpa koneksi cloud
.
GPU 8 GB: Titik manis untuk deployment QAT. E2B (~3,2 GB), E4B (~5 GB), dan model 12B (~7 GB) semuanya muat dengan nyaman di VRAM 8 GB pada kuantisasi Q4_0 . Ini berarti laptop kelas menengah dengan mobile 4060 atau desktop lawas 2070 sekarang dapat menjalankan model multimodal terpadu dengan jendela konteks 256K — sesuatu yang tadinya membutuhkan 24 GB atau lebih pada presisi 16-bit.
GPU 12–16 GB: Model MoE 26B A4B mendarat di sini dengan sekitar 15 GB dalam bentuk Q4_0, muat di kartu seperti RTX 3080, 4070 Ti, atau 4080 . Arsitektur MoE-nya berarti ia juga mempertahankan latensi inferensi yang lebih rendah daripada model dense dengan jejak serupa karena hanya sebagian kecil parameter yang aktif per token
.
GPU 20–24 GB: Model dense 31B membutuhkan sekitar 17–18 GB pada kuantisasi Q4_0, menempatkannya dalam jangkauan pemilik RTX 3090 dan 4090 dengan sedikit ruang untuk KV cache dan ukuran batch . Pada presisi 16-bit penuh, model ini menuntut hampir 60 GB — sepenuhnya di luar jangkauan GPU konsumen. QAT membuat model Gemma 4 terbesar benar-benar praktis pada satu kartu konsumen kelas atas.
Pengecekan realitas penting: Angka memori yang dibahas di sini mewakili ukuran bobot model, bukan total konsumsi VRAM. Overhead runtime — khususnya KV cache untuk jendela konteks panjang — dapat menambah gigabyte di atasnya. Model 31B dengan konteks 256K akan mengonsumsi memori secara signifikan lebih banyak dari ukuran bobot dasarnya, dan laporan komunitas menunjukkan beban kerja berat konteks dapat mendorong kebutuhan ke kisaran 20-an GB rendah . Selalu sediakan ruang lebih besar dari jejak bobot Q4_0 yang tercantum.
Janji inti QAT adalah performa mendekati aslinya dengan memori yang berkurang drastis — dan tolok ukur secara umum mendukungnya. Dokumentasi Google sendiri menggambarkan performa sebagai "mendekati aslinya" dengan pengurangan memori sekitar 72%, dan tolok ukur komunitas menunjukkan penurunan kualitas di kisaran 3–5% untuk kuantisasi Q4 dibandingkan dengan BF16 .
Tapi detailnya sangat menentukan. Peringatan konversi naif dari Unsloth — akurasi top-1 70,2% pada model 26B versus 85,6% setelah optimasi Dynamic mereka — menunjukkan bahwa kualitas yang Anda dapatkan sangat bergantung pada bagaimana Anda mengonversi dan men-deploy bobot QAT . Jika Anda hanya menarik checkpoint QAT dan menjalankannya melalui konverter GGUF standar tanpa penanganan yang sadar QAT, Anda mungkin tidak mendapatkan kualitas yang Anda harapkan.
Untuk penggunaan produksi, pendekatan teraman adalah menggunakan checkpoint QAT resmi Google langsung dalam format compressed-tensors-nya (untuk vLLM) atau file GGUF resmi dari Hugging Face . Jika Anda membutuhkan kuantisasi kustom di luar yang disediakan Google, luangkan waktu untuk benchmarking — bobot QAT lebih sensitif terhadap metodologi konversi daripada bobot kuantisasi pasca-pelatihan standar.
Pada tingkat praktis, rilis ini mengubah jawaban standar untuk pertanyaan "bisakah saya menjalankan model ini secara lokal?" Untuk pertama kalinya, sebuah keluarga model open-weights besar meluncur dengan checkpoint QAT sebagai warga kelas satu, bukan sebagai renungan. Implikasinya meluas ke beberapa kategori aplikasi:
Beban kerja sensitif privasi: Aplikasi medis, hukum, dan asisten pribadi yang sebelumnya memerlukan API cloud sekarang dapat berjalan sepenuhnya di perangkat pada laptop atau ponsel, dengan QAT menjaga kualitas yang cukup untuk membuat inferensi lokal benar-benar berguna .
Deployment offline dan edge: Penelitian lapangan, respons bencana, dan pengaturan industri tanpa konektivitas yang andal dapat men-deploy model multimodal yang cakap pada perangkat keras komoditas. Dukungan audio E2B yang dipasangkan dengan kuantisasi seluler 1 GB membuat terjemahan ucapan real-time di ponsel kelas menengah menjadi kenyataan praktis .
Perkakas pengembang dan IDE: Model 12B dan 26B muat di perangkat keras yang sudah dimiliki pengembang, memungkinkan penyelesaian kode, refactoring, dan pembuatan dokumentasi yang berjalan secara lokal tanpa batasan latensi atau biaya. Google secara spesifik memposisikan versi terkuantisasi untuk "IDE, asisten pengkodean, dan alur kerja agentik" .
Eksperimen dan fine-tuning: Tim peneliti yang lebih kecil dan pengembang independen yang tidak mampu membeli kluster A100 atau H100 sekarang dapat bekerja dengan model di kisaran 12B–31B pada perangkat keras konsumen, secara dramatis menurunkan hambatan masuk untuk kustomisasi model dan fine-tuning khusus domain.
Google merilis checkpoint ini di bawah lisensi Apache 2.0 yang sama dengan model dasar Gemma 4, dan checkpoint tersebut tersedia segera di Hugging Face untuk kelima ukuran model .
Comments
0 comments