JawabanDipublikasikan4 hari yang laluLast edited kemarin dulu30 sumber

Model Gemma 4 QAT Google Pangkas Memori 72% — Simak Perangkat yang Kini Kebagian

Checkpoint Quantization Aware Training (QAT) Gemma 4 dari Google mengurangi penggunaan memori sekitar 72% dibanding presisi 16 bit, membuat model 31B layak dijalankan di satu GPU konsumen dan mengecilkan model E2B men... Tersedia lima ukuran model — E2B, E4B, 12B, 26B A4B (MoE), dan 31B — dengan format deployment te...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google telah merilis checkpoint resmi Quantization-Aware Training (QAT) untuk seluruh keluarga Gemma 4, sebuah langkah yang secara fundamental mengubah di mana model-model ini dapat dijalankan. Alih-alih mengambil model 16-bit yang sudah jadi dan mengompresinya setelahnya — sebuah proses yang biasanya menurunkan kualitas — QAT menyimulasikan kuantisasi selama pelatihan itu sendiri. Model belajar untuk mengompensasi hilangnya presisi, sehingga deployment 4-bit akhir menjaga performa sangat dekat dengan aslinya sambil memotong penggunaan memori sekitar 72% .

Rilis ini mencakup lima ukuran parameter dan memperkenalkan format kuantisasi khusus seluler baru yang mendorong batas lebih jauh lagi. Bagi pengembang dan peneliti yang selama ini hanya bisa memandang model besar dari jauh karena keterbatasan perangkat keras (hardware), implikasi praktisnya sangat terasa saat ini juga.

Mengapa QAT Jauh Lebih Penting daripada Kuantisasi Biasa

Post-Training Quantization (PTQ) standar mengambil model yang sudah dilatih penuh dan mengonversi bobotnya ke presisi yang lebih rendah — misalnya int4 alih-alih bfloat16. Masalahnya, model itu tidak pernah dilatih untuk beroperasi pada presisi tersebut, dan kualitasnya sering kali menurun drastis .

QAT mengintegrasikan simulasi kuantisasi langsung ke dalam loop pelatihan. Model "melihat" nilai-nilai yang dikuantisasi selama forward dan backward pass, sehingga ia belajar menjadi lebih tahan terhadap representasi angka yang lebih sempit. Hasilnya adalah model yang memberikan "performa mendekati aslinya" dalam bentuk 4-bit, bukan versi yang menurun dari wujud 16-bit-nya .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Model Gemma 4 QAT Google Pangkas Memori 72% — Simak Perangkat yang Kini Kebagian"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Secara praktis, ini berarti model 12B di GPU 8GB, model 26B MoE di kartu 16GB, dan model 31B penuh di kartu 18 20GB — tapi overhead runtime berbeda, dan format seluler membuka AI on device untuk aplikasi via LiteRT LM.

Sumber

Comments

0 comments

Loading comments...

Model	Arsitektur	Parameter Aktif	Memori BF16	Memori QAT 4-bit	Kecocokan Hardware Utama
E2B	Dense + PLE	~2,3B efektif (5,1B dengan embeddings)	~9,6 GB	~3,2 GB (Q4_0); 1 GB (format seluler)	Smartphone, perangkat edge, browser
E4B	Dense + PLE	~4,5B efektif (8B dengan embeddings)	~15 GB	~5 GB (Q4_0)	GPU kelas menengah, perangkat seluler dengan RAM lebih besar
12B	Dense, multimodal terpadu tanpa encoder	11,95B	~24 GB	~7 GB (Q4_0)	GPU 8 GB, laptop dengan grafis khusus
26B A4B	Mixture of Experts	~3,8B aktif (26B total)	~48 GB	~15 GB (Q4_0)	GPU 12–16 GB, workstation kelas atas
31B	Dense	30,7B	~58 GB	~17–18 GB (Q4_0)	GPU 24 GB (RTX 3090/4090), setup VRAM tinggi

Model Gemma 4 QAT Google Pangkas Memori 72% — Simak Perangkat yang Kini Kebagian

Mengapa QAT Jauh Lebih Penting daripada Kuantisasi Biasa

Search, cite, and publish your own answer

Orang-orang juga bertanya

Apa jawaban singkat untuk "Model Gemma 4 QAT Google Pangkas Memori 72% — Simak Perangkat yang Kini Kebagian"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Sumber

Comments

Jajaran Lengkap Model Gemma 4 QAT

Format Deployment: Pilih dengan Cermat

Perangkat Keras Apa yang Sebenarnya Bisa Menjalankan Model Ini?

Preservasi Kualitas dan Batasan Praktis

Apa yang Dibuka oleh Rilis Ini