What should I do next in practice?

Het E2B model is geoptimaliseerd voor mobiele apparaten en heeft een nieuw mobiel specifiek formaat dat het werkgeheugengebruik terugbrengt tot ongeveer 1 GB [12][13][16].

← Back to Trending

AnswersPublished4 days agoLast edited 2 days ago23 sources

Google maakt krachtige AI bereikbaar voor iedereen: Gemma 4 QAT-modellen draaien lokaal op je telefoon en laptop

Google heeft officiële QAT checkpoints (Quantization Aware Training) voor Gemma 4 uitgebracht, met modellen van E2B tot 31B [1][4][5]. De modellen gebruiken een W4A16 schema: 4 bit gewichten en 16 bit activeringen, wat het geheugengebruik met 72% vermindert met vrijwel dezelfde prestaties [1][5].

Search & fact-check with Studio Global AI Browse more Trending pages

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Stel je voor: een geavanceerd AI-model dat razendsnel teksten schrijft, afbeeldingen analyseert en zelfs spraakopdrachten begrijpt – en dat allemaal direct op je smartphone, zonder internetverbinding. Dat is precies wat Google mogelijk maakt met de nieuwste Gemma 4-modellen, geoptimaliseerd met Quantization-Aware Training (QAT). We zetten de belangrijkste details voor je op een rij.

Wat is QAT en waarom is het belangrijk?

Normaal gesproken zijn AI-modellen geheugenvreters. Een model met 31 miljard parameters kan zomaar 58 GB aan werkgeheugen nodig hebben . Dat past alleen op dure, gespecialiseerde hardware. Kwantisatie pakt dit aan door de precisie waarmee de modelgewichten worden opgeslagen te verlagen. In plaats van 16-bits getallen (BF16), worden ze weergegeven met slechts 4 bits (int4). Dit zorgt voor een 4x kleinere datagrootte .

Het addertje onder het gras: standaard compressie ná training (PTQ) leidt vaak tot een flinke kwaliteitsdaling. QAT pakt het slimmer aan: het model wordt al getraind mét de wetenschap dat het later gecomprimeerd wordt. Het leert dus als het ware om te gaan met het precisieverlies. Het resultaat? Een model dat tot ~72% minder geheugen gebruikt, terwijl het vrijwel de originele prestaties behoudt .

De officiële checkpoints van Google gebruiken een zogeheten W4A16-schema: de gewichten zijn 4-bit integers, de activeringen blijven 16-bit, met een group_size=32. Deze modellen worden aangeboden in het compressed-tensors-formaat .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Model	Type	Werkgeheugen (4-bit)	Besparing t.o.v. BF16
E2B	Dicht model, 2.3B effectieve parameters	~3.2 GB	~72% lager
E4B	Dicht model, 4.5B effectieve parameters	~5 GB	~72% lager
12B	Geïntegreerd model voor tekst, beeld en audio	~7 GB	~72% lager
26B A4B	Mixture-of-Experts, ~3.8B actieve parameters	~15 GB	~72% lager
31B	Dicht model, 30.7B parameters	~18–20 GB	~72% lager

Google maakt krachtige AI bereikbaar voor iedereen: Gemma 4 QAT-modellen draaien lokaal op je telefoon en laptop

Wat is QAT en waarom is het belangrijk?

Search, cite, and publish your own answer

People also ask

What is the short answer to "Google maakt krachtige AI bereikbaar voor iedereen: Gemma 4 QAT-modellen draaien lokaal op je telefoon en laptop"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

De Gemma 4-familie: van mobieltje tot server

Beschikbare formaten: van GGUF tot mobiel

Wat dit in de praktijk betekent voor jouw hardware

Conclusie