What should I do next in practice?

De offisielle sjekkpunktene bruker et W4A16 skjema med 4 bits heltallsvekter og 16 bits aktiveringer, i tillegg til et nytt mobiloptimalisert format som får E2B ned i 1 GB minne [1][12].

← Back to Trending

AnswersPublished7 days agoLast edited 5 days ago20 sources

Googles Gemma 4 QAT-modeller er her: Nøkkeldetaljer du må kjenne til

Google har lansert offisielle QAT sjekkpunkter (Quantization Aware Training) for hele Gemma 4 familien, inkludert E2B, E4B, 12B, 26B A4B og 31B [1][4][5]. QAT simulerer kvantisering allerede under trening, noe som gjør at modellene bevarer nesten opprinnelig ytelse ved 4 bits presisjon og bruker omtrent 72 % mindre...

Search & fact-check with Studio Global AI Browse more Trending pages

377K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google har tatt et stort skritt for å demokratisere tilgangen til avanserte AI-modeller med lanseringen av nye sjekkpunkter basert på kvantiseringsbevisst trening (QAT) for Gemma 4-familien. Dette handler ikke bare om å krympe filstørrelser – det er en fundamental endring i hvordan modellene lærer seg å håndtere komprimering, og resultatet er at vi nå kan kjøre tung AI lokalt på maskinvare vi allerede har hjemme. Her er alt du trenger å vite.

Hva er egentlig QAT, og hvorfor er det en gamechanger?

For å forstå hvorfor dette er stort, må vi først se på hva kvantisering er. Enkelt forklart handler kvantisering om å redusere den numeriske presisjonen som brukes til å lagre og beregne modellens parametere. Ved å gå fra 16-bits presisjon (BF16) til 4-bits (int4), reduseres størrelsen på dataene med en faktor på fire .

Tidligere har standard praksis vært post-treningskvantisering (PTQ), der man komprimerer en ferdigtrent modell. Problemet er at dette ofte fører til et merkbart kvalitetstap, spesielt ved lavere presisjoner . QAT snur denne prosessen på hodet. Ved å simulere kvantiseringseffektene allerede under trening, lærer modellen å kompensere for presisjonstapet . Tenk på det som forskjellen mellom å ta et bilde og komprimere det i etterkant, versus å fotografere med komprimering i tankene fra start – det siste gir et mye bedre resultat.

Resultatet er oppsiktsvekkende: Med offisielle QAT-sjekkpunkter kan du kjøre en Gemma 4-modell med omtrent 72 % lavere minnebruk samtidig som du bevarer tilnærmet opprinnelig ytelse .

Modellene og minnebruken i praksis

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Modell	Type	Omtrentlig minne ved 4-bit (Q4_0)	Sammenlignet med BF16
E2B	Dense, ~2,3 mrd. effektive parametere	~3,2 GB	~72 % lavere
E4B	Dense, ~4,5 mrd. effektive parametere	~5 GB	~72 % lavere
12B	Dense, multimodal (tekst/bilde/lyd)	~7 GB	~72 % lavere
26B A4B	MoE (Mixture of Experts), ~3,8 mrd. aktive parametere	~15 GB	~72 % lavere
31B	Dense, 30,7 mrd. parametere	~17–20 GB	~72 % lavere

Googles Gemma 4 QAT-modeller er her: Nøkkeldetaljer du må kjenne til

Hva er egentlig QAT, og hvorfor er det en gamechanger?

Modellene og minnebruken i praksis

Search, cite, and publish your own answer

People also ask

What is the short answer to "Googles Gemma 4 QAT-modeller er her: Nøkkeldetaljer du må kjenne til"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

Tre viktige formater du bør kjenne til

Hva betyr dette for din maskinvare?

Den kritiske advarselen