What should I do next in practice?

En ny mobiloptimerad kvantisering pressar ner minnesbehovet för den minsta modellen E2B till endast 1 GB – perfekt för telefoner och surfplattor [5][13].

← Back to Trending

AnswersPublished4 days agoLast edited 2 days ago24 sources

Googles Gemma 4 QAT: Nu får avancerad AI plats i mobilen

Google släpper officiella QAT checkpoints (Quantization Aware Training) för Gemma 4 familjen i storlekarna E2B, E4B, 12B, 26B A4B och 31B [1][4][5]. QAT tekniken simulerar komprimering redan under träningen, vilket ger nära originalprestanda trots att minnesanvändningen minskar med omkring 72 % [5].

Search & fact-check with Studio Global AI Browse more Trending pages

285K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google har tagit ett stort kliv mot att göra avancerad AI tillgänglig för alla. Den 4 juni 2026 släppte de officiella QAT-checkpoints (Quantization-Aware Training) för hela Gemma 4-familjen. Detta innebär att modeller som tidigare krävde kraftfulla server-GPU:er nu kan köras lokalt på allt från din mobiltelefon till en vanlig speldator – med bibehållen hög prestanda .

Vad är QAT och varför är det en gamechanger?

Traditionell komprimering, så kallad Post-Training Quantization (PTQ), sker efter att modellen är färdigtränad. Detta kan liknas vid att försöka pressa ner en fullvuxen elefant i en handväska – resultatet blir ofta en märkbar kvalitetsförlust .

Quantization-Aware Training (QAT) använder en smartare metod. Redan under träningen simulerar modellen den lägre numeriska precision (int4 istället för BF16) som den senare ska komprimeras till. Modellen lär sig alltså att kompensera för den precision som går förlorad, vilket gör att den presterar nästan lika bra som originalet, trots att den bara tar upp en bråkdel av minnet .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Modell	Typ	Minne (4-bitars / Q4_0)	Besparing jämfört med BF16
E2B	Tät, 2,3B effektiva parametrar	~3,2 GB	~72 % lägre
E4B	Tät, 4,5B effektiva parametrar	~5 GB	~72 % lägre
12B	Tät, enhetlig modell för text/bild/ljud	~7 GB	~72 % lägre
26B A4B	Mixture of Experts (MoE), 3,8B aktiva parametrar	~15 GB	~72 % lägre
31B	Tät, 30,7B parametrar	~18–20 GB	~72 % lägre

Googles Gemma 4 QAT: Nu får avancerad AI plats i mobilen

Vad är QAT och varför är det en gamechanger?

Search, cite, and publish your own answer

People also ask

What is the short answer to "Googles Gemma 4 QAT: Nu får avancerad AI plats i mobilen"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

Vilka modeller finns tillgängliga?

Format och deras användningsområden

Vad betyder detta i praktiken?

Viktigaste varningen: Formatet är allt