What should I do next in practice?

Nejmenší model E2B se pro nasazení v mobilech smrsknul až na přibližně 1 GB paměti [13][14].

AnswersPublished4 days agoLast edited 2 days ago21 sources

Umělá inteligence se vejde do mobilu: Google vydává zmenšené modely Gemma 4

Google vydal modely Gemma 4 s oficiálními QAT checkpointy v pěti velikostech: E2B, E4B, 12B, 26B A4B a 31B [1][4][5]. Díky kvantizačně uvědomělému tréninku (QAT) si 4bitové modely drží kvalitu srovnatelnou s originálem, přičemž využívají přibližně o 72 % méně paměti [5].

Search & fact-check with Studio Global AI Browse more Trending pages

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google oficiálně vydal kvantizačně uvědomělé trénovací checkpointy (Quantization-Aware Training, zkráceně QAT) pro celou rodinu modelů Gemma 4. Ta nyní obsahuje pět velikostí: E2B, E4B, 12B, 26B A4B a 31B . Klíčovou výhodou je dramatické snížení paměťových nároků, díky kterému lze špičkové modely spustit i na slabším spotřebitelském hardwaru.

Jak funguje QAT a proč je to důležité

Při kvantizaci modelu se snižuje počet bitů, kterými jsou reprezentovány jeho váhy a aktivace. Běžná přesnost BF16 využívá 16 bitů na každou hodnotu, zatímco int4 si vystačí se 4 bity – to znamená až čtyřnásobnou úsporu dat . Běžná post-tréninková kvantizace (PTQ) ale často vede ke ztrátě kvality odpovědí.

Kvantizačně uvědomělý trénink tento problém řeší simulováním kvantizace už ve fázi trénování. Model se tak naučí přesnost kompenzovat, takže výsledná 4bitová verze podává výkon blízký původnímu 16bitovému modelu . U modelů Gemma 4 se používá schéma W4A16 – to znamená 4bitové váhy, 16bitové aktivace, group_size=32 a formát .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Model	Typ	Paměť (4-bit)	Srovnání s BF16
E2B	Dense (2,3 mld. efekt. parametrů)	~3,2 GB	~o 72 % méně
E4B	Dense (4,5 mld. efekt. parametrů)	~5 GB	~o 72 % méně
12B	Sjednocený text/obraz/zvuk	~7 GB	~o 72 % méně
26B A4B	Mixture of Experts (aktivní ~3,8 mld.)	~15 GB	~o 72 % méně
31B	Dense (30,7 mld. parametrů)	~18−20 GB	~o 72 % méně

Umělá inteligence se vejde do mobilu: Google vydává zmenšené modely Gemma 4

Jak funguje QAT a proč je to důležité

Search, cite, and publish your own answer

People also ask

What is the short answer to "Umělá inteligence se vejde do mobilu: Google vydává zmenšené modely Gemma 4"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

Velikosti modelů a paměťové úspory

Dostupnost formátů

Praktické hardwarové možnosti

Shrnutí na závěr