AntwortenVeröffentlichtvor 4 TagenLast edited vorgestern30 Quellen

KI für alle: Wie Googles Gemma 4 QAT 31B-Modelle auf Consumer-GPUs und 1-GB-Smartphones bringt

Googles neue Quantization Aware Training (QAT) Checkpoints für Gemma 4 reduzieren den Speicherverbrauch um rund 72 Prozent im Vergleich zu 16 Bit. Fünf Modellgrößen sind verfügbar – E2B, E4B, 12B, 26B A4B (MoE) und 31B – mit Formaten wie Compressed Tensors, GGUF/Q4 0 und einem neuen mobil optimierten Schema.

Suchen und Fakten prüfen mit Studio Global AI Mehr Trendseiten ansehen

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google hat offizielle QAT-Checkpoints (Quantization-Aware Training) für die gesamte Gemma-4-Familie veröffentlicht – ein Schritt, der grundlegend verändert, wo diese Modelle eingesetzt werden können. Statt ein fertiges 16-Bit-Modell nachträglich zu komprimieren, was oft zu Qualitätseinbußen führt, simuliert QAT die Quantisierung bereits während des Trainings. Das Modell lernt, mit dem Präzisionsverlust umzugehen, sodass die finale 4-Bit-Variante nahezu die ursprüngliche Leistung beibehält, aber rund 72 Prozent weniger Speicher benötigt .

Das Paket umfasst fünf Parameter-Größen und führt ein neues, auf mobile Geräte zugeschnittenes Quantisierungsformat ein, das die Grenzen des Machbaren weiter verschiebt. Für alle, die große Modelle bisher wegen Hardware-Beschränkungen nur aus der Ferne beobachtet haben, ergeben sich sofort praktische Konsequenzen.

Warum QAT mehr bringt als herkömmliche Quantisierung

Bei der üblichen Post-Training-Quantisierung (PTQ) werden die Gewichte eines bereits trainierten Modells in eine niedrigere Genauigkeit umgewandelt – zum Beispiel von bfloat16 auf int4. Das Problem: Das Modell wurde nie darauf trainiert, mit dieser geringeren Präzision zu arbeiten, und die Qualität leidet oft spürbar .

QAT hingegen bindet die Quantisierungssimulation direkt in den Trainingsprozess ein. Das Modell "sieht" während der Vorwärts- und Rückwärtsdurchläufe bereits quantisierte Werte und entwickelt so eine Robustheit gegenüber der eingeschränkten Zahlendarstellung. Das Ergebnis ist ein Modell, das in 4-Bit-Form eine nahezu mit dem Original identische Leistung zeigt, statt nur eine abgeschwächte Version seiner selbst zu sein .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Die Leute fragen auch

Wie lautet die kurze Antwort auf „KI für alle: Wie Googles Gemma 4 QAT 31B-Modelle auf Consumer-GPUs und 1-GB-Smartphones bringt“?

Googles neue Quantization Aware Training (QAT) Checkpoints für Gemma 4 reduzieren den Speicherverbrauch um rund 72 Prozent im Vergleich zu 16 Bit.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Praktisch bedeutet das: 12B Modelle auf 8 GB GPUs, das 26B MoE auf 16 GB Karten und die vollen 31B auf Karten ab 18 GB.

Quellen

Comments

0 comments

Loading comments...

Modell	Architektur	Aktive Parameter	BF16-Speicher	QAT-4-Bit-Speicher	Passende Hardware
E2B	Dense + PLE	~2,3 Mrd. effektiv (5,1 Mrd. mit Embeddings)	~9,6 GB	~3,2 GB (Q4_0); 1 GB (mobiles Format)	Smartphones, Edge-Geräte, Browser
E4B	Dense + PLE	~4,5 Mrd. effektiv (8 Mrd. mit Embeddings)	~15 GB	~5 GB (Q4_0)	Mittelklasse-GPUs, mobile Geräte mit mehr RAM
12B	Dense, encoder-frei, multimodal	11,95 Mrd.	~24 GB	~7 GB (Q4_0)	8-GB-GPUs, Laptops mit dedizierter Grafik
26B A4B	Mixture of Experts	~3,8 Mrd. aktiv (26 Mrd. gesamt)	~48 GB	~15 GB (Q4_0)	12–16-GB-GPUs, High-End-Workstations
31B	Dense	30,7 Mrd.	~58 GB	~17–18 GB (Q4_0)	24-GB-GPUs (RTX 3090/4090), Setups mit viel VRAM

KI für alle: Wie Googles Gemma 4 QAT 31B-Modelle auf Consumer-GPUs und 1-GB-Smartphones bringt

Warum QAT mehr bringt als herkömmliche Quantisierung

Search, cite, and publish your own answer

Die Leute fragen auch

Wie lautet die kurze Antwort auf „KI für alle: Wie Googles Gemma 4 QAT 31B-Modelle auf Consumer-GPUs und 1-GB-Smartphones bringt“?

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Quellen

Comments

Die komplette Gemma-4-QAT-Modellpalette

Bereitstellungsformate: Mit Bedacht wählen

Welche Hardware kann diese Modelle tatsächlich ausführen?

Qualitätserhaltung und praktische Grenzen

Was diese Veröffentlichung ermöglicht