उत्तरप्रकाशित4 दिन पहलेLast edited परसों30 स्रोत

Gemma 4 QAT: 31B मॉडल्स अब कंज्यूमर GPU और 1GB फोन पर चलेंगे

Google के क्वांटाइज़ेशन अवेयर ट्रेनिंग (QAT) चेकपॉइंट्स ने Gemma 4 की मेमोरी खपत 16 बिट प्रिसिज़न के मुक़ाबले लगभग 72% कम कर दी है, जिससे 31B मॉडल अब एक कंज्यूमर GPU पर चल सकता है और E2B मॉडल सिर्फ 1GB में सिमट गया है। पाँच मॉडल साइज़ — E2B, E4B, 12B, 26B A4B (MoE), और 31B — उपलब्ध हैं, जिनमें कंप्रेस्ड टेंसर्स, GGU...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google ने पूरी Gemma 4 फैमिली के लिए आधिकारिक क्वांटाइज़ेशन-अवेयर ट्रेनिंग (QAT) चेकपॉइंट्स जारी कर दिए हैं, और यह क़दम इस बात को पूरी तरह बदल देता है कि ये मॉडल्स अब कहां चल सकते हैं। आमतौर पर पहले एक तैयार 16-बिट मॉडल को बाद में कंप्रेस किया जाता था — इस प्रक्रिया में क्वालिटी अक्सर गिर जाती है — लेकिन QAT ट्रेनिंग के दौरान ही क्वांटाइज़ेशन का सिमुलेशन करता है। मॉडल प्रिसिज़न लॉस की भरपाई करना सीख जाता है, जिससे अंतिम 4-बिट डिप्लॉयमेंट मूल मॉडल के बहुत क़रीब प्रदर्शन बनाए रखता है और मेमोरी खपत लगभग 72% कम कर देता है।

इस रिलीज़ में पाँच पैरामीटर साइज़ शामिल हैं और एक नया मोबाइल-स्पेसिफ़िक क्वांटाइज़ेशन फ़ॉर्मेट पेश किया गया है जो सीमाओं को और भी आगे ले जाता है। जो डेवलपर्स और रिसर्चर्स हार्डवेयर की मजबूरियों के कारण बड़े मॉडल्स को दूर से देख रहे थे, उनके लिए इसके व्यावहारिक फ़ायदे तुरंत हैं।

QAT स्टैंडर्ड क्वांटाइज़ेशन से बेहतर क्यों है

स्टैंडर्ड पोस्ट-ट्रेनिंग क्वांटाइज़ेशन (PTQ) एक पूरी तरह से ट्रेंड मॉडल लेता है और उसके वेट्स को कम प्रिसिज़न में बदल देता है — उदाहरण के लिए bfloat16 की जगह int4। समस्या यह है कि मॉडल को कभी उस प्रिसिज़न पर काम करने के लिए ट्रेन नहीं किया गया था, और क्वालिटी अक्सर साफ़ तौर पर गिर जाती है।

QAT क्वांटाइज़ेशन सिमुलेशन को सीधे ट्रेनिंग लूप में जोड़ता है। मॉडल फ़ॉरवर्ड और बैकवर्ड पास के दौरान क्वांटाइज़्ड वैल्यूज़ देखता है, इसलिए वह सीमित नंबर रिप्रेज़ेंटेशन के प्रति मज़बूती सीख लेता है। नतीजा एक ऐसा मॉडल है जो 4-बिट रूप में "लगभग मूल प्रदर्शन" देता है, न कि अपने 16-बिट स्वरूप का कोई कमज़ोर वर्शन।

आधिकारिक चेकपॉइंट्स W4A16 स्कीम का उपयोग करते हैं: 16-बिट एक्टिवेशन के साथ 4-बिट इंटीजर वेट्स, 32 का group_size, और फ़ॉर्मेट। यह वही तरीक़ा है जिसे Google vLLM-आधारित इंफ़्रेंस के लिए दस्तावेज़ित करता है, जहां कम-बिट वेट्स और अधिक-प्रिसिज़न एक्टिवेशन का कॉम्बिनेशन मेमोरी बचत और थ्रूपुट के बीच संतुलन बनाता है।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं