compressed-tensorsपाँच मॉडल साइज़ को QAT चेकपॉइंट्स मिले हैं, साथ ही स्पेक्युलेटिव डिकोडिंग के लिए मैचिंग ड्राफ़्टर मॉडल भी। हर एक कई फ़ॉर्मेट्स में उपलब्ध है (नीचे चर्चा की गई है), और BF16 से QAT 4-बिट के बीच व्यावहारिक मेमोरी फुटप्रिंट नाटकीय रूप से बदल जाते हैं।
| मॉडल | आर्किटेक्चर | एक्टिव पैरामीटर्स | BF16 मेमोरी | QAT 4-बिट मेमोरी | मुख्य हार्डवेयर फ़िट |
|---|---|---|---|---|---|
| E2B | Dense + PLE | ~2.3B प्रभावी (5.1B एम्बेडिंग के साथ) | ~9.6 GB | ~3.2 GB (Q4_0); 1 GB (मोबाइल फ़ॉर्मेट) | स्मार्टफोन, एज डिवाइस, ब्राउज़र |
| E4B | Dense + PLE | ~4.5B प्रभावी (8B एम्बेडिंग के साथ) | ~15 GB | ~5 GB (Q4_0) | मिड-रेंज GPU, ज़्यादा RAM वाले मोबाइल डिवाइस |
| 12B | Dense, एन्कोडर-फ्री यूनिफ़ाइड मल्टीमॉडल | 11.95B | ~24 GB | ~7 GB (Q4_0) | 8 GB GPU, डेडिकेटेड ग्राफ़िक्स वाले लैपटॉप |
| 26B A4B | मिक्सचर ऑफ़ एक्सपर्ट्स | ~3.8B एक्टिव (26B कुल) | ~48 GB | ~15 GB (Q4_0) | 12–16 GB GPU, हाई-एंड वर्कस्टेशन |
| 31B | Dense | 30.7B | ~58 GB | ~17–18 GB (Q4_0) | 24 GB GPU (RTX 3090/4090), हाई-VRAM सेटअप |
मेमोरी के आंकड़े Google के आधिकारिक मॉडल ओवरव्यू और Unsloth डॉक्यूमेंटेशन से आते हैं, जिसमें Q4_0 नंबर लोकप्रिय GGUF क्वांटाइज़ेशन लेवल को दर्शाते हैं। E2B का लगभग 1 GB का मोबाइल-फ़ॉर्मेट आंकड़ा सुर्ख़ियाँ बटोरने वाला नंबर है — Google ने ख़ासतौर पर टार्गेटेड 2-बिट डिकोडिंग लेयर्स और ऑप्टिमाइज़्ड KV कैश के साथ इसे पाने के लिए एक कस्टम स्कीमा तैयार किया है।
बिना पीर-लेयर एम्बेडिंग वाले टेक्स्ट-ओनली मॉडल्स के लिए, फुटप्रिंट कथित तौर पर 1 GB से नीचे जा सकता है।
26B A4B मॉडल विशेष ध्यान देने लायक है। यह एक मिक्सचर ऑफ़ एक्सपर्ट्स आर्किटेक्चर है जो 26 बिलियन कुल पैरामीटर्स के बावजूद प्रति टोकन केवल लगभग 3.8 बिलियन पैरामीटर्स को एक्टिवेट करता है। इसका मतलब है कि यह एक बहुत बड़े डेंस मॉडल की तुलना में लगभग 4B मॉडल के क़रीब कंप्यूट व्यवहार देता है और रीज़निंग क्वालिटी भी बड़े मॉडल जैसी ही रखता है। 4-बिट रूप में, यह 12-16 GB GPU पर फ़िट बैठता है — ऐसा हार्डवेयर जो कई डेवलपर्स के पास पहले से मौजूद है।
Google ने QAT चेकपॉइंट्स चार अलग-अलग रूपों में जारी किए हैं, और फ़ॉर्मेट का चुनाव सीधे क्वालिटी को प्रभावित करता है।
पूरी रिलीज़ की सबसे अहम चेतावनी भोले-भाले फ़ॉर्मेट कन्वर्ज़न को लेकर है। QAT वेट्स को सीधे Q4_0 में बिना सही हैंडलिंग के कन्वर्ट करना सटीकता को काफ़ी कम कर सकता है। Unsloth के डॉक्यूमेंटेशन के अनुसार, 26B QAT मॉडल का एक साधारण Q4_0 कन्वर्ज़न केवल लगभग 70.2% टॉप-1 सटीकता हासिल करता है। उनकी अपनी डायनामिक क्वांटाइज़ेशन विधि इसे 85.6% तक धकेलती है, 15.4 प्रतिशत अंकों का सुधार — लेकिन मुद्दा यह है कि फ़ॉर्मेट का चयन और रूपांतरण पद्धति उस क्वालिटी को बनाए रखने के लिए महत्वपूर्ण है जो QAT को देनी चाहिए।
ज़्यादातर यूज़र्स के लिए, आधिकारिक कंप्रेस्ड-टेंसर्स या GGUF चेकपॉइंट्स सबसे सुरक्षित शुरुआती बिंदु हैं।
QAT सिर्फ़ मेमोरी कम नहीं करता — यह लोकल AI इंफ़्रेंस के लिए हार्डवेयर की सूरत बदल देता है। जिन मॉडल्स को पहले डेटा-सेंटर GPU की ज़रूरत होती थी, वे अब कंज्यूमर हार्डवेयर और यहां तक कि स्मार्टफोन पर भी चल सकते हैं।
स्मार्टफोन और एज डिवाइस: E2B को मोबाइल के लिए ही बनाया गया है। Google का LiteRT-LM फ्रेमवर्क 2-बिट और 4-बिट क्वांटाइज़ेशन के साथ E2B को 1.5 GB से कम RAM में चला सकता है, और Google का अपना AI Edge Gallery ऐप प्ले स्टोर पर है जो यूज़र्स को पूरी तरह से ऑन-डिवाइस E2B या E4B चलाने देता है। दोनों मॉडल टेक्स्ट, इमेज और ऑडियो इनपुट सपोर्ट करते हैं — रियल-टाइम स्पीच ट्रांसलेशन, विज़ुअल क्वेश्चन आंसरिंग और ऑन-डिवाइस असिस्टेंट बिना क्लाउड कनेक्शन के संभव हो जाते हैं।
8 GB GPU: QAT डिप्लॉयमेंट के लिए सबसे उपयुक्त। E2B (~3.2 GB), E4B (~5 GB), और 12B मॉडल (~7 GB) सभी Q4_0 क्वांटाइज़ेशन पर 8 GB VRAM में आराम से फ़िट हो जाते हैं। इसका मतलब है कि मोबाइल 4060 वाला एक मिड-रेंज लैपटॉप या एक पुराना डेस्कटॉप 2070 अब 256K कॉन्टेक्स्ट विंडो वाला यूनिफ़ाइड मल्टीमॉडल मॉडल चला सकता है — ऐसा कुछ जिसके लिए 16-बिट प्रिसिज़न पर 24 GB या उससे अधिक की ज़रूरत होती।
12–16 GB GPU: 26B A4B MoE मॉडल Q4_0 रूप में लगभग 15 GB पर यहां आता है, RTX 3080, 4070 Ti, या 4080 जैसे कार्ड पर फ़िट बैठता है। इसकी MoE आर्किटेक्चर का मतलब है कि यह समान फुटप्रिंट वाले डेंस मॉडल की तुलना में कम इंफ़्रेंस लेटेंसी भी बनाए रखता है क्योंकि प्रति टोकन केवल पैरामीटर्स का एक अंश ही एक्टिवेट होता है।
20–24 GB GPU: 31B डेंस मॉडल को Q4_0 क्वांटाइज़ेशन पर लगभग 17–18 GB की ज़रूरत होती है, जो इसे RTX 3090 और 4090 मालिकों के लिए KV कैश और बैच साइज़ के लिए कुछ हेडरूम के साथ उपयोगी बनाता है। फ़ुल 16-बिट प्रिसिज़न पर, यह मॉडल लगभग 60 GB की मांग करता है — कंज्यूमर GPU के लिए पूरी तरह से बाहर। QAT सबसे बड़े Gemma 4 मॉडल को एक हाई-एंड कंज्यूमर कार्ड पर वास्तव में व्यावहारिक बनाता है।
महत्वपूर्ण वास्तविकता जांच: यहां चर्चित मेमोरी के आंकड़े मॉडल वेट साइज़ को दर्शाते हैं, न कि कुल VRAM खपत को। रनटाइम ओवरहेड — विशेष रूप से लंबी कॉन्टेक्स्ट विंडो के लिए KV कैश — शीर्ष पर गीगाबाइट्स जोड़ सकता है। 256K कॉन्टेक्स्ट के साथ 31B मॉडल बेस वेट साइज़ से काफ़ी अधिक मेमोरी की खपत करेगा, और सामुदायिक रिपोर्टों से पता चलता है कि कॉन्टेक्स्ट-हैवी वर्कलोड आवश्यकताओं को 20 GB की निचली सीमा में धकेल सकते हैं। सूचीबद्ध Q4_0 वेट फुटप्रिंट से परे हमेशा अतिरिक्त हेडरूम रखें।
QAT का मुख्य वादा नाटकीय रूप से कम मेमोरी पर लगभग मूल प्रदर्शन है — और बेंचमार्क मोटे तौर पर इसका समर्थन करते हैं। Google का अपना दस्तावेज़ीकरण 72% मेमोरी कमी पर प्रदर्शन को "लगभग मूल" के रूप में वर्णित करता है, और सामुदायिक बेंचमार्क बताते हैं कि BF16 की तुलना में Q4 क्वांटाइज़ेशन के लिए क्वालिटी लॉस 3–5% की सीमा में है।
लेकिन बारीकियां ही सब कुछ हैं। Unsloth की भोले-भाले रूपांतरण की चेतावनी — 26B मॉडल पर 70.2% टॉप-1 सटीकता बनाम उनके डायनामिक ऑप्टिमाइज़ेशन के बाद 85.6% — यह दर्शाती है कि आपको जो क्वालिटी मिलती है वह इस बात पर बहुत अधिक निर्भर करती है कि आप QAT वेट्स को कैसे रूपांतरित और तैनात करते हैं। यदि आप सीधे एक QAT चेकपॉइंट लेते हैं और बिना QAT-अवेयर हैंडलिंग के इसे एक स्टैंडर्ड GGUF कन्वर्टर के माध्यम से चलाते हैं, तो हो सकता है आपको वह क्वालिटी न मिले जिसकी आप अपेक्षा करते हैं।
प्रोडक्शन उपयोग के लिए, सबसे सुरक्षित दृष्टिकोण Google के आधिकारिक QAT चेकपॉइंट्स को सीधे उनके कंप्रेस्ड-टेंसर्स फ़ॉर्मेट (vLLM के लिए) या Hugging Face से आधिकारिक GGUF फ़ाइलों में उपयोग करना है। यदि आपको Google द्वारा प्रदान किए गए से परे कस्टम क्वांटाइज़ेशन की आवश्यकता है, तो बेंचमार्किंग के लिए समय निर्धारित करें — QAT वेट्स स्टैंडर्ड पोस्ट-ट्रेनिंग क्वांटाइज़्ड वेट्स की तुलना में रूपांतरण पद्धति के प्रति अधिक संवेदनशील होते हैं।
व्यावहारिक स्तर पर, यह रिलीज़ "क्या मैं इस मॉडल को स्थानीय रूप से चला सकता हूं?" के डिफ़ॉल्ट उत्तर को बदल देती है। पहली बार, एक प्रमुख ओपन-वेट मॉडल फैमिली QAT चेकपॉइंट्स के साथ प्रथम श्रेणी के नागरिक के रूप में आती है, न कि बाद में जोड़े जाने के रूप में। इसके प्रभाव कई एप्लिकेशन श्रेणियों में फैले हुए हैं:
गोपनीयता-संवेदनशील वर्कलोड: चिकित्सा, कानूनी और व्यक्तिगत सहायक एप्लिकेशन जिनके लिए पहले क्लाउड API की आवश्यकता होती थी, अब पूरी तरह से एक लैपटॉप या फोन पर ऑन-डिवाइस चल सकते हैं, QAT इतनी क्वालिटी बनाए रखता है कि स्थानीय इंफ़्रेंस वास्तव में उपयोगी हो।
ऑफलाइन और एज डिप्लॉयमेंट: फील्ड रिसर्च, आपदा प्रतिक्रिया और विश्वसनीय कनेक्टिविटी के बिना औद्योगिक सेटिंग्स सामान्य हार्डवेयर पर सक्षम मल्टीमॉडल मॉडल्स तैनात कर सकती हैं। E2B का ऑडियो सपोर्ट 1 GB मोबाइल क्वांटाइज़ेशन के साथ मिलकर एक मिड-रेंज फोन पर रियल-टाइम स्पीच ट्रांसलेशन को एक व्यावहारिक वास्तविकता बनाता है।
डेवलपर टूलिंग और IDE: 12B और 26B मॉडल उस हार्डवेयर पर फ़िट होते हैं जो डेवलपर्स के पास पहले से है, जिससे कोड कंप्लीशन, रीफैक्टरिंग और डॉक्यूमेंटेशन जनरेशन संभव होता है जो बिना लेटेंसी या लागत बाधाओं के स्थानीय रूप से चलता है। Google ने विशेष रूप से क्वांटाइज़्ड वर्शन को "IDE, कोडिंग असिस्टेंट और एजेंटिक वर्कफ़्लो" के लिए पोज़िशन किया है।
प्रयोग और फ़ाइन-ट्यूनिंग: छोटी रिसर्च टीमें और स्वतंत्र डेवलपर्स जो A100 या H100 क्लस्टर वहन नहीं कर सकते थे, अब कंज्यूमर हार्डवेयर पर 12B–31B रेंज के मॉडल्स के साथ काम कर सकते हैं, मॉडल कस्टमाइज़ेशन और डोमेन-स्पेसिफ़िक फ़ाइन-ट्यूनिंग के लिए प्रवेश की बाधा को नाटकीय रूप से कम कर रहा है।
Google ने चेकपॉइंट्स को बेस Gemma 4 मॉडल्स की तरह ही उसी Apache 2.0 लाइसेंस के तहत जारी किया, और वे हगिंग फेस पर सभी पाँच मॉडल साइज़ के लिए तुरंत उपलब्ध हैं।
Comments
0 comments