الإجاباتمنشورقبل 4 أيامLast edited أول أمس30 المصادر

تشغيل نماذج بـ 31 مليار معامل على كروت شاشة منزلية وهواتف بذاكرة 1 جيجابايت فقط

نماذج التدريب المدرك للضغط (QAT) من جوجل لـ Gemma 4 تقلل استخدام الذاكرة بنسبة 72% مقارنة بالدقة 16 بت، مما يجعل نماذج 31B قابلة للتشغيل على كرت شاشة منزلي واحد وتقلص نموذج E2B إلى 1 جيجابايت فقط على الهواتف. أصبحت خمسة أحجام متاحة – E2B و E4B و 12B و 26B A4B (خبراء متعددون) و 31B – بصيغ نشر تشمل compressed tensors...

ابحث وتحقق من الحقائق مع Studio Global AI تصفّح المزيد من الصفحات الرائجة

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
موجّه الذكاء الاصطناعي
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

أطلقت جوجل نقاط تفتيش رسمية بتقنية التدريب المدرك للضغط (Quantization-Aware Training - QAT) لعائلة Gemma 4 بأكملها، في خطوة تغير بشكل جذري المكان الذي يمكن أن تعمل فيه هذه النماذج. بدلاً من أخذ نموذج مكتمل بدقة 16 بت وضغطه بعد التدريب – وهي عملية تؤدي عادةً إلى تدهور في الجودة – تقوم QAT بمحاكاة الضغط أثناء التدريب نفسه. يتعلم النموذج التعويض عن فقدان الدقة، لذا فإن الإصدار النهائي بدقة 4 بت يحتفظ بأداء قريب جدًا من النموذج الأصلي مع خفض استخدام الذاكرة بنسبة 72% تقريبًا .

يغطي هذا الإصدار خمسة أحجام من المعاملات ويقدم تنسيق ضغط جديد خاص بالهواتف الذكية يدفع الحدود إلى أبعد مدى. بالنسبة للمطورين والباحثين الذين كانوا يراقبون النماذج الكبيرة من بعيد بسبب قيود الأجهزة، فإن الآثار العملية فورية.

لماذا تعتبر QAT أكثر أهمية من الضغط القياسي

يأخذ الضغط القياسي بعد التدريب (Post-Training Quantization - PTQ) نموذجًا مدربًا بالكامل ويحول أوزانه إلى دقة أقل - int4 بدلاً من bfloat16، على سبيل المثال. المشكلة هي أن النموذج لم يتم تدريبه أبدًا للعمل بهذه الدقة، وغالبًا ما تتدهور الجودة بشكل ملحوظ .

تقوم QAT بدمج محاكاة الضغط مباشرة في عملية التدريب. يرى النموذج القيم المضغوطة أثناء التمريرات الأمامية والخلفية، وبالتالي يتعلم مقاومة التمثيل الرقمي الأضيق. والنتيجة هي نموذج يقدم "أداءً قريبًا من الأصلي" في صيغة 4 بت، بدلاً من نسخة متدهورة من نظيره 16 بت .

تستخدم نقاط التفتيش الرسمية نظام W4A16: أوزان صحيحة بدقة 4 بت مع تنشيطات بدقة 16 بت، مع group_size بقيمة 32، وبتنسيق . هذا هو نفس النهج الذي توثقه جوجل للاستدلال القائم على vLLM، حيث يوازن الجمع بين الأوزان منخفضة البت والتنشيطات عالية الدقة بين توفير الذاكرة والإنتاجية .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

يسأل الناس أيضا

ما هي الإجابة المختصرة على "تشغيل نماذج بـ 31 مليار معامل على كروت شاشة منزلية وهواتف بذاكرة 1 جيجابايت فقط"؟

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

عملياً، هذا يعني تشغيل نموذج 12B على كروت 8GB، و 26B MoE على كروت 16GB، والنموذج الكامل 31B على كروت 18 20GB – لكن انتبه لفارق استهلاك الذاكرة أثناء التشغيل، فالصيغة المحمولة تفتح الباب للذكاء الاصطناعي على الأجهزة عب...

المصادر

Comments

0 comments

Loading comments...

النموذج	المعمارية	المعاملات النشطة	ذاكرة BF16	ذاكرة QAT 4-bit	مناسب لـ
E2B	كثيف (Dense) + PLE	~2.3B فعال (5.1B مع التضمينات)	~9.6 GB	~3.2 GB (Q4_0)؛ 1 GB (الصيغة المحمولة)	الهواتف الذكية، أجهزة الحافة، المتصفحات
E4B	كثيف + PLE	~4.5B فعال (8B مع التضمينات)	~15 GB	~5 GB (Q4_0)	كروت الشاشة متوسطة المدى، أجهزة محمولة بذاكرة أكبر
12B	كثيف، متعدد الوسائط بدون مشفر	11.95B	~24 GB	~7 GB (Q4_0)	كروت 8 GB، أجهزة لابتوب ببطاقة رسوميات مخصصة
26B A4B	خليط الخبراء (MoE)	~3.8B نشط (26B إجمالي)	~48 GB	~15 GB (Q4_0)	كروت 12–16 GB، محطات العمل المتطورة
31B	كثيف	30.7B	~58 GB	~17–18 GB (Q4_0)	كروت 24 GB (RTX 3090/4090)