compressed-tensorsمجموعة نماذج Gemma 4 QAT بالكامل
تلقت خمسة أحجام من النماذج نقاط تفتيش QAT، بالإضافة إلى نماذج مسودة (drafter) متطابقة للتشفير التخميني. كل منها متاح بصيغ متعددة (ستتم مناقشتها أدناه)، وتتغير أحجام الذاكرة العملية بشكل كبير بين BF16 و QAT 4-bit .
| النموذج | المعمارية | المعاملات النشطة | ذاكرة BF16 | ذاكرة QAT 4-bit | مناسب لـ |
|---|---|---|---|---|---|
| E2B | كثيف (Dense) + PLE | ~2.3B فعال (5.1B مع التضمينات) | ~9.6 GB | ~3.2 GB (Q4_0)؛ 1 GB (الصيغة المحمولة) | الهواتف الذكية، أجهزة الحافة، المتصفحات |
| E4B | كثيف + PLE | ~4.5B فعال (8B مع التضمينات) | ~15 GB | ~5 GB (Q4_0) | كروت الشاشة متوسطة المدى، أجهزة محمولة بذاكرة أكبر |
| 12B | كثيف، متعدد الوسائط بدون مشفر | 11.95B | ~24 GB | ~7 GB (Q4_0) | كروت 8 GB، أجهزة لابتوب ببطاقة رسوميات مخصصة |
| 26B A4B | خليط الخبراء (MoE) | ~3.8B نشط (26B إجمالي) | ~48 GB | ~15 GB (Q4_0) | كروت 12–16 GB، محطات العمل المتطورة |
| 31B | كثيف | 30.7B | ~58 GB | ~17–18 GB (Q4_0) | كروت 24 GB (RTX 3090/4090) |
الأرقام الخاصة بالذاكرة مأخوذة من النظرة العامة الرسمية لنماذج جوجل ووثائق Unsloth، حيث تمثل أرقام Q4_0 مستوى الضغط GGUF الشائع . أما الرقم (1 GB) لنموذج E2B بصيغة الهاتف فهو الأكثر لفتاً للانتباه – فقد صممت جوجل خصيصًا نظامًا مخصصًا بطبقات فك ترميز مستهدفة بدقة 2 بت وذاكرات KV cache محسّنة للوصول إلى هذا الرقم
. بالنسبة للنماذج النصية فقط بدون تضمينات الطبقات (Per-Layer Embeddings)، يمكن أن ينخفض حجم الذاكرة إلى أقل من 1 جيجابايت وفقًا للتقارير
.
نموذج 26B A4B يستحق اهتمامًا خاصًا. إنه يعتمد على معمارية "خليط الخبراء" (Mixture of Experts - MoE) حيث يُنشط فقط حوالي 3.8 مليار معامل لكل رمز (token)، على الرغم من أن إجمالي عدد معاملاته يبلغ 26 مليارًا. هذا يعني أنه يقدم سلوكًا حسابيًا أقرب إلى نموذج 4B، مع تقديم جودة تفكير قابلة للمقارنة تقريبًا بنموذج كثيف أكبر بكثير . في صيغة 4 بت، يمكن تشغيله على كروت شاشة بسعة 12-16 جيجابايت – وهي العتاد الذي يملكه العديد من المطورين بالفعل
.
صيغ النشر: اختر بعناية
أهم تحذير في هذا الإصدار بأكمله يتعلق بالتحويل الساذج للصيغ. تحويل أوزان QAT مباشرة إلى Q4_0 دون معالجة صحيحة يمكن أن يقلل الدقة بشكل كبير. وفقًا لوثائق Unsloth، يحقق التحويل الساذج لـ Q4_0 لنموذج 26B QAT دقة Top-1 تبلغ حوالي 70.2% فقط . طريقتهم الخاصة (Dynamic Quantization) تدفع هذه النسبة إلى 85.6%، أي تحسن بمقدار 15.4 نقطة مئوية – لكن الفكرة تبقى أن اختيار الصيغة ومنهجية التحويل أمران حاسمان للحفاظ على الجودة التي من المفترض أن تقدمها QAT
.
بالنسبة لمعظم المستخدمين، فإن نقاط تفتيش compressed-tensors أو GGUF الرسمية هي نقطة البداية الأكثر أمانًا.
ما هي الأجهزة التي يمكنها تشغيل هذه النماذج فعلاً؟
QAT لا تقلل الذاكرة فحسب – إنها تعيد تشكيل مشهد العتاد لتشغيل الذكاء الاصطناعي محلياً. النماذج التي كانت تتطلب كروت شاشة مراكز البيانات يمكنها الآن العمل على أجهزة المستهلكين وحتى الهواتف الذكية.
الهواتف الذكية وأجهزة الحافة: نموذج E2B صُنع خصيصًا للأجهزة المحمولة. يمكن لإطار عمل LiteRT-LM من جوجل تشغيل E2B بأقل من 1.5 جيجابايت من ذاكرة الوصول العشوائي بضغط 2 بت و 4 بت، وتطبيق Google AI Edge Gallery على متجر Play يتيح للمستخدمين اختيار وتشغيل E2B أو E4B بالكامل على الجهاز . كلا النموذجين يدعمان إدخال النصوص والصور والصوت – مما يجعل الترجمة الفورية للكلام، والإجابة على الأسئلة المرئية، والمساعدين على الجهاز أمرًا واقعيًا دون اتصال سحابي
.
كروت الشاشة 8 GB: النقطة المثالية لنشر QAT. نماذج E2B (~3.2 GB) و E4B (~5 GB) ونموذج 12B (~7 GB) كلها تناسب بشكل مريح ذاكرة VRAM بسعة 8 جيجابايت عند ضغط Q4_0 . هذا يعني أن جهاز لابتوب متوسط المدى ببطاقة 4060 محمولة أو كرت سطح مكتب قديم مثل 2070 يمكنه الآن تشغيل نموذج موحد متعدد الوسائط بنافذة سياق 256 ألف رمز – وهو أمر كان سيتطلب 24 جيجابايت أو أكثر بدقة 16 بت.
كروت 12–16 GB: نموذج 26B A4B MoE يقع هنا عند حوالي 15 جيجابايت بصيغة Q4_0، مما يجعله مناسبًا لبطاقات مثل RTX 3080 أو 4070 Ti أو 4080 . معمارية MoE الخاصة به تعني أيضًا أنه يحافظ على زمن استجابة أقل للاستدلال مقارنة بنموذج كثيف بحجم مماثل، لأنه يتم تنشيط جزء صغير فقط من المعاملات لكل رمز
.
كروت 20–24 GB: نموذج 31B الكثيف يتطلب حوالي 17–18 جيجابايت عند ضغط Q4_0، مما يجعله في متناول مالكي بطاقات RTX 3090 و 4090 مع وجود مساحة إضافية لذاكرة KV cache وحجم الدفعة . بدقة 16 بت كاملة، يتطلب هذا النموذج ما يقرب من 60 جيجابايت – وهو أمر بعيد المنال تمامًا لكروت الشاشة الاستهلاكية. QAT تجعل أكبر نموذج من Gemma 4 عمليًا بشكل حقيقي على بطاقة استهلاكية واحدة متطورة.
تنبيه واقعي مهم: أرقام الذاكرة التي تمت مناقشتها هنا تمثل أحجام أوزان النموذج، وليس إجمالي استهلاك VRAM أثناء التشغيل. الأعباء الإضافية أثناء التشغيل – وخصوصًا ذاكرة KV cache لنوافذ السياق الطويلة – يمكن أن تضيف جيجابايتات إضافية. نموذج 31B مع سياق 256 ألف رمز سيستهلك ذاكرة أكبر بكثير من حجم الوزن الأساسي، وتشير تقارير المجتمع إلى أن المهام ذات السياق الثقيل قد تدفع المتطلبات إلى نطاق 20-22 جيجابايت . احرص دائمًا على توفير مساحة إضافية تتجاوز حجم Q4_0 المُدرج.
الحفاظ على الجودة والحدود العملية
الوعد الأساسي لـ QAT هو أداء قريب من الأصلي مع تقليل كبير في الذاكرة – والمعايير تدعم ذلك إلى حد كبير. تصف وثائق جوجل الأداء بأنه "قريب من الأصلي" مع تقليل في الذاكرة بنسبة 72% تقريبًا، وتشير معايير المجتمع إلى أن فقدان الجودة يقع في نطاق 3-5% لضغط Q4 مقارنة بـ BF16 .
لكن الشيطان يكمن في التفاصيل. تحذير التحويل الساذج من Unsloth – دقة Top-1 بنسبة 70.2% على نموذج 26B مقابل 85.6% بعد تحسينهم الديناميكي – يوضح أن الجودة التي تحصل عليها تعتمد بشكل كبير على كيفية تحويل ونشر أوزان QAT . إذا قمت ببساطة بسحب نقطة تفتيش QAT وتشغيلها عبر محول GGUF قياسي دون معالجة مدركة لـ QAT، فقد لا تحصل على الجودة التي تتوقعها.
للاستخدام الإنتاجي، النهج الأكثر أمانًا هو استخدام نقاط تفتيش QAT الرسمية من جوجل مباشرة بصيغة compressed-tensors (لـ vLLM) أو ملفات GGUF الرسمية من Hugging Face . إذا كنت بحاجة إلى ضغط مخصص يتجاوز ما توفره جوجل، فخصص وقتًا لقياس الأداء – أوزان QAT أكثر حساسية لمنهجية التحويل من الأوزان المضغوطة القياسية بعد التدريب.
ما الذي يفتحه هذا الإصدار؟
على المستوى العملي، يغير هذا الإصدار الإجابة الافتراضية على سؤال "هل يمكنني تشغيل هذا النموذج محليًا؟". لأول مرة، تُصدر عائلة نماذج رئيسية مفتوحة الأوزان مع نقاط تفتيش QAT كخيار أساسي، وليس كفكرة لاحقة. الآثار تمتد عبر عدة فئات من التطبيقات:
التطبيقات الحساسة للخصوصية: التطبيقات الطبية والقانونية وتطبيقات المساعد الشخصي التي كانت تتطلب سابقًا واجهة برمجة تطبيقات (API) سحابية يمكنها الآن العمل بالكامل على الجهاز على حاسوب محمول أو هاتف، مع حفاظ QAT على جودة كافية لجعل الاستدلال المحلي مفيدًا حقًا .
النشر في وضع عدم الاتصال وعلى الحافة: يمكن للبحث الميداني، والاستجابة للكوارث، والإعدادات الصناعية التي لا تتوفر فيها اتصالية موثوقة، نشر نماذج متعددة الوسائط قادرة على أجهزة تجارية. دعم الصوت في E2B مع ضغط 1 جيجابايت المحمول يجعل الترجمة الفورية للكلام على هاتف متوسط المدى حقيقة عملية .
أدوات المطورين وبيئات التطوير (IDEs): نموذجا 12B و 26B مناسبان للأجهزة التي يملكها المطورون بالفعل، مما يتيح إكمال الكود، وإعادة الهيكلة، وتوليد الوثائق بشكل محلي دون قيود على زمن الاستجابة أو التكلفة. لقد وضعت جوجل الإصدارات المضغوطة خصيصًا لـ "بيئات التطوير، مساعدي البرمجة، وسير عمل الوكلاء الأذكياء" .
التجريب والضبط الدقيق: فرق البحث الصغيرة والمطورون المستقلون الذين لم يتمكنوا من تحمل تكلفة مجموعات A100 أو H100 يمكنهم الآن العمل مع نماذج في نطاق 12B–31B على أجهزة المستهلكين، مما يخفض بشكل كبير حاجز الدخول لتخصيص النماذج وضبطها الدقيق لمجالات محددة.
أصدرت جوجل نقاط التفتيش بموجب نفس ترخيص Apache 2.0 مثل نماذج Gemma 4 الأساسية، وهي متاحة فورًا على Hugging Face لجميع أحجام النماذج الخمسة .
Comments
0 comments