ببساطة، تتم العملية كالتالي:
هذه الآلية تجعل التوليد متسلسلًا بالكامل، أي لا يمكن تنفيذ الخطوات بالتوازي بسهولة. وغالبًا ما يؤدي ذلك إلى اختناقات في عرض نطاق الذاكرة عند الوصول المتكرر إلى KV cache أثناء التوليد.
في نموذج Zyphra الجديد يتغير مسار فك الترميز جذريًا.
بدل توقع رمز واحد فقط، يقوم النموذج باقتراح مجموعة من الرموز المرشحة دفعة واحدة. وفي الإصدار التجريبي تبلغ الكتلة 16 رمزًا في كل خطوة انتشار.
تتم العملية تقريبًا كالتالي:
لأن جميع الرموز المرشحة تشترك في نفس المقدمة النصية وحالة KV cache، يستطيع النموذج تنفيذ حسابات متوازية لعدة رموز في تمريرة واحدة عبر الشبكة العصبية.
بهذا يتحول عبء المعالجة من كونه محدودًا بسرعة الذاكرة إلى حسابات متوازية كثيفة، وهو النوع من العمليات التي تتفوق فيها وحدات معالجة الرسوميات GPU.
التحسن في السرعة يعتمد على طريقة أخذ العينات المستخدمة أثناء التوليد.
المُعيِّن الخالي من الخسارة (Lossless Sampler)
مُعيِّن مزج اللوغِتات (Logit‑Mixing Sampler)
هذه النتائج مستندة أساسًا إلى تقارير Zyphra نفسها، لذلك ستبقى الاختبارات المستقلة مهمة لمعرفة الأداء الفعلي في الاستخدامات العملية.
جانب آخر غير معتاد في المشروع هو بيئة التدريب. تشير Zyphra إلى أن النموذج هو أول نموذج لغة بالانتشار يتم تدريبه على وحدات GPU من AMD بدل البنية التحتية القائمة غالبًا على Nvidia.
إذا أثبتت التجارب إمكانية تكرار هذه النتائج، فقد يشير ذلك إلى أن تدريب وتشغيل نماذج اللغة الكبيرة لا يقتصر بالضرورة على منظومة واحدة من العتاد، ما قد يوسع المنافسة في سوق البنية التحتية للذكاء الاصطناعي.
يتضمن نموذج ZAYA1‑8B أيضًا آلية تسمى Compressed Convolutional Attention (CCA). الهدف منها تقليل التكلفة الحسابية لعمليات الانتباه أثناء العمليات المتوازية الكبيرة.
هذا مهم خصوصًا لأن فك الترميز بالانتشار يشبه إلى حد ما مرحلة prefill الكبيرة في الاستدلال، حيث تتم معالجة عدد كبير من الرموز في وقت واحد. تقليل تكلفة الانتباه يجعل توليد عدة رموز بالتوازي أكثر كفاءة.
إذا تحققت مكاسب السرعة المعلنة في أنظمة الإنتاج، فقد يؤدي ذلك إلى تأثيرات واضحة على اقتصاديات تشغيل النماذج:
مع ذلك تشير Zyphra إلى أن أنظمة الاستدلال لنماذج الانتشار ما تزال أقل نضجًا من الأنظمة التقليدية، لذلك قد تختلف النتائج الواقعية عن الأرقام النظرية.
تعتمد نماذج التفكير الحديثة غالبًا على التعلم المعزز باستخدام عمليات توليد كثيرة أثناء التدريب (rollouts). سرعة التوليد تحدد مباشرة عدد الاستجابات التي يمكن تجربتها.
لذلك فإن فك الترميز الأسرع قد يؤدي إلى:
في العديد من خطوط تدريب النماذج المتقدمة، يعد توليد النصوص أحد أكبر مصادر التكلفة الحسابية.
يمثل ZAYA1‑8B‑Diffusion‑Preview مثالًا على توجه متزايد في صناعة الذكاء الاصطناعي: التركيز ليس فقط على زيادة حجم النماذج، بل على تحسين الكفاءة الاقتصادية للحوسبة.
يجمع هذا المشروع عدة استراتيجيات للكفاءة:
إذا أثبتت هذه الأفكار نجاحها على نطاق واسع، فقد تعيد تشكيل طريقة تحسين نماذج اللغة مستقبلًا، ليس فقط من حيث القدرة، بل أيضًا من حيث السرعة والتكلفة وكفاءة العتاد. في الوقت الحالي يمثل النموذج عرضًا مبكرًا لفكرة أن تحويل النماذج التلقائية التقليدية إلى نماذج انتشار قد يكون طريقًا واعدًا لتسريع توليد النصوص.
Comments
0 comments