الإجاباتمنشورقبل شهرينLast edited الشهر الماضي14 المصادر

كيف يولد نموذج ZAYA1‑8B‑Diffusion‑Preview من Zyphra 16 رمزًا في آن واحد ويُسرّع استدلال الذكاء الاصطناعي

نموذج ZAYA1‑8B‑Diffusion‑Preview يحول نموذج ZAYA1‑8B القائم على Mixture‑of‑Experts إلى نموذج انتشار يولد 16 رمزًا بالتوازي، مع تسريع فك الترميز المعلن بين 4.6× و7.7× حسب طريقة أخذ العينات. بدل التوليد المتسلسل رمزًا تلو الآخر، يستخدم النموذج توليد كتل من الرموز دفعة واحدة، ما يقلل اختناقات عرض نطاق الذاكرة ويستفيد ب...

ابحث وتحقق من الحقائق مع Studio Global AI تصفّح المزيد من الصفحات الرائجة

Conceptual illustration of a diffusion language model generating multiple tokens in parallel — What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion lDiffusion-style language models can draft multiple tokens simultaneously instead of generating them sequentially.
موجّه الذكاء الاصطناعي
Create a landscape editorial hero image for this Studio Global article: What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion l. Article summary: Zyphra’s ZAYA1-8B-Diffusion-Preview is an experimental diffusion-language version of its ZAYA1-8B MoE model, designed to decode blocks of text in parallel rather than strictly one token at a time. Zyphra claims it can ge. Topic tags: general, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class. Zyphra AI has released ZAYA1-8B, a small Mixture of Experts (MoE) langu" source context "Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class
openai.com

نهج الانتشار لتسريع فك الترميز في نماذج اللغة

أطلقت شركة Zyphra نسخة تجريبية من نموذجها اللغوي تحت اسم ZAYA1‑8B‑Diffusion‑Preview، وهو نموذج تجريبي يعتمد على أسلوب الانتشار (Diffusion) بدل الأسلوب التقليدي للتوليد التسلسلي. الفكرة الأساسية هي أن النموذج لا ينتج النص رمزًا واحدًا في كل خطوة، بل يقترح كتلًا من 16 رمزًا دفعة واحدة.

تقول Zyphra إن هذه الطريقة قد تحقق تسريعًا نظريًا في فك الترميز يصل إلى 4.6 مرات باستخدام ما تسميه “المُعيِّن الخالي من الخسارة” (lossless sampler)، وقد يصل إلى 7.7 مرات باستخدام أسلوب مزج اللوغِتات (logit‑mixing sampler)، مع تأثير محدود على جودة النتائج وفق إعدادات التشغيل.

اللافت في هذه النسخة أنها لم تُدرَّب كنموذج انتشار من البداية، بل جرى تحويل نموذج لغوي تقليدي مدرَّب مسبقًا إلى نسخة تعتمد على الانتشار، ما يشير إلى إمكانية إعادة استخدام نماذج اللغة الحالية بهذه الطريقة.

النموذج الأساسي: ZAYA1‑8B

تعتمد النسخة التجريبية على النموذج الأساسي ZAYA1‑8B، وهو نموذج تفكير يعتمد على بنية Mixture‑of‑Experts (MoE).

يضم النموذج أكثر قليلًا من 8 مليارات معلمة إجمالًا، لكن أثناء الاستدلال يتم تفعيل حوالي 760 مليون معلمة فقط. هذا التصميم يسمح بالحفاظ على أداء قوي مع تقليل تكلفة الحوسبة مقارنة بالنماذج الكثيفة التقليدية.

في نماذج MoE يتم توجيه كل رمز إلى مجموعة صغيرة من "الخبراء" داخل الشبكة العصبية بدل استخدام النموذج كاملًا في كل خطوة، وهو ما يقلل استهلاك الموارد الحسابية.

لماذا التوليد التسلسلي بطيء؟

معظم نماذج اللغة الكبيرة اليوم تعتمد على . في هذا الأسلوب يعتمد كل رمز جديد على جميع الرموز السابقة.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

يسأل الناس أيضا

ما هي الإجابة المختصرة على "كيف يولد نموذج ZAYA1‑8B‑Diffusion‑Preview من Zyphra 16 رمزًا في آن واحد ويُسرّع استدلال الذكاء الاصطناعي"؟

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

إذا أثبتت هذه الطريقة فعاليتها في الإنتاج، فقد تقلل تكلفة الاستدلال وتسّرع تدريب نماذج التعلم المعزز التي تعتمد على توليد أعداد ضخمة من الاستجابات التجريبية.

كيف يولد نموذج ZAYA1‑8B‑Diffusion‑Preview من Zyphra 16 رمزًا في آن واحد ويُسرّع استدلال الذكاء الاصطناعي

نهج الانتشار لتسريع فك الترميز في نماذج اللغة

النموذج الأساسي: ZAYA1‑8B

لماذا التوليد التسلسلي بطيء؟

Search, cite, and publish your own answer

يسأل الناس أيضا

ما هي الإجابة المختصرة على "كيف يولد نموذج ZAYA1‑8B‑Diffusion‑Preview من Zyphra 16 رمزًا في آن واحد ويُسرّع استدلال الذكاء الاصطناعي"؟

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

المصادر

كيف يولد نموذج الانتشار 16 رمزًا في خطوة واحدة

طريقتان لأخذ العينات وسرعات مختلفة

لماذا يُعد التدريب على عتاد AMD أمرًا لافتًا

آلية Compressed Convolutional Attention

ماذا يعني ذلك لتكلفة الاستدلال

التأثير المحتمل على تدريب التعلم المعزز

اتجاه جديد نحو “ذكاء أعلى لكل دولار”