प्रक्रिया आम तौर पर इस तरह चलती है:
क्योंकि हर कदम पिछले टोकन पर निर्भर होता है, इसलिए यह प्रक्रिया सीक्वेंशियल होती है और आसानी से parallel नहीं हो पाती। बार‑बार KV cache एक्सेस करने से अक्सर memory bandwidth bottleneck बन जाता है।
Zyphra का diffusion तरीका इस प्रक्रिया को बदल देता है।
एक‑एक टोकन बनाने की बजाय, मॉडल एक साथ कई संभावित टोकनों का ब्लॉक तैयार करता है। इस प्रीव्यू मॉडल में हर diffusion स्टेप में 16 टोकन प्रस्तावित किए जाते हैं।
साधारण रूप में प्रक्रिया कुछ ऐसी होती है:
क्योंकि इन टोकनों का prefix और KV cache एक ही होता है, इसलिए GPU एक ही forward pass में कई टोकनों की गणना कर सकता है। इससे काम sequential memory access से हटकर parallel compute पर शिफ्ट हो जाता है, जो आधुनिक GPU के लिए ज्यादा अनुकूल है।
Zyphra ने दो अलग decoding रणनीतियों का उल्लेख किया है:
Lossless sampler
Logit‑mixing sampler
इन परिणामों का अधिकांश हिस्सा Zyphra की अपनी रिपोर्ट पर आधारित है, इसलिए स्वतंत्र बेंचमार्क भविष्य में अधिक स्पष्ट तस्वीर देंगे।
AI उद्योग में अधिकांश बड़े मॉडल Nvidia GPU पर प्रशिक्षित किए जाते हैं। लेकिन Zyphra का कहना है कि यह पहला diffusion भाषा मॉडल है जिसे AMD GPU पर प्रशिक्षित किया गया।
कंपनी ने अपने बेस मॉडल और उसके diffusion संस्करण दोनों को AMD AI स्टैक पर ट्रेन किया। अगर यह तरीका व्यापक रूप से दोहराया जा सके, तो AI हार्डवेयर के क्षेत्र में Nvidia के अलावा भी प्रतिस्पर्धा बढ़ सकती है।
ZAYA1‑8B में Zyphra की एक तकनीक भी शामिल है जिसे Compressed Convolutional Attention (CCA) कहा जाता है। इसका उद्देश्य attention computation की लागत को कम करना है।
Diffusion decoding में एक साथ कई टोकन प्रोसेस करना अक्सर prefill‑जैसे बड़े parallel ऑपरेशन जैसा हो जाता है। ऐसे में attention की लागत कम होना महत्वपूर्ण है, क्योंकि इससे multi‑token generation अधिक व्यावहारिक बन सकता है।
अगर Zyphra के बताए गए speedup वास्तविक उत्पादन सिस्टम में भी मिलते हैं, तो इसके कई असर हो सकते हैं:
हालाँकि कंपनी खुद भी मानती है कि diffusion‑style inference अभी उतना optimized नहीं है जितना पारंपरिक autoregressive स्टैक, इसलिए वास्तविक लाभ अलग हो सकते हैं।
कई आधुनिक reasoning मॉडल reinforcement learning (RL) के साथ प्रशिक्षित किए जाते हैं। इसमें मॉडल को प्रशिक्षण के दौरान बहुत बड़ी संख्या में संभावित जवाब जनरेट करने पड़ते हैं, जिन्हें "rollouts" कहा जाता है।
अगर जनरेशन तेज़ हो जाए तो:
यानी inference की गति सीधे‑सीधे RL प्रशिक्षण की लागत और गति को प्रभावित करती है।
ZAYA1‑8B‑Diffusion‑Preview AI विकास के एक बड़े रुझान की ओर इशारा करता है। अब ध्यान केवल बड़े मॉडल बनाने पर नहीं, बल्कि "प्रति डॉलर अधिक बुद्धिमत्ता" हासिल करने पर भी है।
इस प्रयोग में कई दक्षता रणनीतियाँ एक साथ दिखती हैं:
अगर ये तकनीकें बड़े पैमाने पर सफल साबित होती हैं, तो भविष्य के भाषा मॉडल केवल अधिक शक्तिशाली ही नहीं बल्कि अधिक तेज़, सस्ते और हार्डवेयर‑कुशल भी हो सकते हैं। फिलहाल ZAYA1‑8B‑Diffusion‑Preview को इस दिशा में एक शुरुआती लेकिन महत्वपूर्ण प्रयोग माना जा रहा है।
Comments
0 comments