समस्या यह है कि यह KV कैश मेमोरी का बहुत बड़ा भुक्खड़ है। यह हर एक नए टोकन के साथ फूलता जाता है और चुपचाप गीगाबाइट्स RAM या VRAM खा जाता है। टीथर के अनुसार, एक 4-बिलियन-पैरामीटर मॉडल के लिए जो लगभग 2,62,000 टोकन (जो कि घंटों की चैट या एक पूरा कोडबेस हो सकता है) के साथ काम कर रहा है, अकेला KV कैश ही लगभग 8 GB मेमोरी खा जाता है। ऐसे चार सत्र एक साथ चलाएं, तो मॉडल को लोड करने से पहले ही 32 GB से अधिक मेमोरी इस्तेमाल हो रही होगी ।
मेमोरी में यह विस्फोटक वृद्धि ही मुख्य कारण है कि लंबे संदर्भ वाले AI कार्य—जैसे किसी कानूनी दस्तावेज़ का विश्लेषण करना, किसी पॉडकास्ट का सारांश तैयार करना, या वास्तव में संदर्भ-जागरूक सहायक के साथ कोडिंग करना—अब तक बड़े पैमाने पर केंद्रीकृत क्लाउड इंफ्रास्ट्रक्चर और उसकी उच्च-मेमोरी GPU की पंक्तियों के क़ैदी रहे हैं ।
टर्बोक्वांट आक्रामक KV कैश क्वांटाइज़ेशन नामक तकनीक से इस समस्या से सीधे निपटता है। इसकी अवधारणा किसी इमेज को संपीड़ित करने जैसी ही है: यह सैद्धांतिक संख्यात्मक सटीकता के एक छोटे से हिस्से को, व्यावहारिक मेमोरी दक्षता में बड़े लाभ के लिए व्यापार करता है ।
यह ऐसे काम करता है:
टीथर का ओपन-सोर्स रिलीज़ सिर्फ एक सैद्धांतिक पेपर नहीं है। यह एक व्यावहारिक पैकेज है जिसमें एक पूर्ण क्वांटाइज़ेशन पाइपलाइन, सामान्य इन्फरेंस फ्रेमवर्क के लिए एडेप्टर, और विभिन्न कार्यभारों के लिए ट्यून किए गए डिप्लॉयमेंट प्रोफाइल शामिल हैं, जो इसे डेवलपर्स के लिए अपनी परियोजनाओं में जोड़ने के लिए तैयार बनाते हैं ।
टर्बोक्वांट का असली महत्व तब स्पष्ट होता है जब आप देखते हैं कि यह कहाँ रहता है: QVAC फ़ैब्रिक के अंदर, जो टीथर के QVAC SDK का मुख्य LLM रनटाइम है । QVAC, जिसका अर्थ है "सॉवरेन माइंड" पहल, टीथर का ओपन-सोर्स, क्रॉस-प्लेटफ़ॉर्म SDK है, जो लोकल-फर्स्ट, विकेंद्रीकृत AI के निर्माण के लिए है
। यह एक एकीकृत API के पीछे LLM कम्पलीशन, स्पीच रिकॉग्निशन, अनुवाद, OCR, इमेज जनरेशन और ऑन-डिवाइस फाइन-ट्यूनिंग जैसी क्षमताओं को बंडल करता है, जिसे किसी भी डिवाइस या ऑपरेटिंग सिस्टम पर समान रूप से चलाने के लिए डिज़ाइन किया गया है
।
KV-कैश मेमोरी की दीवार को हटाकर, टर्बोक्वांट केवल एक प्रदर्शन सुधार नहीं है। यह टीथर के उस विज़न का एक रणनीतिक सक्षमकर्ता है, जिसमें AI व्यक्तिगत उपकरणों, स्थानीय नेटवर्कों और पीयर-टू-पीयर इंफ्रास्ट्रक्चर पर चलता है, जिससे दुनिया की मुट्ठी भर केंद्रीकृत हाइपरस्केल क्लाउड पर निर्भरता कम होती है ।
इसकी राजनीति स्पष्ट है। टीथर के CEO पाओलो अर्दोइनो ने इस रिलीज़ को कड़े शब्दों में परिभाषित किया: “अगर लंबे संदर्भ वाला AI केवल सबसे बड़े डेटा सेंटरों के अंदर ही काम करता है, तो AI को वही आकार देगा जिसके पास सबसे अधिक हार्डवेयर होगा” । टर्बोक्वांट को सत्ता के इस संकेंद्रण का एक व्यावहारिक जवाब बनने के लिए डिज़ाइन किया गया है।
टर्बोक्वांट 0.12.0 रिलीज़ का सितारा था, लेकिन यह अकेला नहीं आया था। आधिकारिक रिलीज़ और संबंधित कवरेज के अनुसार, इस अपडेट ने SDK की मल्टीमॉडल क्षमताओं का भी महत्वपूर्ण रूप से विस्तार किया :
@qvac/sdk पैकेज के माध्यम से सुलभ हैं टर्बोक्वांट को ओपन-सोर्स सॉफ़्टवेयर के रूप में जारी करके और इसे सीधे QVAC SDK में एकीकृत करके, टीथर यह दांव लगा रहा है कि AI का भविष्य उतना ही परिभाषित होगा जितना कि वह कहाँ चलता है—आपके डिवाइस पर, आपके हाथों में—जितना कि वह क्या कर सकता है।
Comments
0 comments