UltraSpeed मोड कोई नया मॉडल क्लास नहीं है, बल्कि एक इंजीनियरिंग-संचालित सर्विंग मोड है जो MiMo-V2.5-Pro के ऊपर लेयर किया गया है। यह अपने आप में 1.02 खरब पैरामीटर का मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर है, जिसमें 42 अरब सक्रिय पैरामीटर और 1 मिलियन टोकन की कॉन्टेक्स्ट विंडो है ।
शाओमी के आधिकारिक दस्तावेज़ एक पूर्ण-स्टैक मॉडल-सिस्टम को-डिज़ाइन का वर्णन करते हैं जो थ्रूपुट को 1000 टोकन/सेकंड से आगे ले जाने के लिए तीन समन्वित तकनीकों को जोड़ता है ।
केवल MoE (मिक्सचर ऑफ एक्सपर्ट्स) एक्सपर्ट लेयर्स को FP4 प्रिसिजन में क्वांटाइज़ किया गया है, जबकि बाकी सभी लेयर्स अपनी मूल प्रिसिजन में बनी रहती हैं । क्वांटाइजेशन-अवेयर ट्रेनिंग (QAT) मॉडल की मेमोरी फुटप्रिंट और बैंडविड्थ दबाव को कम करती है, जिसका लक्ष्य लगभग दोषरहित गुणवत्ता बनाए रखना है
। यह चयनात्मक दृष्टिकोण उन नॉन-एक्सपर्ट घटकों को खराब होने से बचाता है जो प्रिसिजन लॉस के प्रति अधिक संवेदनशील होते हैं।
DFlash पारंपरिक ऑटोरिग्रेसिव ड्राफ्ट जनरेशन को ब्लॉक-लेवल मास्क्ड पैरेलल प्रिडिक्शन से बदल देता है । ड्राफ्ट मॉडल स्लाइडिंग-विंडो अटेंशन (SWA) का उपयोग करता है ताकि प्रिडिक्शन की लागत को अनुक्रम लंबाई के साथ बढ़ने के बजाय लगभग स्थिर रखा जा सके
। स्वीकृति दरों को बेहतर बनाने के लिए एक Muon ऑप्टिमाइज़र और सेल्फ-डिस्टिलेशन का उपयोग किया जाता है, जो सीधे इन्फ्रेंस थ्रूपुट को बढ़ाता है
। कोडिंग परिदृश्यों में, रिपोर्ट्स बताती हैं कि प्रति वेरिफिकेशन स्टेप स्वीकृत टोकन की औसत लंबाई लगभग 6.30 है
।
TileRT सिस्टम पारंपरिक प्रति-ऑपरेटर कर्नेल लॉन्च मॉडल को त्यागकर एक परसिस्टेंट कर्नेल इंजन का उपयोग करता है, जहां कंप्यूट पाइपलाइन GPU पर लगातार निवास करती है । फुल-पाइपलाइन प्रीफेचिंग डेटा मूवमेंट और गणना को एक-दूसरे पर ओवरलैप करती है, जिससे GPU के निष्क्रिय चक्रों में नाटकीय कमी आती है
। यह सिस्टम कम्युनिकेशन, डेटा मूवमेंट और टेंसर कम्प्यूटेशन को समर्पित भूमिकाओं के साथ विभिन्न वार्प्स में विघटित करता है, जो प्रभावी रूप से GPU को एक निरंतर बहने वाली, विषम निष्पादन प्रणाली में बदल देता है
।
UltraSpeed API की परीक्षण कीमत बिल्कुल स्टैंडर्ड MiMo-V2.5-Pro आउटपुट मूल्य का 3 गुना निर्धारित की गई है ।
इनपुट मूल्य निर्धारण भी 3 गुना गुणक का पालन करता है, जिसमें कैश-हिट इनपुट $0.0108 प्रति मिलियन टोकन और कैश-मिस इनपुट $1.305 प्रति मिलियन टोकन है । शाओमी ने इसे "3 गुना कीमत, 10 गुना आउटपुट अनुभव" के रूप में विपणन किया है, जो 3 गुना टोकन लागत पर लगभग 10 गुना थ्रूपुट लाभ पर जोर देता है
।
UltraSpeed ट्रायल अवधि स्पष्ट रूप से समयबद्ध है: 9 जून से 23 जून, 2026, रात 23:59 बजे तक । सीमित हाई-स्पीड इन्फ्रेंस संसाधनों के कारण एक्सेस एप्लीकेशन-आधारित है, जिसमें उद्यम और पेशेवर डेवलपर उपयोग के मामलों को प्राथमिकता दी जाएगी
।
स्वीकृत उपयोगकर्ताओं को दो-सप्ताह की विंडो के दौरान मुफ्त चैट अनुभव मिलता है, जो निष्पक्षता नियमों के अधीन है: प्रति खाता प्रति दिन अधिकतम 10 सफल कतार प्रविष्टियां, 30 मिनट की सत्र सीमा, और 5 मिनट की निष्क्रियता के बाद स्वचालित संसाधन रिलीज़ । शाओमी समीक्षा की समयबद्धता या स्वीकृति दरों की गारंटी नहीं देता है
।
UltraSpeed घोषणा के साथ ही, MiMo-V2.5-Pro-FP4-DFlash के रूप में संदर्भित अंतर्निहित मॉडल को ओपन-सोर्स के रूप में जारी किया गया । FP4-क्वांटाइज्ड वेट और DFlash मॉडल चेकपॉइंट HuggingFace पर उपलब्ध हैं, जो शाओमी के दस्तावेज़ीकरण के अनुरूप है जो FP4 क्वांटाइजेशन और DFlash स्पेक्युलेटिव डिकोडिंग को मुख्य सिस्टम घटकों के रूप में पहचानता है
।
UltraSpeed मोड यह प्रदर्शित करता है कि खरब पैमाने की इन्फ्रेंस को इंटरैक्टिव गति पर बिना किसी कस्टम सिलिकॉन के, कमोडिटी इंफ्रास्ट्रक्चर पर चलाया जा सकता है, जो उद्योग में कहीं और देखे जाने वाले विशेष-हार्डवेयर दृष्टिकोण से एक अलग राह है । लेटेंसी-संवेदनशील एजेंटिक एप्लिकेशन, टूल-कॉलिंग पाइपलाइन, या रीयल-टाइम कोड जेनरेशन बनाने वाले डेवलपर्स के लिए, उच्च थ्रूपुट और 1-मिलियन-टोकन कॉन्टेक्स्ट विंडो का संयोजन तेज़, अधिक सक्षम उत्पादन प्रणालियों की ओर एक व्यावहारिक मार्ग का संकेत देता है — बशर्ते वे सीमित परीक्षण अवधि के दौरान एक्सेस प्राप्त कर सकें।
Comments
0 comments