अलीबाबा का Qwen रोबोट सूट जून 2026 में लॉन्च हुआ तीन AI मॉडलों का समूह है, जो रोबोटों को उन्नत संचालन, स्वायत्त नेविगेशन और भविष्य की भौतिक क्रियाओं का अनुकरण करने की क्षमता देता है—यह चैटबॉट से आगे बढ़कर भौतिक दुनिया... Qwen RobotManip एक 80 आयामी एक्शन रिप्रेजेंटेशन का उपयोग करता है ताकि अलग अलग रोबोट हार्डवेयर 38...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
अलीबाबा लंबे समय से डिजिटल AI में एक प्रमुख ताकत रहा है, लेकिन उसका नवीनतम कदम भौतिक दुनिया में एक निश्चित प्रवेश का संकेत देता है। जून 2026 में, कंपनी के Qwen डिवीजन—जो पहले अपने लोकप्रिय ओपन-सोर्स लार्ज लैंग्वेज मॉडलों के लिए जाना जाता था—ने Qwen-रोबोट सूट लॉन्च किया। यह विशेष रूप से सन्निहित बुद्धिमत्ता (embodied intelligence) के लिए बनाया गया AI मॉडलों का पहला परिवार है, जो चैटबॉट्स से आगे बढ़कर ऐसी मशीनों को नियंत्रित करने की दिशा में एक स्पष्ट कदम है जो वास्तविक वातावरण में देख, तर्क और कार्य कर सकती हैं ।
अलीबाबा की टोंगयी लैब द्वारा विकसित, यह सूट पहले ही उद्यम ग्राहकों के साथ पायलट कार्यक्रमों में शामिल हो चुका है और इसे विभिन्न आकृतियों और उद्देश्यों वाले रोबोटों के लिए एक "यूनिवर्सल चेसिस" (सार्वभौमिक आधार) के रूप में डिज़ाइन किया गया है । मुख्य नवाचार एक मॉड्यूलर, तीन-भाग वाली प्रणाली है जो एक रोबोट को एक "कुशल हाथ", एक "राह ढूंढने वाला पैर" और एक "सोचने वाला दिमाग" देती है।
सूट की मॉड्यूलर वास्तुकला भौतिक AI के निर्माण की बिखरी हुई चुनौती का समाधान करती है। एक अखंड प्रणाली के बजाय, तीन मॉडल अलग-अलग लेकिन आपस में जुड़ी क्षमताओं को संभालते हैं।
यह एक विज़न-लैंग्वेज-एक्शन (VLA) मॉडल है जो Qwen3.5-4B आर्किटेक्चर पर बनाया गया है और सूट के संचालन इंजन के रूप में कार्य करता है । इसका उद्देश्य प्राकृतिक भाषा के निर्देशों को रोबोटिक भुजाओं के लिए सटीक भौतिक क्रियाओं में अनुवाद करना है।
इसके क्रॉस-हार्डवेयर लचीलेपन की कुंजी एक 80-आयामी एकीकृत एक्शन रिप्रेजेंटेशन में निहित है, जो मशीनों के लिए एक सार्वभौमिक "शारीरिक भाषा" (बॉडी लैंग्वेज) की तरह काम करता है । निर्देशों को मानकीकृत करके और पूर्ण निर्देशांकों के बजाय कैमरा फ्रेम के सापेक्ष गतिविधियों की गणना करके, RobotManip न्यूनतम ट्यूनिंग के साथ नए हार्डवेयर पर जल्दी से अनुकूलन कर सकता है—जैसे एक अनुभवी ड्राइवर किसी अपरिचित कार को चलाने के लिए जल्दी से समायोजित हो जाता है
।
यह कौशल महत्वपूर्ण डेटा द्वारा समर्थित है। मॉडल को 38,100 घंटे से अधिक के ओपन-सोर्स रोबोट और मानव प्रदर्शन वीडियो पर पूर्व-प्रशिक्षित किया गया था और इसमें 15 रोबोट आकारिकी (morphologies) शामिल हैं । इस बड़े पैमाने पर, एकीकृत प्रशिक्षण का उद्देश्य एक रोबोट मॉडल को विभिन्न भौतिक प्लेटफार्मों के बीच ले जाने पर प्रदर्शन में आने वाली सामान्य गिरावट की समस्या को हल करना है
। बेंचमार्क परीक्षणों में, इसके संस्करणों ने कार्य सफलता दरों में शीर्ष दो स्थान हासिल किए, जो दोहरी-भुजा वाले फ्रेंच फ्राई पलटने जैसे जटिल कामों को संभालते हैं
।
Qwen-RobotNav एक विज़न-लैंग्वेज-नेविगेशन (VLN) मॉडल है, जो Qwen3-VL परिवार पर बनाया गया है और 2B, 4B, और 8B पैरामीटर साइज़ में उपलब्ध है । यह मोबाइल भौतिक एजेंटों के लिए एक्शन गेटवे है, जिसे रोबोटों को स्थानिक बुद्धिमत्ता और स्वायत्त गतिशीलता प्रदान करने का काम सौंपा गया है
।
Qwen-RobotNav को जो चीज़ अलग बनाती है, वह है बिना मॉडल बदले एक ही ढांचे के तहत पांच अलग-अलग नेविगेशन कार्यों का एकीकरण। इनमें निर्देश का पालन, पॉइंट-गोल नेविगेशन, ऑब्जेक्ट-गोल नेविगेशन, लक्ष्य ट्रैकिंग और स्वायत्त ड्राइविंग शामिल हैं । मॉडल एक नियंत्रणीय अवलोकन एन्कोडिंग प्रोटोकॉल और एक टूल इंटरफ़ेस का उपयोग करता है, जो इसे विज़न-लैंग्वेज समझ को सीधे मोशन कंट्रोल से जोड़ने की अनुमति देता है
। व्यवहार में, इसका मतलब है कि एक रोबोट बिना पूर्व-निर्मित मानचित्र के अपरिचित स्थानों में नेविगेट करने के लिए अपने आसपास के दृश्य को गतिशील रूप से संसाधित करते हुए, "हॉल के नीचे कॉन्फ्रेंस रूम ढूंढो" जैसे बोले गए आदेश की व्याख्या कर सकता है
।
सूट का तीसरा और शायद सबसे दूरदर्शी हिस्सा भाषा-वातानुकूलित वीडियो वर्ल्ड मॉडल है, जो एक फ्रोजन Qwen2.5-VL एन्कोडर के साथ 60-लेयर मल्टी-मॉडल डिफ्यूजन ट्रांसफॉर्मर (MMDiT) पर आधारित है ।
Qwen-RobotWorld सिर्फ एक दृश्य को नहीं पहचानता; यह भविष्यवाणी करता है कि एक दृश्य कैसे बदलेगा। एक एकीकृत एक्शन इंटरफ़ेस के रूप में प्राकृतिक भाषा का उपयोग करके, यह रोबोट के वर्तमान अवलोकन से भौतिक रूप से आधारित भविष्य के दृश्य प्रक्षेपवक्र उत्पन्न करता है । यह भविष्यवाणी रोबोटिक संचालन, स्वायत्त ड्राइविंग, इनडोर नेविगेशन और यहां तक कि मानव-गतिविधि परिदृश्यों में भी काम करती है। मॉडल को 8.6 मिलियन से अधिक क्रॉस-सीन प्रशिक्षण जोड़े पर प्रशिक्षित किया गया था और यह 20 से अधिक रोबोट आकारिकी में 1,300 से अधिक हेरफेर कौशल का अनुकरण कर सकता है
।
इस वर्ल्ड मॉडल का तत्काल व्यावहारिक मूल्य है: यह सन्निहित AI में लगातार डेटा की कमी को दूर करने के लिए सिंथेटिक वीडियो डेटा उत्पन्न कर सकता है, और यह किसी क्रिया के वास्तविक दुनिया में निष्पादित होने से पहले उसके परिणामों का अनुकरण कर सकता है, जिससे सटीकता और सुरक्षा में सुधार होता है ।
Qwen-रोबोट सूट का एक महत्वपूर्ण डिज़ाइन सिद्धांत इसकी तैनाती का लचीलापन है। मॉडलों को एकल कार्यों के लिए अकेले चलाया जा सकता है—उदाहरण के लिए, वेयरहाउस डिलीवरी वाहन में केवल Qwen-RobotNav का उपयोग करना—या पूर्ण स्टैक में एकीकृत किया जा सकता है। जब एक साथ काम करते हैं, तो तीनों मॉडल एक क्लोज्ड-लूप सिस्टम बनाते हैं जहां धारणा (RobotNav और RobotManip) और भविष्यवाणी (RobotWorld) एक-दूसरे को मजबूत करते हैं, जिससे एक रोबोट एक साथ "चल, देख और सोच" सकता है ।
यह पूर्ण-स्टैक दृष्टिकोण अलीबाबा के व्यापक मॉडल इकोसिस्टम के साथ गहराई से एकीकृत है, जिसमें प्रमुख Qwen3.7-Max एजेंट मॉडल भी शामिल है जो जटिल कार्य अपघटन (टास्क डीकंपोजीशन) को संभालता है । ओपन-सोर्स डेटा और सार्वजनिक रूप से उपलब्ध मॉडल रिलीज़ पर सूट की आधारभूत निर्भरता भी अलीबाबा की बड़े पैमाने पर डेवलपर अपनाने की रणनीति में पूरी तरह से फिट बैठती है
।
Qwen-रोबोट लॉन्च कोई अचानक प्रयोग नहीं है। यह केवल डिजिटल AI से भौतिक क्षेत्र में एक व्यवस्थित, बहु-वर्षीय प्रगति की परिणति का प्रतिनिधित्व करता है।
अक्टूबर 2025 में, Qwen के प्रौद्योगिकी प्रमुख, जस्टिन लिन ने सार्वजनिक रूप से एक समर्पित इन-हाउस रोबोटिक्स और सन्निहित AI टीम के गठन की घोषणा की। उन्होंने इसे AI एजेंटों के लिए अगला तार्किक कदम बताया, यह कहते हुए कि मल्टीमॉडल मॉडलों को "निश्चित रूप से आभासी दुनिया से भौतिक दुनिया में कदम रखना चाहिए" । कुछ ही महीनों बाद, फरवरी 2026 में, अलीबाबा ने Qwen 3.5 लॉन्च किया, इसे स्पष्ट रूप से "एजेंटिक AI युग" के लिए एक मॉडल के रूप में विपणन किया जो स्वायत्त, जटिल बहु-चरणीय कार्यों में सक्षम है
। यह भाषा और तर्क शक्ति जून में लॉन्च किए गए रोबोट मॉडलों के लिए संज्ञानात्मक रीढ़ बन गई
।
आंतरिक विकास के साथ-साथ, अलीबाबा ने रणनीतिक बाहरी कदम भी उठाए। उसके क्लाउड कंप्यूटिंग यूनिट ने 2025 में चीनी रोबोटिक्स स्टार्टअप एक्स स्क्वायर रोबोट के लिए 140 मिलियन डॉलर के फंडिंग राउंड का नेतृत्व किया । यह बहु-आयामी रणनीति—आंतरिक अनुसंधान एवं विकास, एक ओपन-सोर्स मॉडल इकोसिस्टम और स्टार्टअप निवेश—Qwen-रोबोट सूट को भौतिक, बुद्धिमान मशीनों की एक नई पीढ़ी के लिए एक व्यापक "AI फैक्ट्री" बनने की बड़ी महत्वाकांक्षा के हिस्से के रूप में स्थापित करती है
।
अलीबाबा का सन्निहित AI में प्रवेश उसे Nvidia जैसी कंपनियों, जो एक शक्तिशाली सिमुलेशन और कंप्यूटिंग स्टैक प्रदान करती है, और बढ़ती संख्या में अमेरिका-स्थित सन्निहित-AI स्टार्टअप्स के साथ सीधी प्रतिस्पर्धा में लाता है। जबकि प्रदान किए गए स्रोत इन प्रतिस्पर्धियों के खिलाफ प्रत्यक्ष प्रदर्शन तुलना प्रदान नहीं करते हैं, Qwen-रोबोट सूट एकीकरण और पहुंच पर आधारित एक विशिष्ट मूल्य प्रस्ताव प्रस्तुत करता है ।
यह सूट एक खुली, मॉड्यूलर नींव है जिसे न्यूनतम अनुकूलन के साथ तीसरे पक्ष के हार्डवेयर पर तैनात करने के लिए डिज़ाइन किया गया है। यह एक मालिकाना, लंबवत एकीकृत स्टैक के विपरीत है, जो अलीबाबा को कई रोबोट निर्माताओं के लिए एक तटस्थ मॉडल आपूर्तिकर्ता के रूप में स्थापित करता है। कंपनी की सबसे बड़ी संपत्ति उसका मौजूदा, बड़े पैमाने पर Qwen इकोसिस्टम है, जिसने 600 मिलियन से अधिक संचयी डाउनलोड के साथ सैकड़ों ओपन-सोर्स मॉडल तैयार किए हैं, जिससे एक विशाल डेवलपर समुदाय बना है जो अब इसकी रोबोट नींव पर निर्माण कर सकता है ।
हालाँकि, अनिश्चितता का एक महत्वपूर्ण स्तर बना हुआ है। इस सूट की घोषणा केवल जून 2026 में की गई थी, और उपलब्ध दस्तावेज़ीकरण में बड़े पैमाने पर व्यावसायिक तैनाती के आंकड़े या दीर्घकालिक विश्वसनीयता डेटा का अभाव है। यह अभी भी अज्ञात है कि ये मॉडल वास्तव में असंरचित, दीर्घकालिक औद्योगिक कार्यों की परिवर्तनशीलता के तहत कैसा प्रदर्शन करेंगे। अलीबाबा की भौतिक AI महत्वाकांक्षा की असली परीक्षा यह होगी कि क्या इन मॉडलों की उपलब्धता बड़े पैमाने पर रोबोटिक्स उद्योग द्वारा व्यापक रूप से अपनाए जाने में तब्दील होती है।
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
अलीबाबा का Qwen रोबोट सूट जून 2026 में लॉन्च हुआ तीन AI मॉडलों का समूह है, जो रोबोटों को उन्नत संचालन, स्वायत्त नेविगेशन और भविष्य की भौतिक क्रियाओं का अनुकरण करने की क्षमता देता है—यह चैटबॉट से आगे बढ़कर भौतिक दुनिया...
अलीबाबा का Qwen रोबोट सूट जून 2026 में लॉन्च हुआ तीन AI मॉडलों का समूह है, जो रोबोटों को उन्नत संचालन, स्वायत्त नेविगेशन और भविष्य की भौतिक क्रियाओं का अनुकरण करने की क्षमता देता है—यह चैटबॉट से आगे बढ़कर भौतिक दुनिया... Qwen RobotManip एक 80 आयामी एक्शन रिप्रेजेंटेशन का उपयोग करता है ताकि अलग अलग रोबोट हार्डवेयर 38,100 घंटे से अधिक के ओपन सोर्स डेटा से एकीकृत शारीरिक कौशल सीख सकें; Qwen RobotNav पांच नेविगेशन कार्यों को एक मॉडल में ज...
हालांकि इस सूट को अकेले या पूर्ण स्टैक के रूप में तैनात किया जा सकता है, वास्तविक दुनिया में अपनाए जाने के आंकड़े अभी तक सिद्ध नहीं हुए हैं, और Nvidia जैसे प्रतिस्पर्धियों के मुकाबले प्रत्यक्ष प्रदर्शन तुलना अभी तक दस...
Loading comments...
Comments
0 comments