ENPIRE का आर्किटेक्चर चार मॉड्यूल से बना एक बंद लूप है, जिनमें से प्रत्येक फिजिकल रिसर्च प्रक्रिया के एक महत्वपूर्ण हिस्से को संभालता है :
EN — एनवायरनमेंट मॉड्यूल: स्वचालित रूप से फिजिकल सीन को एक रैंडमाइज्ड शुरुआती अवस्था में रीसेट करता है और विज़न-आधारित रिवॉर्ड फंक्शन (जैसे सेगमेंटेशन मॉडल और बाउंडिंग-बॉक्स डिटेक्टर) का उपयोग करके कार्य पूरा होने की पुष्टि करता है। ट्रायल के बीच कोई इंसान रोबोट को रीसेट नहीं करता ।
PI — पॉलिसी इम्प्रूवमेंट मॉड्यूल: कई रेजीमेंसों में से किसी एक का उपयोग करके पॉलिसी रिफाइनमेंट शुरू करता है – ह्यूरिस्टिक लर्निंग, टूल कॉलिंग, बिहेवियर क्लोनिंग, ऑफ़लाइन रीइन्फोर्समेंट लर्निंग, या ऑनलाइन RL। कोडिंग एजेंट एल्गोरिदमिक हाइपोथीसिस प्रस्तावित करता है और कोड लिखता है ।
R — रोलआउट मॉड्यूल: कैंडिडेट पॉलिसी का मूल्यांकन एक या एकाधिक फिजिकल रोबोट पर समानांतर रूप से करता है। यह ऑडिट के लिए स्थिति, क्रिया, वीडियो और परिणाम डेटा को संरक्षित करता है ।
E — इवोल्यूशन मॉड्यूल: कोडिंग एजेंट लॉग का विश्लेषण करते हैं, रिसर्च लिटरेचर से परामर्श करते हैं, शाखाओं की तुलना करते हैं, और विफलता मोड को संबोधित करने के लिए ट्रेनिंग इंफ्रास्ट्रक्चर और एल्गोरिदम कोड को संशोधित करते हैं। सफल रेसिपियों का पुन: उपयोग किया जाता है; असफल परिकल्पनाओं को हटा दिया जाता है ।
किसी विदेशी ऑर्केस्ट्रेशन लेयर का आविष्कार करने के बजाय, फ्रेमवर्क वितरित सहयोग के लिए एक परिचित उपकरण पर निर्भर करता है: Git। जब एक एजेंट-स्टेशन एक सफलता प्राप्त करता है, तो वह बेहतर पॉलिसी कोड को कमिट करता है। अन्य स्टेशन अपडेट को खींचते हैं और उस पर निर्माण करते हैं, जिससे केंद्रीकृत समन्वय के बिना वितरित, अतुल्यकालिक सुधार संभव होता है ।
टीम ने आठ AI कोडिंग एजेंट्स को आठ रोबोटिक वर्कस्टेशनों के साथ जोड़ा, प्रत्येक दो छह-डिग्री-ऑफ-फ्रीडम मैकेनिकल आर्म्स, Intel RealSense डेप्थ कैमरा और RTX 5090 GPU से लैस था। GPU और टोकन बजट का आवंटन देने के बाद, उन्हें कार्यों को जल्द से जल्द और सुरक्षित रूप से हल करने का लक्ष्य देकर छोड़ दिया गया ।
ENPIRE-संचालित एजेंट्स ने वास्तविक दुनिया के चुनौतीपूर्ण, कॉन्टैक्ट-रिच डेक्सट्रस मैनिपुलेशन कार्यों के एक सूट पर 99% pass@8 सफलता दर हासिल की :
पेपर नोट करता है कि pass@8 एक ही लॉन्ग-होराइजन रोलआउट के भीतर आपातकालीन पुनर्प्रयास और रिकवरी को मापता है, न कि सबसे अच्छे-8 में से ।
पेपर ने मल्टी-एजेंट फिजिकल ऑटोरिसर्च की दक्षता को मापने के लिए दो नए मीट्रिक पेश किए: Mean Robot Utilization (MRU) और Mean Token Utilization (MTU) । एक रोबोट से आठ रोबोट तक जाने पर, पिन इंसर्शन टास्क में महारत हासिल करने का समय 1.5 घंटे से घटकर लगभग 40 मिनट रह गया
।
यह सिस्टम टोकन-इंटेंसिव है। एजेंट पेपर पढ़ते हैं, कोड लिखते हैं, लॉग का विश्लेषण करते हैं और पुनरावृति करते हैं – प्रत्येक सुधार चक्र LLM टोकन की महत्वपूर्ण मात्रा खपत करता है। टीम ने एजेंट्स को एक "उदार टोकन बजट" दिया और उन्हें कंप्यूट बर्बाद न करने का निर्देश दिया ।
तीनों परीक्षण किए गए फ्रंटियर कोडिंग एजेंट्स – Codex (GPT-5.5 के साथ), Claude Code (Opus 4.7 के साथ), और Kimi Code (Kimi K2.6 के साथ) – ने सिमुलेशन में Push-T को हल किया। हालाँकि, सभी वास्तविक हार्डवेयर पर साफ-साफ ट्रांसफर नहीं हुए। ENPIRE सिम-टू-रीयल गैप को खत्म नहीं करता; यह AI एजेंट्स को बार-बार फिजिकल ट्रायल के माध्यम से उस गैप की खोज करने और उसके अनुसार अनुकूलन करने का एक तरीका देता है ।
ENPIRE एक व्यापक NVIDIA रणनीति का हिस्सा है जिसे फिजिकल AI कहा जाता है – AI जो भौतिक दुनिया को समझता है और उसमें कार्य करता है। इसमें NVIDIA Cosmos वर्ल्ड मॉडल, Isaac सिमुलेशन फ्रेमवर्क और हुंडई तथा फॉक्सकॉन जैसे कंपनियों के साथ फैक्ट्री पार्टनरशिप शामिल हैं । Jim Fan, GEAR Lab के प्रमुख वैज्ञानिक, ने इस तकनीक के ओपन-सोर्स होने की घोषणा की है
।
Comments
0 comments