EN — وحدة البيئة (Environment module): تقوم تلقائياً بإعادة ضبط المشهد الفيزيائي إلى حالة أولية عشوائية وتتحقق من إكمال المهمة باستخدام دوال المكافأة المعتمدة على الرؤية (مثل نماذج التجزئة ومكتشفات المربعات المحيطة). لا يوجد بشر يعيد ضبط الروبوت بين التجارب .
PI — وحدة تحسين السياسات (Policy Improvement module): تطلق عملية تحسين السياسة باستخدام أي من عدة أنظمة — التعلم الاستدلالي (heuristic learning)، استدعاء الأدوات (tool calling)، تقليد السلوك (behavior cloning)، التعلم المعزز غير المتصل (offline reinforcement learning)، أو التعلم المعزز عبر الإنترنت (online RL). يقوم العامل البرمجي بطرح فرضيات خوارزمية وكتابة الكود .
R — وحدة التنفيذ (Rollout module): تقوم بتقييم السياسة المرشحة على روبوت واحد أو عدة روبوتات تعمل بالتوازي. وتحتفظ بالحالة، والحركة، والفيديو، وبيانات النتائج للتدقيق .
E — وحدة التطور (Evolution module): تقوم عوامل البرمجة بتحليل السجلات، واستشارة الأبحاث المنشورة، ومقارنة الفروع، وتعديل كود البنية التحتية للتدريب والخوارزمية لمعالجة أنماط الفشل. يتم إعادة استخدام الوصفات الناجحة، بينما يتم التخلص من الفرضيات الفاشلة .
بدلاً من اختراع طبقة تنسيق معقدة، يعتمد الإطار على أداة مألوفة للتعاون الموزع: Git . عندما يحقق أحد محطات العامل البرمجي تقدماً، يقوم بإضافة الكود المحسن (commit). ثم تقوم المحطات الأخرى بسحب التحديث والبناء عليه، مما يتيح تحسيناً موزعاً وغير متزامن دون الحاجة إلى تنسيق مركزي.
قام الفريق بنشر ثمانية عوامل برمجة ذكية مقترنة بثماني محطات عمل روبوتية، كل منها مزود بذراعين ميكانيكيين بسعة حركة ستة درجات، وكاميرات عمق من Intel RealSense، وبطاقة رسوميات NVIDIA RTX 5090 محلية . تم إعطاؤهم ميزانية من وحدات معالجة الرسوم و«ميزانية رمزية» (token budget) سخية، وتم إطلاق سراحهم بهدف بسيط: حل المهمة بأسرع ما يمكن، والحفاظ على الروبوتات مشغولة ولكن آمنة، وعدم إضاعة الموارد الحسابية الثمينة
.
حقق العملاء المدعومون بـ ENPIRE نسبة نجاح 99% (مقياس pass@8) في مجموعة من المهام الصعبة التي تتطلب دقة عالية وتلامساً في العالم الحقيقي :
يوضح الفريق أن مقياس pass@8 يقيس إعادة المحاولة والتعافي الناشئة ضمن تنفيذ واحد طويل المدى (حتى 8 محاولات سياقية بناءً على حالات الفشل السابقة)، وليس أفضل 8 عينات مستقلة .
تم اختبار ثلاثة عوامل برمجية متطورة — Codex (GPT-5.5)، وClaude Code (Opus 4.7)، وKimi Code (Kimi K2.6) — في مهمة Push-T . جميعهم نجحوا في المحاكاة. لكن لم ينجح جميعهم في الانتقال بسلاسة إلى الأجهزة الحقيقية. هذه نتيجة تؤكد أن ENPIRE لا يلغي الفجوة بين المحاكاة والواقع، بل يمنح العوامل الذكية طريقة لاكتشاف هذه الفجوة من خلال التجارب الفيزيائية المتكررة والتكيف معها
.
قدمت الورقة البحثية مقياسين جديدين لقياس كفاءة البحث الفيزيائي متعدد العوامل: متوسط استخدام الروبوت (MRU) ومتوسط استخدام الرموز (MTU) .
أظهرت النتائج أن زيادة عدد الروبوتات من 1 إلى 8 قلل الوقت اللازم لإنجاز مهمة إدخال الدبابيس من أكثر من 1.5 ساعة إلى حوالي 40 دقيقة . ولكن، كان لهذا الثمن: استهلاك الرموز (token consumption) نما بشكل غير خطي (super-linear)
. السبب هو أن كل عامل لا يقوم فقط بتجاربه الخاصة، بل يحتاج أيضاً إلى قراءة وفهم تقدم العوامل الأخرى المستمر.
ENPIRE ليس مجرد مشروع معزول، بل هو طبقة أتمتة البحث ضمن إستراتيجية NVIDIA الأوسع للذكاء الفيزيائي (Physical AI) :
ENPIRE هو، في جوهره، الحلقة المفقودة التي تغلق الدائرة بين المحاكاة (Cosmos/Isaac)، والأجهزة الحقيقية (أسطول الروبوتات ومصانع الذكاء الاصطناعي)، والتحسين الذاتي للسياسات، وكل ذلك يقوده عوامل برمجة ذكية من الجيل التالي.
Comments
0 comments