הארכיטקטורה של ENPIRE היא לולאה סגורה המורכבת מארבעה מודולים, כל אחד מטפל בחלק קריטי מתהליך המחקר הפיזי :
EN — מודול הסביבה: מאפס אוטומטית את הסצנה הפיזית למצב התחלתי אקראי ומאמת את השלמת המשימה באמצעות פונקציות תגמול מבוססות ראייה (למשל, מודלי סגמנטציה וגלאי תיבות חוסמות). אין צורך שבן אדם יאפס את הרובוט בין ניסוי לניסוי .
PI — מודול שיפור המדיניות: מפעיל חידוד מדיניות באמצעות מגוון שיטות – למידה היוריסטית, קריאת כלים, חיקוי התנהגות, למידת חיזוק מקוונת ולא מקוונת. סוכן התכנות מציע השערות אלגוריתמיות וכותב את הקוד .
R — מודול הריצה: מעריך את מדיניות המועמד על רובוט אחד או מספר רובוטים הפועלים במקביל. הוא שומר מידע על מצב, פעולה, וידאו ותוצאות לצורך ביקורת .
E — מודול האבולוציה: סוכני התכנות מנתחים לוגים, מתייעצים בספרות מחקרית, משווים ענפים, ומשנים את תשתית האימון ואת קוד האלגוריתם כדי לטפל במצבי כשל. מתכונים מוצלחים ממוחזרים; השערות נכשלות נגזמות .
במקום להמציא שכבת תיאום אקזוטית, המסגרת מסתמכת על כלי מוכר לשיתוף פעולה מבוזר: Git. כאשר תחנת סוכן אחת מגיעה לפריצת דרך, היא מבצעת commit לקוד המדיניות המשופר. תחנות אחרות מושכות את העדכון ובונות עליו, מה שמאפשר שיפור מבוזר וא-סינכרוני ללא תיאום מרכזי .
הצוות פרס שמונה סוכני AI בשילוב שמונה תחנות עבודה רובוטיות, כל אחת מצוידת בשתי זרועות מכניות עם שש דרגות חופש, מצלמות עומק Intel RealSense, ומעבדי NVIDIA RTX 5090 מקומיים. בהינתן הקצאה של GPUs ותקציב tokens נדיב, הצי שוחרר עם מטרה פשוטה: לפתור את המשימה במהירות האפשרית, לשמור על הרובוטים פעילים אך בטוחים, ולא לבזבז כוח חישוב .
העיתון מציין ש-pass@8 מודד ניסיון חוזר והחלמה מתוך ריצה ארוכת טווח אחת (עד 8 ניסיונות חוזרים בהקשר, מותנים בכשלונות קודמים), לא מדגם i.i.d. של 8 הריצות הטובות ביותר .
העיתון מציג שני מדדים חדשים: Mean Robot Utilization (MRU) ו-Mean Token Utilization (MTU) למדידת היעילות של מחקר פיזי אוטונומי רב-סוכנים .
המערכת צורכת כמות גדולה של tokens. סוכנים קוראים מאמרים, כותבים קוד, מנתחים לוגים וחוזרים חלילה – כל מחזור שיפור צורך כמות משמעותית של tokens מ-LLM. הצוות נתן לסוכנים "תקציב tokens נדיב" והורה להם לא לבזבז כוח חישוב .
כל שלושת סוכני התכנות שנבדקו – Codex (עם GPT-5.5), Claude Code (עם Opus 4.7) ו-Kimi Code (עם Kimi K2.6) – פתרו את משימת Push-T בסימולציה. עם זאת, לא כולם עברו בצורה חלקה לחומרה אמיתית. ENPIRE אינה מבטלת את פער sim-to-real; היא נותנת לסוכני AI דרך לגלות את הפער הזה דרך ניסויים פיזיים חוזרים ולהסתגל אליו . זהו כשל מרכזי שהעיתון מכיר בו
.
העיתון כולל סעיף "מגבלות וכיוונים עתידיים" המציין ש-ENPIRE עדיין דורשת הגדרה ראשונית של הסביבה (חומרה, צינור ראייה ממוחשבת), ושהגישה מוגבלת באיכות ובעלות של מודלי ה-LLM הבסיסיים של סוכני התכנות .
כאשר הצוות הגדיל את הצי מרובוט אחד לשמונה רובוטים, הזמן לשליטה במשימת הפינים התקצר מיותר מ-1.5 שעות לכ-40 דקות. עם זאת, צריכת ה-tokens גדלה באופן מעריכי: ככל שיותר סוכני AI עובדים במקביל, הם לא רק מריצים ניסויים אלא גם "קוראים" את העבודה של האחרים, מה שמגדיל משמעותית את צריכת האנרגיה החישובית .
ENPIRE נמצאת בתוך אסטרטגיה רחבה בהרבה של NVIDIA ל-Physical AI – AI שמבין ופועל בעולם הפיזי. שותפויות עם יונדאי (Hyundai Motor Group) להקמת מפעל AI עם 50,000 GPUs מדגם Blackwell, עם פוקסקון (Foxconn), ג'נרל מוטורס (General Motors) ואחרות לאימוץ NVIDIA Omniverse כמערכת הפעלה פיזיקלית AI . ENPIRE היא שכבת האוטומציה המחקרית על גבי תשתית זו – דרך לסגור את הלולאה בין סימולציה (Cosmos/Isaac), חומרה (ציי רובוטים, מפעלי AI) ושיפור מדיניות אוטונומי, המונעים על ידי סוכני AI מתקדמים.
Comments
0 comments