Архітектура ENPIRE — це замкнутий цикл, що складається з чотирьох модулів, кожен з яких відповідає за критичну частину процесу фізичних досліджень :
EN — модуль середовища: Автоматично скидає фізичну сцену до рандомізованого початкового стану та перевіряє виконання завдання за допомогою функцій винагороди на основі зору (наприклад, моделей сегментації та детекторів обмежувальних рамок). Людина не скидає робота між спробами .
PI — модуль вдосконалення політики: Запускає уточнення політики за допомогою будь-якого з декількох режимів — евристичного навчання, виклику інструментів, клонування поведінки, навчання з підкріпленням офлайн або онлайн. Агент кодування пропонує алгоритмічні гіпотези та пише код .
R — модуль розгортання: Оцінює кандидатську політику на одному або декількох фізичних роботах, що працюють паралельно. Зберігає стан, дії, відео та результати для аудиту .
E — модуль еволюції: Агенти кодування аналізують журнали, переглядають дослідницьку літературу, порівнюють гілки та змінюють інфраструктуру навчання та код алгоритму для усунення помилок. Успішні рецепти використовуються повторно; невдалі гіпотези відкидаються .
Замість того, щоб винаходити екзотичний рівень оркестрації, фреймворк покладається на знайомий інструмент для розподіленої співпраці: Git. Коли одна станція-агент досягає прориву, вона фіксує покращений код політики. Інші станції отримують оновлення та розвивають його, що дозволяє здійснювати розподілене, асинхронне вдосконалення без централізованої координації .
Команда розгорнула вісім ШІ-агентів кодування, об'єднаних з вісьмома роботизованими робочими станціями, кожна з яких оснащена двома механічними маніпуляторами з шістьма ступенями свободи, камерами глибини Intel RealSense та локальними графічними процесорами NVIDIA RTX 5090. Отримавши розподіл графічних процесорів та достатній бюджет токенів, агенти були відпущені з єдиною метою: вирішити завдання якомога швидше та безпечніше .
Агенти ENPIRE досягли 99% успіху (pass@8) у серії складних завдань маніпуляції, що вимагають тактильного контакту :
У дослідницькій роботі зазначається, що pass@8 вимірює аварійне повторення та відновлення в межах однієї довгострокової спроби (до 8 внутрішньоконтекстних повторень з урахуванням попередніх невдач), а не найкращий результат із 8 незалежних спроб .
Дослідники ввели дві нові метрики: Середнє використання робота (MRU) та Середнє використання токенів (MTU) для вимірювання ефективності багатоагентного фізичного автоматичного дослідження .
Система є токеноємною. Агенти читають статті, пишуть код, аналізують журнали та ітерують — кожен цикл вдосконалення споживає значну кількість токенів великої мовної моделі. Команда надала агентам "щедрий бюджет токенів" та наказала не витрачати обчислювальні ресурси даремно .
Усі три протестовані передові агенти кодування — Codex (з GPT-5.5), Claude Code (з Opus 4.7) та Kimi Code (з Kimi K2.6) — вирішили завдання Push-T у симуляції. Однак не всі вони успішно перенеслися на реальне обладнання. ENPIRE не усуває розрив між симуляцією та реальністю; він дає ШІ-агентам спосіб виявити та адаптуватися до цього розриву через повторні фізичні випробування . Дослідницька робота визнає це як центральне обмеження
.
Документ включає розділ "Обмеження та майбутні напрямки", в якому зазначається, що ENPIRE все ще вимагає початкового налаштування середовища (обладнання, конвеєр сприйняття), а підхід обмежений якістю та вартістю базових великих мовних моделей агентів кодування .
Comments
0 comments