Долгие годы для обучения робота точному физическому действию — например, вставить видеокарту в материнскую плату или завязать кабельную стяжку — требовалось участие человека: сбросить сцену, настроить алгоритмы, проанализировать ошибки и переписать код. Узким местом были не только алгоритмы, но и человеческий труд.
17 июня 2026 года команда из лаборатории NVIDIA GEAR Lab, Университета Карнеги-Меллона (CMU) и Калифорнийского университета в Беркли (UC Berkeley) представила фреймворк, который меняет это уравнение. Система получила название ENPIRE (Embodied Neural Policy Improvement through Physical AutoResearch). Это первая задокументированная система, в которой передовые ИИ-агенты полностью автономно проводят полный цикл робототехнических исследований на реальном оборудовании .
ENPIRE — это не сам робот и не новая ИИ-модель. Это фреймворк-обвязка (harness framework) — программное обеспечение, которое оборачивает ИИ-агентов и даёт им инструменты для проведения физических экспериментов. По словам исследовательской группы, ключевая идея в том, что в робототехнике до сих пор не хватало повторяемого цикла физической обратной связи, и ENPIRE предоставляет именно эту абстракцию .
Фреймворк помещает ИИ-агентов в среду реальных роботов и передаёт им весь цикл: сбросить окружение, изучить литературу, реализовать идеи, обучить и развернуть политику, самостоятельно проверить результаты, проанализировать логи, переписать код и повторять до тех пор, пока политика не будет надёжно работать в реальном мире .
Архитектура ENPIRE представляет собой замкнутый цикл из четырёх модулей, каждый из которых отвечает за ключевую часть физического исследовательского процесса :
EN — Модуль окружения (Environment): Автоматически сбрасывает физическую сцену в случайное начальное состояние и проверяет выполнение задачи с помощью vision-based функций вознаграждения (например, моделей сегментации и детекторов ограничивающих рамок). Никакого ручного сброса робота между попытками не требуется .
PI — Модуль улучшения политики (Policy Improvement): Запускает доработку политики с использованием различных режимов — эвристического обучения, вызова инструментов, клонирования поведения, обучения с подкреплением (offline или online). ИИ-агент выдвигает алгоритмические гипотезы и пишет код .
R — Модуль прогона (Rollout): Оценивает кандидатную политику на одном или нескольких физических роботах, работающих параллельно. Сохраняет состояние, действия, видео и результаты для аудита .
E — Модуль эволюции (Evolution): ИИ-агенты анализируют логи, изучают исследовательскую литературу, сравнивают ветки изменений и модифицируют код тренировочной инфраструктуры и алгоритмов, чтобы устранить причины сбоев. Успешные «рецепты» повторно используются, неудачные гипотезы отбрасываются .
Вместо того чтобы изобретать экзотический уровень оркестрации, фреймворк использует знакомый инструмент для распределённой коллаборации — Git. Когда одна станция с агентом достигает прорыва, она коммитит улучшенный код политики. Другие станции подтягивают обновление и строят на его основе, что обеспечивает распределённое асинхронное улучшение без централизованного управления .
Команда развернула восемь ИИ-агентов в паре с восемью роботизированными станциями, каждая из которых оснащена двумя шестистепенными механическими манипуляторами, камерами Intel RealSense depth и локальными GPU NVIDIA RTX 5090. Агентам был выделен пул GPU и щедрый бюджет токенов, после чего их отпустили в свободное плавание с простой целью: как можно быстрее решать задачи, сохраняя роботов занятыми и не тратя впустую вычислительные ресурсы .
ENPIRE-агенты продемонстрировали 99% успеха (pass@8) на ряде сложных задач, требующих высокой точности и контакта с объектами :
Важно отметить, что метрика pass@8 измеряет эмерджентную способность к повторным попыткам и восстановлению в рамках одного длинного прогона (до 8 попыток с учётом предыдущих ошибок), а не просто лучший результат из 8 независимых попыток .
В статье вводятся две новые метрики: Средняя утилизация робота (Mean Robot Utilization, MRU) и Средняя утилизация токенов (Mean Token Utilization, MTU) — для измерения эффективности многолетнего физического автоисследования .
Система чрезвычайно токенозатратна. Агенты читают статьи, пишут код, анализируют логи и итерируют — каждый цикл улучшения потребляет значительное количество токенов большой языковой модели. Команда выделила агентам «щедрый бюджет токенов» с указанием не тратить их впустую .
Все три протестированных передовых агента — Codex (на базе GPT-5.5), Claude Code (на базе Opus 4.7) и Kimi Code (на базе Kimi K2.6) — успешно решили задачу Push-T в симуляции. Однако не все из них чисто перенеслись на реальное оборудование. Это ключевой результат: ENPIRE не устраняет разрыв между симуляцией и реальностью (sim-to-real gap), а даёт ИИ-агентам возможность обнаружить и адаптироваться к этому разрыву через повторные физические испытания . В статье это открыто признаётся как центральное ограничение
.
В разделе «Ограничения и будущие направления» статьи отмечается, что ENPIRE всё ещё требует начальной настройки окружения (оборудование, конвейер восприятия), а эффективность подхода ограничена качеством и стоимостью базовых языковых моделей-агентов .
При увеличении количества роботов с 1 до 8 время достижения почти идеального результата на задаче со штифтами сократилось с более чем 1,5 часов до примерно 40 минут . Однако при этом общее потребление токенов росло сверхлинейно — каждый агент не только выполнял свои эксперименты, но и постоянно читал и осмыслял прогресс коллег
.
ENPIRE вписывается в гораздо более широкую стратегию NVIDIA в области Физического ИИ (Physical AI) — ИИ, который понимает и действует в физическом мире.
ENPIRE, по сути, является уровнем автоматизации исследований поверх этой инфраструктуры — способом замкнуть цикл между симуляцией (Cosmos/Isaac), оборудованием (флоты роботов, ИИ-фабрики) и автономным улучшением политик, полностью управляемым передовыми ИИ-агентами.
Как отметил Джим Фан (Jim Fan), руководитель NVIDIA GEAR Lab, роботы могут совершенствоваться всю ночь без перерыва, а исследователям остаётся лишь утром прочитать отчёт о тренировке . Более того, команда планирует открыть исходный код технологии, чтобы энтузиасты могли развернуть собственную автономную роботизированную лабораторию у себя дома
.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
ENPIRE (Embodied Neural Policy Improvement through Physical AutoResearch) — это фреймворк обвязка, представленный 17 июня 2026 года лабораторией NVIDIA GEAR Lab совместно с Университетом Карнеги Меллона и Калифорнийск...
ENPIRE (Embodied Neural Policy Improvement through Physical AutoResearch) — это фреймворк обвязка, представленный 17 июня 2026 года лабораторией NVIDIA GEAR Lab совместно с Университетом Карнеги Меллона и Калифорнийск... Система впервые в истории позволяет ИИ агентам проводить полный цикл робототехнических исследований на реальном оборудовании: от сброса сцены до анализа ошибок и переписывания кода — без участия человека.
ENPIRE состоит из четырёх модулей: Environment (сброс и верификация), Policy Improvement (доработка политик), Rollout (прогон на реальных роботах) и Evolution (анализ и эволюция кода).
Loading comments...
Comments
0 comments