Что мне делать дальше на практике?

ENPIRE состоит из четырёх модулей: Environment (сброс и верификация), Policy Improvement (доработка политик), Rollout (прогон на реальных роботах) и Evolution (анализ и эволюция кода).

studioglobal

ENPIRE: Как NVIDIA, CMU и UC Berkeley создали систему для самообучающихся роботов | Ответ | Studio Global AI

← Back to Trending

ОтветыОпубликовано5 дней назадLast edited 5 дней назад32 источники

ENPIRE: Как NVIDIA, CMU и UC Berkeley создали систему для самообучающихся роботов

ENPIRE (Embodied Neural Policy Improvement through Physical AutoResearch) — это фреймворк обвязка, представленный 17 июня 2026 года лабораторией NVIDIA GEAR Lab совместно с Университетом Карнеги Меллона и Калифорнийск... Система впервые в истории позволяет ИИ агентам проводить полный цикл робототехнических исследова...

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

124K0

What is ENPIRE, the framework released on June 17 by Nvidia's GEAR Lab, Carnegie Mellon University, and UC Berkeley, and how does it use AIAI-generated editorial hero image for What is ENPIRE, the framework released on June 17 by Nvidia's GEAR Lab, Carnegie Mellon University, and UC Berkeley, and how does it use AI.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What is ENPIRE, the framework released on June 17 by Nvidia's GEAR Lab, Carnegie Mellon University, and UC Berkeley, and how does it use AI. Article summary: Here is the full breakdown of ENPIRE and its context.. Topic tags: general, general web, user generated. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fake numbers, clickbait thumbnails, icons, and tiny thumbnail layouts. Make it useful as an illustrative visual, not as factual evidence.
openai.com

Долгие годы для обучения робота точному физическому действию — например, вставить видеокарту в материнскую плату или завязать кабельную стяжку — требовалось участие человека: сбросить сцену, настроить алгоритмы, проанализировать ошибки и переписать код. Узким местом были не только алгоритмы, но и человеческий труд.

17 июня 2026 года команда из лаборатории NVIDIA GEAR Lab, Университета Карнеги-Меллона (CMU) и Калифорнийского университета в Беркли (UC Berkeley) представила фреймворк, который меняет это уравнение. Система получила название ENPIRE (Embodied Neural Policy Improvement through Physical AutoResearch). Это первая задокументированная система, в которой передовые ИИ-агенты полностью автономно проводят полный цикл робототехнических исследований на реальном оборудовании .

Что на самом деле делает ENPIRE

ENPIRE — это не сам робот и не новая ИИ-модель. Это фреймворк-обвязка (harness framework) — программное обеспечение, которое оборачивает ИИ-агентов и даёт им инструменты для проведения физических экспериментов. По словам исследовательской группы, ключевая идея в том, что в робототехнике до сих пор не хватало повторяемого цикла физической обратной связи, и ENPIRE предоставляет именно эту абстракцию .

Фреймворк помещает ИИ-агентов в среду реальных роботов и передаёт им весь цикл: сбросить окружение, изучить литературу, реализовать идеи, обучить и развернуть политику, самостоятельно проверить результаты, проанализировать логи, переписать код и повторять до тех пор, пока политика не будет надёжно работать в реальном мире .

Четыре взаимосвязанных модуля

Архитектура ENPIRE представляет собой замкнутый цикл из четырёх модулей, каждый из которых отвечает за ключевую часть физического исследовательского процесса :

EN — Модуль окружения (Environment): Автоматически сбрасывает физическую сцену в случайное начальное состояние и проверяет выполнение задачи с помощью vision-based функций вознаграждения (например, моделей сегментации и детекторов ограничивающих рамок). Никакого ручного сброса робота между попытками не требуется .

PI — Модуль улучшения политики (Policy Improvement): Запускает доработку политики с использованием различных режимов — эвристического обучения, вызова инструментов, клонирования поведения, обучения с подкреплением (offline или online). ИИ-агент выдвигает алгоритмические гипотезы и пишет код .

R — Модуль прогона (Rollout): Оценивает кандидатную политику на одном или нескольких физических роботах, работающих параллельно. Сохраняет состояние, действия, видео и результаты для аудита .

E — Модуль эволюции (Evolution): ИИ-агенты анализируют логи, изучают исследовательскую литературу, сравнивают ветки изменений и модифицируют код тренировочной инфраструктуры и алгоритмов, чтобы устранить причины сбоев. Успешные «рецепты» повторно используются, неудачные гипотезы отбрасываются .

Координация флота через Git

Вместо того чтобы изобретать экзотический уровень оркестрации, фреймворк использует знакомый инструмент для распределённой коллаборации — Git. Когда одна станция с агентом достигает прорыва, она коммитит улучшенный код политики. Другие станции подтягивают обновление и строят на его основе, что обеспечивает распределённое асинхронное улучшение без централизованного управления .

Команда развернула восемь ИИ-агентов в паре с восемью роботизированными станциями, каждая из которых оснащена двумя шестистепенными механическими манипуляторами, камерами Intel RealSense depth и локальными GPU NVIDIA RTX 5090. Агентам был выделен пул GPU и щедрый бюджет токенов, после чего их отпустили в свободное плавание с простой целью: как можно быстрее решать задачи, сохраняя роботов занятыми и не тратя впустую вычислительные ресурсы .

Достигнутые результаты: 99% успеха на сложных задачах

ENPIRE-агенты продемонстрировали 99% успеха (pass@8) на ряде сложных задач, требующих высокой точности и контакта с объектами :

Установка GPU — вставка видеокарты в слот материнской платы.
Вставка штифтов — сортировка и размещение штифтов в коробке.
Резка кабельной стяжки — использование резака для обрезки стяжки.
Завязывание кабельной стяжки.
Push-T — плоскостная задача по перемещению Т-образного блока в заданную область.

Важно отметить, что метрика pass@8 измеряет эмерджентную способность к повторным попыткам и восстановлению в рамках одного длинного прогона (до 8 попыток с учётом предыдущих ошибок), а не просто лучший результат из 8 независимых попыток .

Масштабирование и ограничения

Метрики эффективности флота

В статье вводятся две новые метрики: Средняя утилизация робота (Mean Robot Utilization, MRU) и Средняя утилизация токенов (Mean Token Utilization, MTU) — для измерения эффективности многолетнего физического автоисследования .

Потребление токенов

Система чрезвычайно токенозатратна. Агенты читают статьи, пишут код, анализируют логи и итерируют — каждый цикл улучшения потребляет значительное количество токенов большой языковой модели. Команда выделила агентам «щедрый бюджет токенов» с указанием не тратить их впустую .

Разрыв между симуляцией и реальностью на задаче Push-T

Все три протестированных передовых агента — Codex (на базе GPT-5.5), Claude Code (на базе Opus 4.7) и Kimi Code (на базе Kimi K2.6) — успешно решили задачу Push-T в симуляции. Однако не все из них чисто перенеслись на реальное оборудование. Это ключевой результат: ENPIRE не устраняет разрыв между симуляцией и реальностью (sim-to-real gap), а даёт ИИ-агентам возможность обнаружить и адаптироваться к этому разрыву через повторные физические испытания . В статье это открыто признаётся как центральное ограничение .

Другие ограничения

В разделе «Ограничения и будущие направления» статьи отмечается, что ENPIRE всё ещё требует начальной настройки окружения (оборудование, конвейер восприятия), а эффективность подхода ограничена качеством и стоимостью базовых языковых моделей-агентов .

Результаты масштабирования

При увеличении количества роботов с 1 до 8 время достижения почти идеального результата на задаче со штифтами сократилось с более чем 1,5 часов до примерно 40 минут . Однако при этом общее потребление токенов росло сверхлинейно — каждый агент не только выполнял свои эксперименты, но и постоянно читал и осмыслял прогресс коллег .

Более широкий контекст: Физический ИИ от NVIDIA

ENPIRE вписывается в гораздо более широкую стратегию NVIDIA в области Физического ИИ (Physical AI) — ИИ, который понимает и действует в физическом мире.

Мир-модели NVIDIA Cosmos: Запущенная на CES 2025, платформа Cosmos включает генеративные фундаментальные модели мира, токенизаторы, системы безопасности и конвейеры видео, предназначенные для ускорения разработки физического ИИ для автономных транспортных средств и робототехники . На GTC 2026 NVIDIA представила новые модели Cosmos вместе с фреймворками симуляции Isaac и моделями Isaac GR00T N для гуманоидных роботов .
Партнёрство с Hyundai: В январе 2025 года Hyundai Motor Group объявила о стратегическом партнёрстве с NVIDIA в области ускоренных вычислений, генеративного ИИ и промышленной цифровизации . В октябре 2025 года партнёрство углубилось: было объявлено о строительстве ИИ-фабрики на базе 50 000 Blackwell GPU для автономных транспортных средств, умных заводов и робототехники .

ENPIRE, по сути, является уровнем автоматизации исследований поверх этой инфраструктуры — способом замкнуть цикл между симуляцией (Cosmos/Isaac), оборудованием (флоты роботов, ИИ-фабрики) и автономным улучшением политик, полностью управляемым передовыми ИИ-агентами.

Как отметил Джим Фан (Jim Fan), руководитель NVIDIA GEAR Lab, роботы могут совершенствоваться всю ночь без перерыва, а исследователям остаётся лишь утром прочитать отчёт о тренировке . Более того, команда планирует открыть исходный код технологии, чтобы энтузиасты могли развернуть собственную автономную роботизированную лабораторию у себя дома .

ENPIRE: Как NVIDIA, CMU и UC Berkeley создали систему для самообучающихся роботов

Что на самом деле делает ENPIRE

Четыре взаимосвязанных модуля

Координация флота через Git

Достигнутые результаты: 99% успеха на сложных задачах

Масштабирование и ограничения

Метрики эффективности флота

Потребление токенов

Разрыв между симуляцией и реальностью на задаче Push-T

Другие ограничения

Результаты масштабирования

Более широкий контекст: Физический ИИ от NVIDIA

Search, cite, and publish your own answer

Люди также спрашивают

Каков краткий ответ на вопрос «ENPIRE: Как NVIDIA, CMU и UC Berkeley создали систему для самообучающихся роботов»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Источники

Comments