Architektura ENPIRE je uzavřená smyčka složená ze čtyř modulů, z nichž každý zpracovává kritickou část fyzického výzkumného procesu :
EN – modul prostředí: Automaticky resetuje fyzickou scénu do náhodného počátečního stavu a ověřuje dokončení úlohy pomocí vizuálních funkcí odměny (např. segmentačních modelů a detektorů ohraničujících rámečků). Žádný člověk neresetuje robota mezi pokusy .
PI – modul zlepšování politiky: Spouští zpřesňování politiky pomocí libovolného z několika režimů – heuristického učení, volání nástrojů, klonování chování, offline posilovaného učení nebo online RL. Kódovací agent navrhuje algoritmické hypotézy a píše kód .
R – modul provádění: Vyhodnocuje kandidátskou politiku na jednom nebo více fyzických robotech pracujících paralelně. Uchovává stav, akci, video a výsledky pro audit .
E – evoluční modul: Kódovací agenty analyzují logy, konzultují výzkumnou literaturu, porovnávají větve a upravují tréninkovou infrastrukturu a kód algoritmů, aby řešili režimy selhání. Úspěšné recepty se znovu používají; neúspěšné hypotézy se vyřazují .
Místo vymýšlení exotické orchestrace se rámec spoléhá na známý nástroj pro distribuovanou spolupráci: Git. Když jedna stanice agentů dosáhne průlomu, potvrdí (commit) vylepšený kód politiky. Ostatní stanice si aktualizaci stáhnou a staví na ní, což umožňuje distribuované, asynchronní zlepšování bez centralizované koordinace .
Tým nasadil osm AI kódovacích agentů spárovaných s osmi robotickými pracovními stanicemi, z nichž každá je vybavena dvěma mechanickými rameny s šesti stupni volnosti, hloubkovými kamerami Intel RealSense a lokálními GPU NVIDIA RTX 5090. S přidělením GPU a štědrým rozpočtem na tokeny je nechali běžet s jednoduchým cílem: řešit úlohy co nejrychleji a nejbezpečněji .
Agenti s podporou ENPIRE dosáhli 99% úspěšnosti pass@8 u sady náročných úloh vyžadujících obratnou manipulaci v reálném světě :
Metrika pass@8 měří nouzové opakování a zotavení v rámci jednoho dlouhodobého provádění (až 8 opakování v kontextu podmíněných předchozími neúspěchy), nikoli nejlepší z 8 nezávislých vzorků .
Článek zavádí dvě nové metriky: Mean Robot Utilization (MRU) a Mean Token Utilization (MTU) pro měření efektivity multiagentního fyzického autorešerše .
Systém je náročný na tokeny. Agenti čtou články, píší kód, analyzují logy a iterují – každý cyklus zlepšování spotřebovává značné množství LLM tokenů. Tým agentům poskytl „štědrý rozpočet tokenů“ a instruoval je, aby neplýtvali výpočetním výkonem .
Všechny tři testované špičkové kódovací agenty – Codex (s GPT-5.5), Claude Code (s Opus 4.7) a Kimi Code (s Kimi K2.6) – vyřešily úlohu Push-T v simulaci. Nicméně ne všechny se čistě přenesly na reálný hardware. ENPIRE neodstraňuje propast mezi simulací a realitou; dává AI agentům způsob, jak tuto propast objevit a přizpůsobit se jí prostřednictvím opakovaných fyzických pokusů . To je v článku upřímně přiznáno jako zásadní omezení
.
Článek obsahuje sekci „Omezení a budoucí směry“, která uvádí, že ENPIRE stále vyžaduje počáteční nastavení prostředí (hardware, percepční pipeline) a že přístup je omezen kvalitou a cenou základních kódovacích LLM agentů .
ENPIRE zapadá do mnohem širší strategie NVIDIA pro Physical AI – AI, která rozumí a jedná ve fyzickém světě.
ENPIRE je v podstatě automatizační vrstva výzkumu nad touto infrastrukturou – způsob, jak uzavřít smyčku mezi simulací (Cosmos/Isaac), hardwarem (flotily robotů, AI továrny) a autonomním zlepšováním politik, to vše poháněno špičkovými kódovacími agenty.
Comments
0 comments