ENPIRE:s arkitektur är en sluten slinga bestående av fyra moduler, som var och en hanterar en kritisk del av den fysiska forskningsprocessen :
EN – Miljömodul: Återställer automatiskt den fysiska scenen till ett randomiserat initialtillstånd och verifierar uppgiftsfullbordan med hjälp av visionsbaserade belöningsfunktioner (t.ex. segmenteringsmodeller och detektorer för avgränsningsrutor). Ingen människa återställer roboten mellan försöken .
PI – Policyförbättringsmodul: Startar policyförbättring med hjälp av flera olika regimer – heuristisk inlärning, verktygsanrop, beteendekopiering, offline-förstärkningsinlärning eller online-RL. Kodningsagenten föreslår algoritmiska hypoteser och skriver koden .
R – Utvärderingsmodul: Utvärderar den kandidatpolicy som föreslagits på en eller flera fysiska robotar som arbetar parallellt. Den bevarar tillstånd, handling, video och utfallsdata för granskning .
E – Evolutionsmodul: Kodningsagenter analyserar loggar, konsulterar forskningslitteratur, jämför grenar och modifierar träningsinfrastruktur och algoritmkod för att åtgärda feltillstånd. Framgångsrika recept återanvänds; misslyckade hypoteser rensas bort .
Istället för att uppfinna ett exotiskt orkestreringslager förlitar sig ramverket på ett välbekant verktyg för distribuerat samarbete: Git. När en agentstation uppnår ett genombrott, commitar den den förbättrade policykoden. Andra stationer hämtar uppdateringen och bygger vidare på den, vilket möjliggör distribuerad, asynkron förbättring utan central samordning .
Teamet distribuerade åtta AI-kodningsagenter parade med åtta robotarbetsstationer, var och en utrustad med dubbla sexfrihetsgrads mekaniska armar, Intel RealSense-djupkameror och lokala NVIDIA RTX 5090 GPU:er. Med en tilldelning av GPU:er och en generös tokenbudget släpptes agenterna lösa med målet att lösa uppgifterna så snabbt och säkert som möjligt .
ENPIRE-drivna agenter uppnådde en 99% pass@8-framgångsfrekvens på en uppsättning utmanande, kontaktintensiva fingerfärdiga manipulationsuppgifter i den verkliga världen :
Notera att pass@8 mäter framväxande försök och återhämtning inom en enda långsiktig utrullning (upp till 8 kontextuella försök som är villkorade av tidigare misslyckanden), inte bäst-av-8 oberoende sampel .
Tidningen introducerar två nya mätvärden: Mean Robot Utilization (MRU) och Mean Token Utilization (MTU) för att mäta effektiviteten av multi-agent fysisk auto-forskning .
Systemet är tokenintensivt. Agenter läser artiklar, skriver kod, analyserar loggar och itererar – varje förbättringscykel förbrukar betydande LLM-tokens. Teamet gav agenterna en "generös tokenbudget" och instruerade dem att inte slösa med beräkningar . Att skala från en till åtta robotar halverade tiden för att bemästra en uppgift (t.ex. från 1,5 timmar till cirka 40 minuter för stiftinsättning), men tokenförbrukningen växte ännu snabbare än den sparade tiden
.
Alla tre testade avancerade kodningsagenter – Codex (med GPT-5.5), Claude Code (med Opus 4.7) och Kimi Code (med Kimi K2.6) – löste Push-T i simulering. Men inte alla överfördes rent till verklig hårdvara. ENPIRE avskaffar inte sim-till-real-klyftan; det ger AI-agenter ett sätt att upptäcka och anpassa sig till den klyftan genom upprepade fysiska försök . Detta erkänns öppet i tidningen som en central begränsning
.
Tidningen innehåller ett avsnitt om "Begränsningar & Framtida riktningar" som noterar att ENPIRE fortfarande kräver den initiala miljöinstallationen (hårdvara, perceptionspipeline) och att metoden begränsas av kvaliteten och kostnaden för de underliggande kodningsagenternas LLM .
ENPIRE är en del av en mycket bredare NVIDIA-strategi för Physical AI – AI som förstår och agerar i den fysiska världen.
ENPIRE är i praktiken automatiseringslagret för forskning ovanpå denna infrastruktur – ett sätt att sluta slingan mellan simulering (Cosmos/Isaac), hårdvara (robotflottor, AI-fabriker) och autonom policyförbättring, allt drivet av avancerade kodningsagenter.
Comments
0 comments