ENPIRE's arkitektur er en lukket loop bestående af fire moduler, der hver håndterer en kritisk del af den fysiske forskningsproces :
EN – Miljømodul: Nulstiller automatisk den fysiske scene til en tilfældig starttilstand og verificerer opgavefuldførelse ved hjælp af visionsbaserede belønningsfunktioner (f.eks. segmenteringsmodeller og ramme-detektorer). Ingen mennesker nulstiller robotten mellem forsøg .
PI – Politikforbedringsmodul: Iværksætter politikforfining ved hjælp af en af flere metoder – heuristisk læring, værktøjskald, adfærdskloning, offline forstærkningslæring eller online RL. Kodningsagenten foreslår algoritmiske hypoteser og skriver koden .
R – Udrulningsmodul: Evaluerer den kandidatpolitik på en enkelt eller flere fysiske robotter, der opererer parallelt. Det gemmer tilstand, handling, video og resultatdata til revision .
E – Evolutionsmodul: Kodningsagenter analyserer logs, konsulterer forskningslitteratur, sammenligner grene og modificerer træningsinfrastruktur og algoritmekode for at adressere fejltilstande. Vellykkede 'opskrifter' genbruges; fejlslagne hypoteser fjernes .
I stedet for at opfinde et eksotisk orkestreringslag, er frameworket afhængigt af et velkendt værktøj til distribueret samarbejde: Git. Når en agentstation opnår et gennembrud, 'committer' den den forbedrede politik-kode. Andre stationer trækker opdateringen og bygger videre på den, hvilket muliggør distribueret, asynkron forbedring uden centraliseret koordination .
Teamet implementerede otte AI-kodningsagenter parret med otte robotarbejdsstationer, hver udstyret med dobbelte seks-graders frihedsgradsarme, Intel RealSense dybdekameraer og lokale NVIDIA RTX 5090 GPU'er. Med en tildeling af GPU'er og et generøst token-budget blev agenterne sat fri med et enkelt mål: løs opgaven så hurtigt som muligt, hold robotterne beskæftiget, men sørg for sikkerheden, og spild ikke værdifuld regnekraft .
ENPIRE-drevne agenter opnåede en 99% pass@8 succesrate på en række udfordrende, kontaktintensive, fingerfærdighedskrævende opgaver i den virkelige verden :
Det er vigtigt at bemærke, at pass@8 måler opstået genforsøg og genopretning inden for en enkelt langtidsholdbar udrulning (op til 8 kontekstuelle genforsøg betinget af tidligere fejl), ikke bedst-af-8 uafhængige prøver .
Artiklen introducerer to nye målinger: Mean Robot Utilization (MRU) og Mean Token Utilization (MTU) for at måle effektiviteten af multi-agent fysisk autoresearch .
Systemet er token-intensivt. Agenter læser artikler, skriver kode, analyserer logs og itererer – hver forbedringscyklus forbruger betydelige LLM-tokens. Teamet gav agenterne et 'generøst token-budget' og instruerede dem i ikke at spilde regnekraft . Skalering fra én robot til otte mere end halverede tiden til at mestre en opgave, men token-regningen voksede endnu hurtigere end den sparede tid
.
Alle tre testede avancerede kodningsagenter – Codex (med GPT-5.5), Claude Code (med Opus 4.7) og Kimi Code (med Kimi K2.6) – løste Push-T i simulering. Men ikke alle overførte rent til ægte hardware. ENPIRE afskaffer ikke sim-til-virkelighed-kløften; det giver AI-agenter en måde at opdage kløften gennem gentagne fysiske forsøg og derefter tilpasse sig omkring den . Dette indrømmes åbenhjertigt i artiklen som en central begrænsning
.
ENPIRE kræver stadig den indledende opsætning af miljøet (hardware, perceptionspipeline), og tilgangen er begrænset af kvaliteten og prisen på de underliggende kodningsagent-LLM'er .
ENPIRE er en del af en meget større NVIDIA-strategi for Physical AI – AI, der forstår og handler i den fysiske verden.
ENPIRE er i realiteten forskningsautomatiseringslaget oven på denne infrastruktur – en måde at lukke loopet mellem simulering (Cosmos/Isaac), hardware (robotflåder, AI-fabrikker) og autonom politikforbedring, alt sammen drevet af avancerede kodningsagenter.
Jim Fan, Senior Research Scientist og leder af Embodied AI hos NVIDIA, sagde i et opslag på sociale medier, at robotterne kan forbedre sig selv hele natten uden afbrydelse, mens forskerne blot skal læse træningsrapporten om morgenen . Teamet har også annonceret, at teknologien vil blive open source, så teknologientusiaster kan være vært for deres eget automatisk kørende robotlaboratorium derhjemme
.
Comments
0 comments