ENPIREs arkitektur er en lukket sløyfe som består av fire moduler, som hver håndterer en kritisk del av den fysiske forskningsprosessen :
EN – Miljømodul: Tilbakestiller automatisk den fysiske scenen til en randomisert starttilstand og verifiserer at oppgaven er fullført ved hjelp av visjonsbaserte belønningsfunksjoner (f.eks. segmenteringsmodeller og detektorer for avgrensningsbokser). Ingen mennesker tilbakestiller roboten mellom forsøk .
PI – Policyforbedringsmodul: Starter policyforbedring ved hjelp av en av flere regimer – heuristisk læring, verktøykalling, atferdskloning, offline forsterkingslæring eller online RL. Kodeagenten foreslår algoritmiske hypoteser og skriver koden .
R – Utrullingsmodul: Evaluerer kandidatpolicyen på enkelt- eller flere fysiske roboter som opererer parallelt. Den lagrer tilstand, handling, video og resultatdata for revisjon .
E – Evolusjonsmodul: Kodeagenter analyserer logger, konsulterer forskningslitteratur, sammenligner grener og modifiserer treningsinfrastruktur og algoritmekode for å håndtere feilmoduser. Vellykkede oppskrifter gjenbrukes; mislykkede hypoteser forkastes .
I stedet for å finne opp et eksotisk orkestreringslag, er rammeverket avhengig av et kjent verktøy for distribuert samarbeid: Git. Når en agentstasjon oppnår et gjennombrudd, committer den den forbedrede policykoden. Andre stasjoner henter oppdateringen og bygger videre på den, noe som muliggjør distribuert, asynkron forbedring uten sentralisert koordinering .
Teamet deployerte åtte AI-kodeagenter sammen med åtte robotarbeidsstasjoner, hver utstyrt med to seks-frihetsgrads mekaniske armer, Intel RealSense-dybdekameraer og lokale NVIDIA RTX 5090 GPUer. Gitt en tildeling av GPUer og en sjenerøs token-budsjett, ble de satt fri med et enkelt mål: løs oppgaven så raskt som mulig, hold robotene i gang, men vær trygg, ikke kast bort verdifull datakraft .
ENPIRE-drevne agenter oppnådde en 99 % pass@8 suksessrate på et sett med utfordrende, kontaktrike, fingernemme manipulasjonsoppgaver i den virkelige verden :
Oppgaven noterer at pass@8 måler fremvoksende gjenforsøk og gjenoppretting innenfor en enkelt langhorisont-utrulling (opptil 8 kontekstuelle gjenforsøk betinget av tidligere feil), ikke best-av-8 i.i.d. prøver .
Oppgaven introduserer to nye beregninger: Mean Robot Utilization (MRU) og Mean Token Utilization (MTU) for å måle effektiviteten til multiagent fysisk auto-forskning .
Systemet er token-intensivt. Agenter leser artikler, skriver kode, analyserer logger og itererer – hver forbedringssyklus forbruker betydelige LLM-tokens. Teamet ga agentene et "sjenerøst token-budsjett" og instruerte dem om ikke å kaste bort datakraft .
Alle tre testede banebrytende kodeagenter – Codex (med GPT-5.5), Claude Code (med Opus 4.7), og Kimi Code (med Kimi K2.6) – løste Push-T i simulering. Imidlertid overførte ikke alle rent til ekte maskinvare. ENPIRE fjerner ikke sim-til-real-gapet; det gir AI-agenter en måte å oppdage og tilpasse seg det gapet gjennom gjentatte fysiske forsøk . Dette erkjenner oppgaven ærlig som en sentral begrensning
.
Oppgaven inkluderer en "Begrensninger og fremtidige retninger"-seksjon som bemerker at ENPIRE fortsatt krever det innledende miljøoppsettet (maskinvare, persepsjonspipeline), og at tilnærmingen er begrenset av kvaliteten og kostnaden til de underliggende kodeagent LLMene .
ENPIRE sitter innenfor en mye større NVIDIA-strategi for Physical AI – AI som forstår og handler i den fysiske verden.
ENPIRE er, i praksis, forskningsautomatiseringslaget oppå denne infrastrukturen – en måte å lukke sløyfen mellom simulering (Cosmos/Isaac), maskinvare (robotflåter, AI-fabrikker) og autonom policyforbedring, alt drevet av banebrytende kodeagenter.
Comments
0 comments