ENPIRE's architectuur is een gesloten lus van vier modules, elk verantwoordelijk voor een cruciaal deel van het fysieke onderzoeksproces :
EN — Environment-module: Reset automatisch de fysieke scène naar een gerandomiseerde begintoestand en verifieert taakvoltooiing met visie-gebaseerde beloningsfuncties (bijvoorbeeld segmentatiemodellen en bounding-box-detectoren). Geen mens die de robot reset tussen pogingen .
PI — Policy Improvement-module: Start beleidsverfijning via verschillende regimes – heuristisch leren, tool calling, behavior cloning, offline reinforcement learning of online RL. De codeeragent stelt algoritmische hypotheses voor en schrijft de code .
R — Rollout-module: Evalueert het kandidaat-beleid op één of meerdere fysieke robots die parallel opereren. Bewaart toestand, actie, video en uitkomsten voor auditdoeleinden .
E — Evolution-module: Codeeragents analyseren logs, raadplegen onderzoeksliteratuur, vergelijken takken en passen trainingsinfrastructuur en algoritmecode aan om faalmodi aan te pakken. Succesvolle recepten worden hergebruikt; falende hypotheses worden verwijderd .
In plaats van een exotische orchestratielaag te verzinnen, vertrouwt het framework op een vertrouwd hulpmiddel voor gedistribueerde samenwerking: Git. Wanneer één agent-station een doorbraak bereikt, commit het de verbeterde beleidscode. Andere stations trekken de update en bouwen erop voort, wat gedistribueerde, asynchrone verbetering mogelijk maakt zonder centrale coördinatie .
Het team zette acht AI-codeeragents in, elk gekoppeld aan een robotwerkstation met dubbele zes-vrijheidsgraden-mechanische armen, Intel RealSense-dieptecamera's en lokale NVIDIA RTX 5090-GPU's. Ze kregen een toewijzing van GPU's en een royaal tokenbudget, met de opdracht taken zo snel en veilig mogelijk op te lossen, zonder rekenkracht te verspillen .
ENPIRE-aangedreven agents bereikten een 99% pass@8-slaagkans op een reeks uitdagende, contactrijke manipulatie taken in de echte wereld :
Belangrijk: De paper benadrukt dat pass@8 emergente herpogingen en herstel binnen één lange horizon-uitrol meet (tot 8 in-context herpogingen, afhankelijk van eerdere mislukkingen), niet een best-of-8 van onafhankelijke steekproeven .
De paper introduceert twee nieuwe metrieken: Mean Robot Utilization (MRU) en Mean Token Utilization (MTU) om de efficiëntie van multi-agent fysiek auto-onderzoek te meten .
Toen het team het aantal robots uitbreidde van één naar acht, daalde de benodigde tijd om de pin-insertietaak bijna perfect uit te voeren van meer dan 1,5 uur naar ongeveer 40 minuten .
Het systeem is token-intensief. Agents lezen papers, schrijven code, analyseren logs en itereren – elke verbeteringscyclus verbruikt aanzienlijke LLM-tokens. Het team gaf de agents een "royale tokenbegroting" en instrueerde hen om rekenkracht niet te verspillen .
Op de Push-T-taak losten alle drie de geteste geavanceerde codeeragents – Codex (met GPT-5.5), Claude Code (met Opus 4.7) en Kimi Code (met Kimi K2.6) – het probleem in simulatie op. Echter, niet allemaal slaagden ze erin de overgang naar echte hardware te maken. ENPIRE heft de sim-to-real-kloof niet op; het geeft AI-agents een manier om die kloof te ontdekken via herhaalde fysieke proeven en zich er vervolgens aan aan te passen . De paper erkent dit openlijk als een centrale beperking
.
ENPIRE past binnen een veel bredere NVIDIA-strategie voor fysieke AI – AI die de fysieke wereld begrijpt en erin handelt.
ENPIRE fungeert als de automatiseringslaag voor onderzoek bovenop deze infrastructuur – een manier om de lus te sluiten tussen simulatie (Cosmos/Isaac), hardware (robotvloten, AI-fabrieken) en autonome beleidsverbetering, allemaal aangedreven door geavanceerde codeeragents.
Comments
0 comments