L'architettura di ENPIRE è un ciclo chiuso composto da quattro moduli, ognuno dei quali gestisce una parte critica del processo di ricerca fisica :
EN – Modulo Ambiente: Ripristina automaticamente la scena fisica in uno stato iniziale randomizzato e verifica il completamento del compito utilizzando funzioni di ricompensa basate sulla visione (ad esempio, modelli di segmentazione e rilevatori di bounding box). Nessun umano deve ripristinare il robot tra una prova e l'altra .
PI – Modulo di Miglioramento della Policy: Avvia il perfezionamento della policy utilizzando diversi regimi – apprendimento euristico, chiamate a strumenti, clonazione del comportamento, apprendimento per rinforzo offline o online. L'agente di programmazione propone ipotesi algoritmiche e scrive il codice .
R – Modulo di Esecuzione: Valuta la policy candidata su uno o più robot fisici che operano in parallelo. Conserva lo stato, le azioni, i video e i risultati per la verifica .
E – Modulo di Evoluzione: Gli agenti di programmazione analizzano i log, consultano la letteratura di ricerca, confrontano i rami e modificano il codice dell'infrastruttura di addestramento e dell'algoritmo per affrontare le modalità di fallimento. Le ricette di successo vengono riutilizzate; le ipotesi fallimentari vengono potate .
Invece di inventare un livello di orchestrazione esotico, il framework si affida a uno strumento familiare per la collaborazione distribuita: Git. Quando una stazione agente raggiunge un risultato importante, inserisce il codice della policy migliorata nel repository. Le altre stazioni estraggono l'aggiornamento e ci lavorano sopra, consentendo un miglioramento distribuito e asincrono senza coordinamento centralizzato .
Il team ha schierato otto agenti AI di programmazione abbinati a otto stazioni di lavoro robotiche, ciascuna dotata di due bracci meccanici a sei gradi di libertà, telecamere di profondità Intel RealSense e GPU NVIDIA RTX 5090 locali. Con un'allocazione di GPU e un budget di token generoso, gli agenti sono stati lasciati liberi con un obiettivo semplice: risolvere il compito il più velocemente possibile, mantenere i robot occupati ma al sicuro e non sprecare preziosa potenza di calcolo .
I test hanno mostrato un tasso di successo del 99% pass@8 in una serie di compiti di manipolazione di contatto complessi :
La metrica pass@8 misura la capacità di riprovare e recuperare all'interno di un singolo ciclo di esecuzione esteso (fino a 8 tentativi consecutivi basati sui fallimenti precedenti), non il miglior risultato su 8 campioni indipendenti .
Quando il team ha aumentato la flotta da 1 a 8 robot, il tempo necessario per completare il compito di inserimento pin è sceso da oltre 1,5 ore a circa 40 minuti . Tuttavia, il consumo di token è cresciuto in modo super-lineare: ogni agente non solo esegue i propri esperimenti, ma deve anche leggere e comprendere i progressi degli altri agenti
.
Un limite importante è emerso nel compito Push-T: tutti e tre gli agenti di programmazione testati – Codex (con GPT-5.5), Claude Code (con Opus 4.7) e Kimi Code (con Kimi K2.6) – hanno risolto il compito in simulazione, ma non tutti sono riusciti a trasferire la soluzione all'hardware reale. ENPIRE non elimina il divario simulazione-realtà; fornisce agli agenti AI un modo per scoprire quel divario attraverso prove fisiche ripetute e adattarsi .
ENPIRE si inserisce in una strategia molto più ampia di NVIDIA per l'AI fisica – l'intelligenza artificiale che comprende e agisce nel mondo reale.
ENPIRE rappresenta, in sostanza, il livello di automazione della ricerca su questa infrastruttura – un modo per chiudere il ciclo tra simulazione (Cosmos/Isaac), hardware (flotte robotiche, fabbriche AI) e miglioramento autonomo delle policy, il tutto guidato da agenti AI di frontiera.
Nota: NVIDIA ha annunciato l'intenzione di rendere open source la tecnologia ENPIRE, permettendo anche agli appassionati di tecnologia di ospitare i propri laboratori robotici automatizzati a casa
.
Comments
0 comments