L'architecture d'ENPIRE est une boucle fermée composée de quatre modules, chacun gérant une partie critique du processus de recherche physique :
EN — Module Environnement : Réinitialise automatiquement la scène physique dans un état initial aléatoire et vérifie l'achèvement de la tâche à l'aide de fonctions de récompense basées sur la vision (par exemple, des modèles de segmentation et des détecteurs de boîtes englobantes). Aucun humain ne réinitialise le robot entre les essais .
PI — Module d'Amélioration des Politiques : Lance le raffinement de la politique en utilisant plusieurs régimes — apprentissage heuristique, appel d'outils, clonage de comportement, apprentissage par renforcement hors ligne ou en ligne. L'agent de codage propose des hypothèses algorithmiques et écrit le code .
R — Module de Déploiement : Évalue la politique candidate sur un ou plusieurs robots physiques fonctionnant en parallèle. Il conserve les données d'état, d'action, de vidéo et de résultat à des fins d'audit .
E — Module d'Évolution : Les agents de codage analysent les journaux, consultent la littérature de recherche, comparent les branches, et modifient l'infrastructure d'entraînement et le code algorithmique pour remédier aux modes d'échec. Les recettes qui réussissent sont réutilisées ; les hypothèses qui échouent sont élaguées .
Plutôt que d'inventer une couche d'orchestration exotique, le framework s'appuie sur un outil familier pour la collaboration distribuée : Git. Lorsqu'un poste d'agent réalise une percée, il valide le code de la politique améliorée. Les autres postes tirent la mise à jour et l'enrichissent, permettant une amélioration distribuée et asynchrone sans coordination centralisée .
L'équipe a déployé huit agents de codage d'IA associés à huit postes de travail robotiques, chacun équipé de deux bras mécaniques à six degrés de liberté, de caméras de profondeur Intel RealSense et de GPU NVIDIA RTX 5090 locaux. Avec une allocation de GPU et un budget de jetons généreux, les agents ont été laissés libres avec un objectif simple : résoudre la tâche le plus rapidement possible, garder les robots occupés mais en sécurité, et ne pas gaspiller de précieuses ressources de calcul .
Les agents propulsés par ENPIRE ont atteint un taux de réussite de 99 % (pass@8) sur une série de tâches de manipulation dextre complexes et riches en contacts dans le monde réel :
Le document note que le pass@8 mesure la capacité de reprise et de récupération émergentes au sein d'un seul déploiement à long horizon (jusqu'à 8 tentatives de reprise en contexte conditionnées par les échecs précédents), et non le meilleur parmi 8 échantillons indépendants et identiquement distribués .
L'article introduit deux nouvelles métriques : l'Utilisation Moyenne du Robot (Mean Robot Utilization, MRU) et l'Utilisation Moyenne des Jetons (Mean Token Utilization, MTU) pour mesurer l'efficacité de la recherche physique multi-agents .
Le système est intensif en jetons. Les agents lisent des articles, écrivent du code, analysent les journaux et itèrent — chaque cycle d'amélioration consomme une quantité significative de jetons de LLM. L'équipe a accordé aux agents un "budget de jetons généreux" et leur a demandé de ne pas gaspiller les ressources de calcul .
Les trois agents de codage de pointe testés — Codex (avec GPT-5.5), Claude Code (avec Opus 4.7) et Kimi Code (avec Kimi K2.6) — ont tous résolu Push-T en simulation. Cependant, tous ne se sont pas transférés proprement sur le matériel réel. ENPIRE n'abolit pas le fossé simulation-réalité ; il donne aux agents d'IA un moyen de découvrir ce fossé grâce à des essais physiques répétés et de s'y adapter . Ceci est reconnu franchement dans l'article comme une limitation centrale
.
L'article comprend une section "Limites et orientations futures" notant qu'ENPIRE nécessite toujours la configuration initiale de l'environnement (matériel, pipeline de perception) et que l'approche est limitée par la qualité et le coût des LLM d'agents de codage sous-jacents .
ENPIRE s'inscrit dans une stratégie beaucoup plus large de NVIDIA pour l'IA physique — l'IA qui comprend et agit dans le monde physique.
ENPIRE est, en effet, la couche d'automatisation de la recherche au sommet de cette infrastructure — un moyen de boucler la boucle entre la simulation (Cosmos/Isaac), le matériel (flottes de robots, usines d'IA) et l'amélioration autonome des politiques, le tout piloté par des agents de codage de pointe.
Comments
0 comments