La arquitectura de ENPIRE es un bucle cerrado compuesto por cuatro módulos, cada uno encargado de una parte crítica del proceso de investigación física :
EN — Módulo de Entorno: Reinicia automáticamente la escena física a un estado inicial aleatorio y verifica la finalización de la tarea mediante funciones de recompensa basadas en visión (por ejemplo, modelos de segmentación y detectores de cajas delimitadoras). No hay un humano que reinicie el robot entre pruebas .
PI — Módulo de Mejora de Política: Inicia el refinamiento de la política utilizando cualquiera de varios regímenes: aprendizaje heurístico, llamada a herramientas, clonación de comportamiento, aprendizaje por refuerzo fuera de línea o en línea. El agente programador propone hipótesis algorítmicas y escribe el código .
R — Módulo de Ejecución: Evalúa la política candidata en uno o múltiples robots físicos que operan en paralelo. Conserva el estado, la acción, el video y los datos de resultados para su auditoría .
E — Módulo de Evolución: Los agentes programadores analizan registros, consultan la literatura de investigación, comparan ramas y modifican el código de la infraestructura de entrenamiento y del algoritmo para abordar los modos de fallo. Las recetas exitosas se reutilizan; las hipótesis fallidas se podan .
En lugar de inventar una capa de orquestación exótica, el marco se basa en una herramienta familiar para la colaboración distribuida: Git. Cuando una estación agente logra un avance, confirma el código de la política mejorada. Otras estaciones extraen la actualización y construyen sobre ella, lo que permite una mejora distribuida y asíncrona sin coordinación centralizada .
El equipo desplegó ocho agentes de IA programadores emparejados con ocho estaciones de trabajo robóticas, cada una equipada con dos brazos mecánicos de seis grados de libertad, cámaras de profundidad Intel RealSense y GPUs NVIDIA RTX 5090 locales. Con una asignación de GPUs y un presupuesto de tokens, los agentes fueron liberados con un objetivo simple: resolver la tarea lo más rápido posible, mantener los robots ocupados pero seguros, y no desperdiciar valiosos recursos de cómputo .
Los agentes impulsados por ENPIRE alcanzaron una tasa de éxito del 99% (pass@8) en un conjunto de tareas de manipulación diestra y de contacto intenso en el mundo real :
El informe señala que pass@8 mide la capacidad de reintento y recuperación emergente dentro de una sola ejecución de largo horizonte (hasta 8 reintentos en contexto condicionados a fallos anteriores), no el mejor de 8 muestras independientes e idénticamente distribuidas .
El estudio introduce dos nuevas métricas: Utilización Media del Robot (MRU) y Utilización Media de Tokens (MTU) para medir la eficiencia de la autoinvestigación física multiagente .
El sistema es intensivo en tokens. Los agentes leen artículos, escriben código, analizan registros e iteran; cada ciclo de mejora consume una cantidad significativa de tokens de los modelos de lenguaje grande (LLM). El equipo proporcionó a los agentes un "presupuesto generoso de tokens" y les indicó que no desperdiciaran cómputo .
Los tres agentes programadores de frontera probados —Codex (con GPT-5.5), Claude Code (con Opus 4.7) y Kimi Code (con Kimi K2.6)— resolvieron Push-T en simulación. Sin embargo, no todos se transfirieron limpiamente al hardware real. ENPIRE no elimina la brecha entre simulación y realidad; le da a los agentes de IA una forma de descubrir esa brecha a través de pruebas físicas repetidas y luego adaptarse a ella. Esto se reconoce abiertamente en el documento como una limitación central .
El documento incluye una sección de "Limitaciones y Direcciones Futuras" que señala que ENPIRE aún requiere la configuración inicial del entorno (hardware, pipeline de percepción), y que el enfoque está limitado por la calidad y el costo de los LLM subyacentes del agente programador .
Cuando el equipo proporcionó 8 robots en lugar de 1, el tiempo necesario para que la tarea de inserción de pines alcanzara un rendimiento cercano al perfecto se redujo de más de 1,5 horas a aproximadamente 40 minutos. Sin embargo, el costo en tokens creció de forma superlineal, ya que los agentes no solo realizan sus propios experimentos, sino que también deben leer y comprender el progreso de los demás .
ENPIRE se inscribe en una estrategia mucho más amplia de NVIDIA para la IA Física —IA que entiende y actúa en el mundo físico:
ENPIRE es, en efecto, la capa de automatización de la investigación sobre esta infraestructura: una forma de cerrar el círculo entre la simulación (Cosmos/Isaac), el hardware (flotas de robots, fábricas de IA) y la mejora autónoma de políticas, todo impulsado por agentes programadores de vanguardia.
Jim Fan, investigador principal de IA Encarnada en NVIDIA y jefe del GEAR Lab, ha indicado que la tecnología se publicará como código abierto, lo que significa que los entusiastas de la tecnología podrían, en teoría, alojar su propio laboratorio de robótica de funcionamiento autónomo en casa .
Comments
0 comments