A arquitetura do ENPIRE é um ciclo fechado composto por quatro módulos, cada um cuidando de uma parte crítica do processo de pesquisa física :
EN — Módulo de Ambiente: Reseta automaticamente a cena física para um estado inicial aleatório e verifica a conclusão da tarefa usando funções de recompensa baseadas em visão (como modelos de segmentação e detectores de caixa delimitadora). Nenhum humano precisa resetar o robô entre as tentativas .
PI — Módulo de Melhoria de Política: Inicia o refinamento da política usando vários regimes — aprendizado heurístico, chamada de ferramentas, clonagem de comportamento, aprendizado por reforço offline ou online. O agente de codificação propõe hipóteses algorítmicas e escreve o código .
R — Módulo de Rollout: Avalia a política candidata em um ou vários robôs físicos operando em paralelo. Preserva estado, ação, vídeo e dados de resultado para auditoria .
E — Módulo de Evolução: Os agentes de codificação analisam logs, consultam a literatura de pesquisa, comparam branches e modificam o código da infraestrutura de treinamento e do algoritmo para lidar com modos de falha. Receitas bem-sucedidas são reutilizadas; hipóteses que falham são descartadas .
Em vez de inventar uma camada de orquestração exótica, o framework depende de uma ferramenta familiar para colaboração distribuída: Git. Quando uma estação-agente consegue um avanço, ela faz o commit do código da política melhorada. Outras estações puxam a atualização e constroem a partir dela, permitindo melhoria distribuída e assíncrona sem coordenação centralizada .
A equipe implantou oito agentes de codificação de IA emparelhados com oito estações de trabalho robóticas, cada uma equipada com dois braços mecânicos de seis graus de liberdade, câmeras de profundidade Intel RealSense e GPUs NVIDIA RTX 5090 locais. Com uma alocação de GPUs e um orçamento generoso de tokens, os agentes foram liberados com um objetivo simples: resolver a tarefa o mais rápido possível, manter os robôs ocupados, mas seguros, e não desperdiçar poder computacional .
Os agentes equipados com ENPIRE alcançaram uma taxa de sucesso pass@8 de 99% em um conjunto de tarefas desafiadoras de manipulação que exigem contato e destreza no mundo real :
O artigo observa que a métrica pass@8 mede a capacidade emergente de tentar novamente e se recuperar dentro de um único rollout de longo horizonte (até 8 tentativas no contexto, condicionadas a falhas anteriores), e não uma amostragem de melhor de 8 tentativas independentes .
O artigo introduz duas novas métricas: Utilização Média do Robô (Mean Robot Utilization - MRU) e Utilização Média de Tokens (Mean Token Utilization - MTU) para medir a eficiência da pesquisa física com múltiplos agentes .
O sistema é intensivo em tokens. Os agentes leem artigos, escrevem código, analisam logs e iteram — cada ciclo de melhoria consome uma quantidade significativa de tokens dos LLMs. A equipe deu aos agentes um "orçamento generoso de tokens" e os instruiu a não desperdiçar poder de processamento .
Todos os três agentes de codificação de ponta testados — Codex (com GPT-5.5), Claude Code (com Opus 4.7) e Kimi Code (com Kimi K2.6) — resolveram a tarefa Push-T em simulação. No entanto, nem todos transferiram o aprendizado limpo para o hardware real. O ENPIRE não elimina a lacuna entre simulação e realidade; ele dá aos agentes de IA uma maneira de descobrir e se adaptar a essa lacuna por meio de tentativas físicas repetidas . Isso é reconhecido abertamente no artigo como uma limitação central
.
O artigo inclui uma seção de "Limitações e Direções Futuras" observando que o ENPIRE ainda requer a configuração inicial do ambiente (hardware, pipeline de percepção), e que a abordagem é limitada pela qualidade e custo dos LLMs subjacentes dos agentes de codificação .
O ENPIRE se insere em uma estratégia muito mais ampla da NVIDIA para a IA Física — a inteligência artificial que entende e age no mundo físico.
O ENPIRE é, na prática, a camada de automação de pesquisa sobre essa infraestrutura — uma maneira de fechar o ciclo entre a simulação (Cosmos/Isaac), o hardware (frotas de robôs, fábricas de IA) e a melhoria autônoma de políticas, tudo impulsionado por agentes de codificação de ponta.
Comments
0 comments