EN — 환경 모듈: 물리적 장면을 무작위 초기 상태로 자동 리셋하고, 비전 기반 보상 함수(세그멘테이션 모델, 경계 상자 검출기 등)를 통해 작업 완료 여부를 검증합니다. 인간이 시행 사이사이에 로봇을 리셋할 필요가 없습니다 .
PI — 정책 개선 모듈: 휴리스틱 학습, 도구 호출, 행동 클로닝, 오프라인 강화학습, 온라인 강화학습 등 여러 방식으로 정책 개선을 시작합니다. 코딩 에이전트가 알고리즘 가설을 제안하고 코드를 작성합니다 .
E — 진화 모듈: 코딩 에이전트가 로그를 분석하고, 연구 문헌을 참고하고, 서로 다른 브랜치(branch)를 비교하고, 훈련 인프라와 알고리즘 코드를 수정하여 실패 모드를 해결합니다. 성공한 레시피는 재사용하고, 실패 가설은 가지치기합니다 .
흥미롭게도, 연구팀은 특별한 오케스트레이션 계층을 새로 만들지 않고 **깃(Git)**이라는 개발자에게 익숙한 도구를 사용했습니다. 한 에이전트 스테이션이 돌파구를 찾으면 개선된 정책 코드를 커밋합니다. 다른 스테이션은 해당 업데이트를 풀(pull)하여 그 위에 구축합니다. 이를 통해 중앙 집중식 조정 없이도 분산·비동기적인 개선이 가능해집니다 .
연구팀은 8개의 AI 코딩 에이전트와 8대의 로봇 워크스테이션을 배치했습니다. 각 워크스테이션은 6자유도(6-DOF) 듀얼 암(dual arm), Intel RealSense 깊이 카메라, 로컬 NVIDIA RTX 5090 GPU로 구성됐습니다. GPU 할당과 충분한 토큰 예산이 주어졌고, 에이전트들은 "가능한 한 빨리 작업을 해결하고, 로봇을 바쁘게 유지하되 안전을 지키고, 소중한 컴퓨팅 자원을 낭비하지 말라"는 단순한 목표 아래 자유롭게 풀려났습니다 . 그리고 인간은 그 뒤로 물러섰습니다.
ENPIRE는 까다로운 접촉 기반 정밀 조작 작업(contact-rich dexterous manipulation tasks)에서 pass@8 기준 99%의 성공률을 기록했습니다 :
여기서 pass@8은 8회의 독립 시도 중 최고 성과가 아니라, **단일 장기 롤아웃(long-horizon rollout) 내에서 최대 8회의 맥락적 재시도(emergent retry and recovery)**를 측정한 값입니다 .
연구팀은 다중 에이전트 물리적 오토리서치의 효율을 측정하기 위해 **평균 로봇 활용률(Mean Robot Utilization, MRU)**과 **평균 토큰 활용률(Mean Token Utilization, MTU)**이라는 새로운 지표를 도입했습니다 .
ENPIRE 시스템은 토큰 집약적입니다. 에이전트는 연구 논문을 읽고, 코드를 작성하고, 로그를 분석하고, 반복 개선합니다. 각 개선 사이클마다 상당한 양의 LLM 토큰이 소모됩니다. 연구팀은 에이전트에게 "넉넉한 토큰 예산"을 주고 컴퓨팅 자원을 낭비하지 말라고 지시했다고 밝혔습니다 .
논문에 따르면, 플리트 규모가 커질수록 총 토큰 소비는 **초선형(super-linear)**으로 증가했습니다. 그 이유는 각 에이전트가 자신의 실험을 수행할 뿐만 아니라 다른 에이전트의 연구 진행 상황을 지속적으로 읽고 이해해야 하기 때문입니다. 즉, 더 짧은 연구 시간을 더 높은 컴퓨팅 비용으로 교환한 셈입니다 .
테스트된 세 가지 최첨단 코딩 에이전트 — Codex (GPT-5.5 기반), Claude Code (Opus 4.7 기반), Kimi Code (Kimi K2.6 기반) — 모두 시뮬레이션 환경에서 Push-T 작업을 성공적으로 해결했습니다. 그러나 모든 에이전트가 실제 하드웨어로 깔끔하게 전이되지는 않았습니다. ENPIRE은 시뮬레이션-실제 격차를 없애는 것이 아니라, AI 에이전트가 반복적인 물리적 시행을 통해 그 격차를 발견하고 적응할 수 있는 방법을 제공합니다 . 연구팀은 논문에서 이를 주요 한계점으로 솔직하게 인정했습니다
.
논문의 '한계 및 향후 방향(Limitations & Future Directions)' 섹션에서는 ENPIRE이 여전히 초기 환경 설정(하드웨어, 인식 파이프라인 등)을 필요로 하며, 접근 방식의 성능이 기반이 되는 코딩 에이전트 LLM의 품질과 비용에 의해 제한된다고 밝히고 있습니다 .
ENPIRE은 엔비디아가 추진하는 거대한 피지컬 AI(Physical AI) 전략의 일부입니다. 피지컬 AI는 물리적 세계를 이해하고 그 안에서 행동하는 AI를 의미합니다.
ENPIRE은 이러한 인프라 위에서 연구 자동화 계층(research automation layer) 역할을 합니다. 시뮬레이션(Cosmos/Isaac), 실제 하드웨어(로봇 플리트, AI 팩토리), 자율적 정책 개선 사이의 루프를 닫아주는 시스템인 셈입니다. 엔비디아 GEAR 연구소의 공동 책임자 짐 판(Jim Fan)은 로봇이 밤새 멈추지 않고 스스로 개선하며, 연구자는 아침에 훈련 리포트만 확인하면 된다고 설명했습니다 . 엔비디아는 이 기술을 오픈소스로 공개할 계획이며, 관심 있는 기술 애호가들이 집에서도 자동 로봇 연구소를 운영할 수 있게 될 것이라고 밝혔습니다
.
Comments
0 comments