Arsitektur ENPIRE adalah loop tertutup yang terdiri dari empat modul, masing-masing menangani bagian penting dari proses penelitian fisik :
EN — Modul Lingkungan (Environment): Secara otomatis mengatur ulang skenario fisik ke keadaan awal yang acak dan memverifikasi penyelesaian tugas menggunakan fungsi reward berbasis visi (misalnya, model segmentasi dan detektor kotak pembatas). Tidak ada manusia yang mengatur ulang robot di antara percobaan .
PI — Modul Peningkatan Kebijakan (Policy Improvement): Meluncurkan penyempurnaan kebijakan menggunakan berbagai rezim—pembelajaran heuristik, pemanggilan alat, cloning perilaku, reinforcement learning offline, atau RL online. Agen coding mengajukan hipotesis algoritmik dan menulis kode .
R — Modul Rollout: Mengevaluasi kebijakan kandidat pada satu atau beberapa robot fisik yang beroperasi secara paralel. Modul ini menyimpan data status, aksi, video, dan hasil untuk audit .
E — Modul Evolusi (Evolution): Agen coding menganalisis log, berkonsultasi dengan literatur penelitian, membandingkan cabang, dan memodifikasi infrastruktur pelatihan serta kode algoritma untuk mengatasi mode kegagalan. Resep yang berhasil digunakan kembali; hipotesis yang gagal dipangkas .
Alih-alih menciptakan lapisan orkestrasi yang eksotis, framework ini mengandalkan alat yang sudah dikenal untuk kolaborasi terdistribusi: Git. Ketika satu stasiun agen mencapai terobosan, ia melakukan commit kode kebijakan yang lebih baik. Stasiun lain menarik pembaruan dan mengembangkannya, memungkinkan peningkatan terdistribusi dan asinkron tanpa koordinasi terpusat .
Tim menempatkan delapan agen AI coding yang dipasangkan dengan delapan stasiun kerja robot, masing-masing dilengkapi dengan lengan mekanis dual enam-derajat-kebebasan, kamera kedalaman Intel RealSense, dan GPU NVIDIA RTX 5090 lokal. Dengan alokasi GPU dan anggaran token yang besar, agen-agen ini dibiarkan bekerja dengan tujuan sederhana: menyelesaikan tugas secepat mungkin, menjaga robot tetap sibuk tetapi aman, dan tidak membuang-buang sumber daya komputasi .
Agen yang didukung ENPIRE mencapai tingkat keberhasilan pass@8 sebesar 99% pada serangkaian tugas manipulasi dexterous yang menantang dan kaya kontak di dunia nyata :
Penting untuk dicatat bahwa pass@8 mengukur percobaan ulang dan pemulihan yang muncul dalam satu rollout cakrawala panjang (hingga 8 kali percobaan ulang dalam konteks yang dikondisikan pada kegagalan sebelumnya), bukan sampel i.i.d. terbaik dari 8 .
Makalah ini memperkenalkan dua metrik baru: Mean Robot Utilization (MRU) dan Mean Token Utilization (MTU) untuk mengukur efisiensi penelitian fisik multi-agen .
Sistem ini sangat boros token. Agen membaca makalah, menulis kode, menganalisis log, dan melakukan iterasi—setiap siklus peningkatan menghabiskan token LLM yang signifikan. Tim memberi agen "anggaran token yang besar" dan menginstruksikan mereka untuk tidak membuang-buang komputasi .
Ketiga agen coding mutakhir yang diuji—Codex (dengan GPT-5.5), Claude Code (dengan Opus 4.7), dan Kimi Code (dengan Kimi K2.6)—berhasil menyelesaikan Push-T di simulasi. Namun, tidak semuanya bertransfer dengan mulus ke perangkat keras nyata. ENPIRE tidak menghilangkan kesenjangan sim-to-real; ia memberi agen AI cara untuk menemukan kesenjangan itu melalui uji coba fisik berulang dan kemudian beradaptasi di sekitarnya . Ini diakui secara jujur dalam makalah sebagai keterbatasan utama
.
Makalah ini menyertakan bagian "Keterbatasan & Arah Masa Depan" yang mencatat bahwa ENPIRE masih memerlukan pengaturan awal lingkungan (perangkat keras, pipeline persepsi), dan bahwa pendekatan ini dibatasi oleh kualitas dan biaya LLM agen coding yang mendasarinya .
ENPIRE berada dalam strategi Physical AI NVIDIA yang jauh lebih luas—AI yang memahami dan bertindak di dunia fisik.
ENPIRE, pada dasarnya, adalah lapisan otomatisasi penelitian di atas infrastruktur ini—sebuah cara untuk menutup loop antara simulasi (Cosmos/Isaac), perangkat keras (armada robot, pabrik AI), dan peningkatan kebijakan otonom, semuanya digerakkan oleh agen coding mutakhir.
Comments
0 comments