Seni bina ENPIRE adalah gelung tertutup yang terdiri daripada empat modul, setiap satu mengendalikan bahagian penting dalam proses penyelidikan fizikal :
EN — Modul Persekitaran: Secara automatik menetapkan semula senario fizikal ke keadaan awal yang rawak dan mengesahkan penyiapan tugas menggunakan fungsi ganjaran berasaskan penglihatan (contohnya, model segmentasi dan pengesan kotak sempadan). Tiada manusia perlu menetapkan semula robot antara percubaan .
PI — Modul Penambahbaikan Polisi: Melancarkan penambahbaikan polisi menggunakan mana-mana daripada beberapa rejim – pembelajaran heuristik, panggilan alat, klon tingkah laku, pembelajaran pengukuhan luar talian, atau RL dalam talian. Ejen pengekodan mencadangkan hipotesis algoritma dan menulis kod .
R — Modul Pelaksanaan: Menilai polisi calon pada satu atau berbilang robot fizikal yang beroperasi secara selari. Ia menyimpan data keadaan, tindakan, video, dan hasil untuk tujuan audit .
E — Modul Evolusi: Ejen pengekodan menganalisis log, merujuk literatur penyelidikan, membandingkan cabang, dan mengubah suai kod infrastruktur latihan dan algoritma untuk menangani mod kegagalan. Resipi yang berjaya digunakan semula; hipotesis yang gagal dipangkas .
Daripada mencipta lapisan orkestrasi yang eksotik, rangka kerja ini bergantung pada alat yang biasa untuk kerjasama teragih: Git. Apabila satu stesen ejen mencapai kejayaan, ia melakukan komit kod polisi yang lebih baik. Stesen lain menarik kemas kini dan membina di atasnya, membolehkan penambahbaikan teragih dan tak segerak tanpa penyelarasan berpusat .
Pasukan menggunakan lapan ejen pengekodan AI yang dipasangkan dengan lapan stesen kerja robotik, setiap satu dilengkapi dengan dua lengan mekanikal enam darjah kebebasan, kamera kedalaman Intel RealSense, dan GPU NVIDIA RTX 5090 tempatan. Dengan peruntukan GPU dan belanjawan token yang murah hati, mereka dibebaskan dengan matlamat mudah: selesaikan tugas secepat mungkin, pastikan robot sibuk tetapi selamat, jangan bazirkan pengiraan berharga .
Ejen berkuasa ENPIRE mencapai kadar kejayaan 99% pass@8 pada pelbagai tugas manipulasi dexterous yang mencabar dan kaya dengan sentuhan di dunia nyata :
Perlu diingat bahawa pass@8 mengukur percubaan semula dan pemulihan yang muncul dalam satu pelaksanaan ufuk panjang (sehingga 8 percubaan semula dalam konteks berdasarkan kegagalan sebelumnya), bukan sampel i.i.d. terbaik daripada 8 .
Kertas kerja memperkenalkan dua metrik baharu: Purata Penggunaan Robot (MRU) dan Purata Penggunaan Token (MTU) untuk mengukur kecekapan penyelidikan auto fizikal pelbagai ejen .
Sistem ini intensif token. Ejen membaca kertas, menulis kod, menganalisis log, dan lelaran – setiap kitaran penambahbaikan menggunakan token LLM yang ketara. Pasukan memberi ejen "belanjawan token yang murah hati" dan mengarahkan mereka untuk tidak membazirkan pengiraan .
Ketiga-tiga ejen pengekodan termaju yang diuji – Codex (dengan GPT-5.5), Claude Code (dengan Opus 4.7), dan Kimi Code (dengan Kimi K2.6) – menyelesaikan Push-T dalam simulasi. Walau bagaimanapun, tidak semuanya berjaya dipindahkan ke perkakasan sebenar. ENPIRE tidak menghapuskan jurang sim-ke-realiti; ia memberi ejen AI cara untuk menemui dan menyesuaikan diri dengan jurang itu melalui percubaan fizikal berulang . Ini diakui secara terbuka dalam kertas kerja sebagai had utama
.
Kertas kerja ini menyertakan bahagian "Had & Hala Tuju Masa Depan" yang menyatakan bahawa ENPIRE masih memerlukan persediaan persekitaran awal (perkakasan, saluran paip persepsi), dan pendekatan ini dihadkan oleh kualiti dan kos LLM ejen pengekodan asas .
ENPIRE terletak dalam strategi Physical AI NVIDIA yang lebih luas – AI yang memahami dan bertindak di dunia fizikal.
ENPIRE adalah, sebenarnya, lapisan automasi penyelidikan di atas infrastruktur ini – satu cara untuk menutup gelung antara simulasi (Cosmos/Isaac), perkakasan (armada robot, kilang AI), dan penambahbaikan polisi autonomi, semuanya dipacu oleh ejen pengekodan termaju.
Comments
0 comments