Architektura ENPIRE to zamknięta pętla złożona z czterech modułów, z których każdy odpowiada za kluczową część procesu badawczego :
EN – moduł środowiska (Environment): Automatycznie resetuje fizyczną scenę do losowego stanu początkowego i weryfikuje wykonanie zadania za pomocą wizyjnych funkcji nagrody (np. modeli segmentacji i detektorów ramek ograniczających). Żaden człowiek nie musi resetować robota między próbami .
PI – moduł udoskonalania polityki (Policy Improvement): Uruchamia udoskonalanie polityki za pomocą różnych reżimów – uczenia heurystycznego, wywoływania narzędzi, klonowania zachowań, uczenia przez wzmacnianie offline lub online. Agent kodujący proponuje hipotezy algorytmiczne i pisze kod .
R – moduł testowania (Rollout): Ocenia kandydacką politykę na jednym lub wielu fizycznych robotach działających równolegle. Zachowuje dane o stanie, akcjach, nagraniach wideo i wynikach do audytu .
E – moduł ewolucji (Evolution): Agenty kodujące analizują logi, sięgają do literatury naukowej, porównują gałęzie i modyfikują kod infrastruktury szkoleniowej oraz algorytmów, aby rozwiązać problemy. Udane rozwiązania są ponownie wykorzystywane, a hipotezy kończące się niepowodzeniem są odrzucane .
Zamiast wymyślać egzotyczną warstwę orkiestracji, framework opiera się na narzędziu dobrze znanym w rozproszonej współpracy: Git. Gdy jedna stacja agenta osiąga przełom, zatwierdza ulepszony kod polityki. Inne stacje pobierają aktualizację i budują na niej, umożliwiając rozproszone, asynchroniczne doskonalenie bez centralnej koordynacji .
Zespół wdrożył osiem agentów kodujących sparowanych z ośmioma stanowiskami robotycznymi, każde wyposażone w podwójne ramiona mechaniczne o sześciu stopniach swobody, kamery głębi Intel RealSense i lokalne GPU NVIDIA RTX 5090. Otrzymały przydział GPU i hojny budżet tokenów, a następnie zostały wypuszczone z prostym celem: rozwiązać zadanie tak szybko i bezpiecznie, jak to możliwe .
Warto zauważyć, że pass@8 mierzy wyłaniające się ponawianie prób i odzyskiwanie w ramach jednego długiego horyzontu (do 8 prób w kontekście, warunkowanych wcześniejszymi niepowodzeniami), a nie najlepszą z 8 niezależnych próbek .
Gdy zespół zwiększył liczbę robotów z 1 do 8, czas potrzebny na opanowanie zadania wkładania szpilek skrócił się z ponad 1,5 godziny do około 40 minut . Jednak zużycie tokenów rosło szybciej niż oszczędność czasu – każdy agent nie tylko prowadzi własne eksperymenty, ale także na bieżąco analizuje postępy innych
.
Wszystkie trzy testowane agenty kodujące – Codex (z GPT-5.5), Claude Code (z Opus 4.7) i Kimi Code (z Kimi K2.6) – rozwiązały zadanie Push-T w symulacji. Jednak nie wszystkie przeniosły się bezproblemowo na rzeczywisty sprzęt. ENPIRE nie znosi luki między symulacją a rzeczywistością; daje agendom AI możliwość odkrycia tej luki poprzez powtarzane próby fizyczne i dostosowania się do niej .
ENPIRE wpisuje się w szeroką strategię NVIDII dotyczącą Physical AI – sztucznej inteligencji rozumiejącej i działającej w świecie fizycznym. Platforma modeli świata Cosmos, symulacje Isaac oraz partnerstwa z Hyundaiem (fabryka AI z 50 000 procesorów Blackwell) i Foxconnem tworzą infrastrukturę, w której ENPIRE działa jako warstwa automatyzacji badań – zamykając pętlę między symulacją, sprzętem i autonomicznym doskonaleniem polityk .
Zespół zapowiedział również, że planuje udostępnić ENPIRE jako open source, co może umożliwić entuzjastom i mniejszym laboratoriom tworzenie własnych, automatycznych laboratoriów robotycznych .
Comments
0 comments