Kiến trúc của ENPIRE là một vòng lặp khép kín bao gồm bốn mô-đun, mỗi mô-đun xử lý một phần quan trọng của quy trình nghiên cứu vật lý:
EN — Mô-đun Môi trường (Environment): Tự động thiết lập lại hiện trường vật lý về trạng thái ban đầu ngẫu nhiên và xác minh việc hoàn thành nhiệm vụ bằng các hàm phần thưởng dựa trên thị giác (ví dụ: mô hình phân đoạn và bộ phát hiện hộp giới hạn). Không cần con người thiết lập lại robot giữa các lần thử nghiệm.
PI — Mô-đun Cải thiện Chính sách (Policy Improvement): Khởi chạy quá trình cải tiến chính sách bằng cách sử dụng bất kỳ phương pháp nào—học heuristic, gọi công cụ, sao chép hành vi, học tăng cường ngoại tuyến hoặc học tăng cường trực tuyến. Tác tử lập trình đề xuất các giả thuyết thuật toán và viết mã nguồn.
R — Mô-đun Triển khai (Rollout): Đánh giá chính sách ứng viên trên một hoặc nhiều robot vật lý hoạt động song song. Nó lưu trữ dữ liệu về trạng thái, hành động, video và kết quả để kiểm toán.
E — Mô-đun Tiến hóa (Evolution): Các tác tử lập trình phân tích nhật ký, tham khảo tài liệu nghiên cứu, so sánh các nhánh và sửa đổi mã nguồn cơ sở hạ tầng huấn luyện và thuật toán để giải quyết các chế độ thất bại. Các công thức thành công được tái sử dụng; các giả thuyết thất bại bị loại bỏ.
Thay vì phát minh ra một lớp điều phối phức tạp, khung nền tảng này dựa vào một công cụ quen thuộc cho cộng tác phân tán: Git. Khi một trạm tác tử đạt được một bước đột phá, nó sẽ commit mã nguồn chính sách đã cải tiến. Các trạm khác kéo bản cập nhật và xây dựng dựa trên nó, cho phép cải tiến phân tán, không đồng bộ mà không cần điều phối tập trung.
Nhóm nghiên cứu đã triển khai tám tác tử AI lập trình kết hợp với tám trạm làm việc robot, mỗi trạm được trang bị hai cánh tay cơ khí sáu bậc tự do, camera chiều sâu Intel RealSense và GPU NVIDIA RTX 5090 cục bộ. Với sự phân bổ GPU và ngân sách token hào phóng, nhóm đã thả lỏng các tác tử này với một mục tiêu đơn giản: giải quyết nhiệm vụ nhanh nhất có thể, giữ cho robot hoạt động nhưng an toàn và không lãng phí tài nguyên tính toán.
Các tác tử được hỗ trợ bởi ENPIRE đã đạt được tỷ lệ thành công 99% pass@8 trong một loạt các tác vụ thao tác khéo léo, đòi hỏi tiếp xúc nhiều trong thế giới thực:
Chỉ số pass@8 đo lường khả năng thử lại và phục hồi nổi bật trong một lần triển khai dài hạn (lên đến 8 lần thử lại trong ngữ cảnh dựa trên các thất bại trước đó), chứ không phải là kết quả tốt nhất trong 8 lần lấy mẫu độc lập.
Bài báo giới thiệu hai chỉ số mới: Mức Sử dụng Robot Trung bình (Mean Robot Utilization - MRU) và Mức Sử dụng Token Trung bình (Mean Token Utilization - MTU) để đo lường hiệu quả của nghiên cứu tự động vật lý đa tác tử. Khi nhóm nghiên cứu cung cấp 8 robot thay vì 1, thời gian cần thiết để thành thạo tác vụ cắm chân cắm đã giảm từ hơn 1,5 giờ xuống còn khoảng 40 phút
.
Hệ thống này tiêu tốn nhiều token. Các tác tử đọc tài liệu, viết mã, phân tích nhật ký và lặp lại—mỗi chu kỳ cải tiến tiêu thụ một lượng token đáng kể từ các mô hình ngôn ngữ lớn. Nhóm nghiên cứu đã cấp cho các tác tử một "ngân sách token hào phóng" và hướng dẫn chúng không lãng phí tài nguyên tính toán. Bài báo cho thấy tổng mức tiêu thụ token tăng siêu tuyến tính khi số lượng tác tử tăng lên, vì mỗi tác tử không chỉ làm thí nghiệm của riêng mình mà còn liên tục đọc và hiểu tiến trình của các tác tử khác
.
Cả ba tác tử lập trình tiên tiến được thử nghiệm—Codex (với GPT-5.5), Claude Code (với Opus 4.7) và Kimi Code (với Kimi K2.6)—đều giải quyết thành công tác vụ Push-T trong mô phỏng. Tuy nhiên, không phải tất cả đều chuyển giao thành công sang phần cứng thực tế. ENPIRE không loại bỏ khoảng cách giữa mô phỏng và thực tế (sim-to-real gap); nó cung cấp cho các tác tử AI một cách để khám phá và thích ứng với khoảng cách đó thông qua các thử nghiệm vật lý lặp đi lặp lại. Đây được thừa nhận một cách thẳng thắn trong bài báo như một hạn chế trung tâm
.
Bài báo bao gồm một phần "Hạn chế & Hướng phát triển trong tương lai" lưu ý rằng ENPIRE vẫn yêu cầu thiết lập môi trường ban đầu (phần cứng, đường ống nhận thức) và phương pháp này bị giới hạn bởi chất lượng và chi phí của các mô hình ngôn ngữ lớn nền tảng.
ENPIRE nằm trong một chiến lược rộng lớn hơn nhiều của NVIDIA về Physical AI—AI có thể hiểu và hành động trong thế giới vật lý. NVIDIA đã và đang xây dựng cơ sở hạ tầng cho kỷ nguyên robot thông qua các nền tảng như NVIDIA Cosmos (mô hình thế giới nền tảng), Isaac (khuôn khổ mô phỏng) và các quan hệ đối tác với các nhà sản xuất lớn như Hyundai và Foxconn, những người đã áp dụng NVIDIA Omniverse làm hệ điều hành Physical AI cho quá trình số hóa công nghiệp.
ENPIRE, do đó, có thể được xem là lớp tự động hóa nghiên cứu trên cơ sở hạ tầng này—một cách để đóng vòng lặp giữa mô phỏng (Cosmos/Isaac), phần cứng (đội robot, nhà máy AI) và cải tiến chính sách tự động, tất cả đều được điều khiển bởi các tác tử lập trình tiên tiến.
Comments
0 comments