สถาปัตยกรรมของ ENPIRE เป็นวงรอบปิดที่ประกอบด้วยสี่โมดูล แต่ละโมดูลจัดการส่วนสำคัญของกระบวนการวิจัย :
EN — โมดูล Environment (สภาพแวดล้อม): รีเซ็ตฉากทางกายภาพโดยอัตโนมัติให้เป็นสถานะเริ่มต้นแบบสุ่ม และตรวจสอบความสำเร็จของงานโดยใช้ฟังก์ชันการให้รางวัลที่ใช้วิทัศน์ (เช่น โมเดลการแบ่งส่วนภาพ และตัวตรวจจับขอบเขต) ไม่ต้องมีมนุษย์คอยรีเซ็ตหุ่นยนต์ระหว่างการทดลองอีกต่อไป
PI — โมดูล Policy Improvement (การปรับปรุงโพลิซี): เริ่มต้นการปรับปรุงโพลิซีโดยใช้หลายแนวทาง เช่น การเรียนรู้แบบฮิวริสติก การเรียกใช้เครื่องมือ การเลียนแบบพฤติกรรม การเรียนรู้แบบเสริมกำลังแบบออฟไลน์ หรือแบบออนไลน์ AI coding agent เป็นคนเสนอสมมติฐานอัลกอริทึมและเขียนโค้ด
R — โมดูล Rollout (การทดลอง): ประเมินโพลิซีตัวกลางบนหุ่นยนต์จริงหนึ่งตัวหรือหลายตัวที่ทำงานพร้อมกัน เก็บบันทึกสถานะ การกระทำ วิดีโอ และผลลัพธ์ไว้เพื่อตรวจสอบ
E — โมดูล Evolution (วิวัฒนาการ): AI coding agent วิเคราะห์บันทึก ศึกษาวรรณกรรมวิจัย เปรียบเทียบสาขา และปรับเปลี่ยนโค้ดโครงสร้างพื้นฐานการฝึกและอัลกอริทึมเพื่อแก้ไขจุดที่ล้มเหลว สูตรที่ประสบความสำเร็จจะถูกนำกลับมาใช้ใหม่ ส่วนสมมติฐานที่ล้มเหลวจะถูกตัดทิ้ง
แทนที่จะสร้างระบบสั่งการที่ซับซ้อน เฟรมเวิร์กนี้ใช้เครื่องมือที่คุ้นเคยสำหรับการทำงานร่วมกันแบบกระจายศูนย์: Git เมื่อสถานี agent หนึ่งประสบความสำเร็จ มันจะ commit โค้ดโพลิซีที่ปรับปรุงแล้ว สถานีอื่น ๆ จะดึงการอัปเดตนั้นและพัฒนาต่อ ทำให้เกิดการปรับปรุงแบบอะซิงโครนัสและกระจายศูนย์โดยไม่ต้องมีการสั่งการจากส่วนกลาง
ทีมวิจัยได้ส่ง AI coding agent 8 ตัว จับคู่กับสถานีหุ่นยนต์ 8 สถานี แต่ละสถานีติดตั้งแขนกลสองข้างแบบ 6 องศาอิสระ, กล้อง Intel RealSense และ GPU NVIDIA RTX 5090 โดยมีเป้าหมายง่าย ๆ คือ แก้ปัญหาให้เร็วที่สุด 100% และใช้ทรัพยากรการคำนวณอย่างคุ้มค่า
ENPIRE สามารถสร้างอัตราความสำเร็จ 99% pass@8 ในภารกิจที่ต้องใช้ความชำนาญสูงและสัมผัสกับวัตถุอย่างใกล้ชิด :
ทั้งนี้ pass@8 เป็นการวัดความสามารถในการลองใหม่และกู้คืนภายในรันเดียว ไม่ใช่การสุ่มตัวอย่างแบบอิสระ 8 ครั้ง
ระบบนี้กิน Token มากอย่างมหาศาล agent ต้องอ่านเอกสาร เขียนโค้ด วิเคราะห์บันทึก และวนซ้ำ — แต่ละรอบใช้ Token เป็นจำนวนมาก ทีมวิจัยต้องจัดสรร 'งบประมาณ Token' อย่างใจกว้าง
ในภารกิจ Push-T AI coding agent ทั้งสามตัวที่ทดสอบ — Codex (GPT-5.5), Claude Code (Opus 4.7) และ Kimi Code (Kimi K2.6) — ทำภารกิจสำเร็จในการจำลอง แต่ ไม่ใช่ทั้งหมดที่ถ่ายทอดไปยังฮาร์ดแวร์จริงได้สำเร็จ ENPIRE ไม่ได้ยกเลิกช่องว่างระหว่างการจำลองกับโลกจริง แต่ให้ AI agent ค้นพบและปรับตัวเข้ากับช่องว่างนั้นผ่านการทดลองทางกายภาพซ้ำ ๆ
ENPIRE ยังคงต้องพึ่งพาการตั้งค่าสภาพแวดล้อมเริ่มต้น (ฮาร์ดแวร์ ท่อส่งข้อมูลภาพ) และผลลัพธ์ยังจำกัดด้วยคุณภาพและต้นทุนของ LLM ที่เป็นตัวขับเคลื่อน agent
ENPIRE เป็นส่วนหนึ่งของกลยุทธ์ Physical AI ที่ใหญ่กว่าของ NVIDIA — AI ที่เข้าใจและลงมือทำในโลกทางกายภาพ:
ENPIRE ทำหน้าที่เป็นชั้นอัตโนมัติด้านการวิจัยที่เชื่อมต่อซิมูเลชัน (Cosmos/Isaac) กับฮาร์ดแวร์จริง ช่วยให้สามารถปิดวงรอบระหว่างการฝึกฝน การทดลอง และการปรับปรุงตนเอง โดยมี AI coding agent เป็นตัวขับเคลื่อน
Comments
0 comments