EN — 環境模組(Environment module):自動將物理場景重置為隨機初始化狀態,並使用基於視覺的獎勵函數(例如分割模型和邊界框檢測器)來驗證任務是否完成。人類不必在每次試驗之間重置機器人 。
PI — 策略改進模組(Policy Improvement module):啟動策略優化,可以使用多種機制,例如啟發式學習、工具呼叫、行為複製、離線強化學習或線上強化學習。編碼代理會提出演算法假設並編寫程式碼 。
值得注意的是,該框架並未發明一個複雜的協調層,而是依賴工程師們熟悉的工具:Git。當某個代理站取得突破時,它會將改進後的策略程式碼提交(commit)到倉庫。其他站點則會拉取(pull)更新並在此基礎上繼續開發,從而實現無需中央協調的分散式、非同步改進 。
研究團隊部署了 八個 AI 編碼代理,配對八組機器人工作站,每個工作站配備雙六自由度機械手臂、Intel RealSense 深度攝影機,以及本地的 NVIDIA RTX 5090 GPU。團隊為這些代理分配了 GPU 算力與充裕的 token 預算,並給它們一個簡單的目標:儘快解決任務,保持機器人忙碌但確保安全,不要浪費寶貴的計算資源 。
論文引入了兩個新指標:平均機器人利用率(Mean Robot Utilization, MRU) 和 平均 Token 利用率(Mean Token Utilization, MTU),用以衡量多代理物理自動研究的效率 。
這是一個消耗大量 token 的系統。代理需要閱讀論文、編寫程式碼、分析日誌並反覆迭代,每個改進循環都會消耗大量大型語言模型(LLM)的 token。團隊為代理提供了「慷慨的 token 預算」,並指示它們不要浪費算力 。
所有三個被測試的先進編碼代理——Codex(搭配 GPT-5.5)、Claude Code(搭配 Opus 4.7)和 Kimi Code(搭配 Kimi K2.6)——都能在模擬環境中解決 Push-T 任務。然而,並非所有代理都能順利轉移到真實硬體上。ENPIRE 並未消除「模擬到現實的鴻溝」,而是讓 AI 代理能透過反覆的物理試驗來發現這個鴻溝並適應它 。論文坦誠地將此視為一個核心限制
。
ENPIRE 只是 NVIDIA 更大「物理 AI」策略中的一環。所謂物理 AI,指的是能理解並在物理世界中行動的 AI。
在此脈絡下,ENPIRE 不僅是一項研究成果,更是 NVIDIA 物理 AI 佈局中的「研究自動化層」,負責在模擬(Cosmos/Isaac)、硬體(機器人艦隊、AI 工廠)與自主策略改進之間閉合循環,全部由最先進的編碼代理驅動。
Comments
0 comments