ENPIRE'ın mimarisi, her biri fiziksel araştırma sürecinin kritik bir bölümünü yöneten dört modülden oluşan kapalı bir döngüdür :
EN — Ortam Modülü: Fiziksel sahneyi otomatik olarak rastgele bir başlangıç durumuna sıfırlar ve görüntü tabanlı ödül fonksiyonları (örneğin segmentasyon modelleri ve sınırlayıcı kutu dedektörleri) kullanarak görev tamamlanmasını doğrular. Denemeler arasında hiçbir insan robotu sıfırlamaz .
PI — Politika İyileştirme Modülü: Sezgisel öğrenme, araç çağırma, davranış klonlama, çevrimdışı pekiştirmeli öğrenme veya çevrimiçi RL gibi çeşitli rejimlerden herhangi birini kullanarak politika iyileştirmesini başlatır. Kodlama ajanı algoritmik hipotezler önerir ve kodu yazar .
R — Deneme Modülü: Aday politikayı paralel olarak çalışan tek veya birden fazla fiziksel robot üzerinde değerlendirir. Denetim için durum, eylem, video ve sonuç verilerini saklar .
E — Evrim Modülü: Kodlama ajanları günlükleri analiz eder, araştırma literatürüne danışır, dalları karşılaştırır ve başarısızlık modlarını gidermek için eğitim altyapısını ve algoritma kodunu değiştirir. Başarılı tarifler yeniden kullanılır; başarısız hipotezler budanır .
Egzotik bir orkestrasyon katmanı icat etmek yerine çerçeve, dağıtık iş birliği için tanıdık bir araca güvenir: Git. Bir ajan istasyonu bir atılım gerçekleştirdiğinde, iyileştirilmiş politika kodunu kaydeder. Diğer istasyonlar güncellemeyi çeker ve üzerine inşa eder, böylece merkezi bir orkestrasyon olmadan dağıtık ve asenkron iyileştirme sağlanır .
Ekip, her biri çift altı serbestlik dereceli mekanik kollar, Intel RealSense derinlik kameraları ve yerel NVIDIA RTX 5090 GPU'lar ile donatılmış sekiz robotik iş istasyonuyla eşleştirilmiş sekiz yapay zeka kodlama ajanı konuşlandırdı. Bir GPU ve token bütçesi tahsisi verilen ajanlar, görevleri mümkün olduğunca hızlı ve güvenli bir şekilde çözmek hedefiyle serbest bırakıldı .
ENPIRE destekli ajanlar, gerçek dünyadaki zorlu, yüksek temaslı hassas manipülasyon görevlerinde %99 pass@8 başarı oranına ulaştı :
Makale, pass@8'in bağımsız en iyi-8 örneği değil, tek bir uzun vadeli deneme içinde acil yeniden deneme ve kurtarma (önceki başarısızlıklara bağlı olarak bağlam içinde 8'e kadar yeniden deneme) ölçtüğünü not eder .
Makale, çoklu ajan fiziksel otomatik araştırmanın verimliliğini ölçmek için iki yeni metrik sunar: Ortalama Robot Kullanımı (MRU) ve Ortalama Token Kullanımı (MTU) .
Sistem token yoğundur. Ajanlar makaleler okur, kod yazar, günlükleri analiz eder ve yineler - her iyileştirme döngüsü önemli miktarda LLM tokeni tüketir. Ekip, ajanlara "cömert bir token bütçesi" verdi ve hesaplamayı boşa harcamamalarını talimatladı .
Test edilen üç öncü kodlama ajanının tümü - Codex (GPT-5.5 ile), Claude Code (Opus 4.7 ile) ve Kimi Code (Kimi K2.6 ile) - Push-T'yi simülasyonda çözdü. Ancak, hepsi gerçek donanıma temiz bir şekilde aktarılamadı. ENPIRE, simülasyondan gerçeğe geçiş boşluğunu (sim-to-real gap) ortadan kaldırmaz; yapay zeka ajanlarına bu boşluğu tekrarlanan fiziksel denemeler yoluyla keşfetme ve ardından uyum sağlama yolu verir . Bu, makalede dürüstçe temel bir sınırlama olarak kabul edilir
.
Makale, ENPIRE'ın hala ilk ortam kurulumunu (donanım, algılama hattı) gerektirdiğini ve yaklaşımın temel kodlama ajanı LLM'lerinin kalitesi ve maliyeti ile sınırlı olduğunu belirten bir "Sınırlamalar ve Gelecek Yönelimler" bölümü içerir .
ENPIRE, NVIDIA'nın Fiziksel Yapay Zeka (Physical AI) stratejisinin çok daha geniş bir parçasıdır - fiziksel dünyayı anlayan ve içinde hareket eden yapay zeka.
ENPIRE, bu altyapının üzerindeki araştırma otomasyon katmanıdır - simülasyon (Cosmos/Isaac), donanım (robot filoları, yapay zeka fabrikaları) ve öncü kodlama ajanları tarafından yönlendirilen otonom politika iyileştirme arasındaki döngüyü kapatmanın bir yolu.
Comments
0 comments