Donanımlar arası esnekliğinin anahtarı, makineler için evrensel bir "beden dili" gibi işlev gören 80 boyutlu birleşik bir eylem temsilinde yatmaktadır . Eylem talimatlarını standartlaştırarak ve hareketleri mutlak koordinatlar yerine bir kamera çerçevesine göre hesaplayarak, RobotManip yeni bir donanıma minimum ayarla hızla uyum sağlayabilir – tıpkı deneyimli bir sürücünün alışık olmadığı bir arabaya uyum sağlaması gibi
.
Bu beceri, önemli miktarda veriyle destekleniyor. Model, 38.100 saatten fazla açık kaynaklı robot ve insan gösterim videosu üzerinde önceden eğitildi ve 15 robot morfolojisini kapsıyor . Bu büyük ölçekli, birleşik eğitim, bir robot modeli farklı fiziksel platformlar arasında taşındığında ortaya çıkan performans düşüşleri sorununu çözmeyi amaçlıyor
. Referans testlerinde, modelin sürümleri görev başarı oranlarında ilk iki sırayı alarak, çift kolla patates kızartması çevirme gibi karmaşık işlerin üstesinden geldi
.
Qwen-RobotNav, Qwen3-VL ailesi üzerine inşa edilmiş ve 2B, 4B ve 8B parametre boyutlarında sunulan bir Görü-Dil-Navigasyon (Vision-Language-Navigation - VLN) modelidir . Mobil fiziksel ajanlar için eylem geçidi olup, robotlara mekânsal zekâ ve otonom hareketlilik kazandırmakla görevlidir
.
Qwen-RobotNav'ı farklı kılan şey, model değiştirmeden beş farklı navigasyon görevini tek bir çerçeve altında birleştirmesidir. Bunlar arasında talimat takibi, nokta hedefli navigasyon, nesne hedefli navigasyon, hedef takibi ve otonom sürüş bulunur . Model, kontrol edilebilir bir gözlem kodlama protokolü ve bir araç arayüzü kullanır, bu da görü-dil anlayışını doğrudan hareket kontrolüne bağlamasını sağlar
. Pratikte bu, bir robotun "koridorun sonundaki toplantı odasını bul" gibi sözlü bir komutu yorumlarken, dinamik olarak görsel çevresini işleyerek önceden oluşturulmuş bir harita olmadan bilinmeyen alanlarda gezinebilmesi anlamına gelir
.
Paketin üçüncü ve belki de en ileriye dönük parçası, dondurulmuş bir Qwen2.5-VL kodlayıcıya sahip 60 katmanlı bir Çok Modlu Difüzyon Transformatörüne (MMDiT) dayanan dil koşullu video dünya modelidir .
Qwen-RobotWorld sadece bir sahneyi tanımakla kalmaz; bir sahnenin nasıl değişeceğini tahmin eder. Doğal dili birleşik bir eylem arayüzü olarak kullanarak, robotun mevcut gözleminden fiziksel olarak temellendirilmiş gelecekteki görsel yörüngeleri üretir . Bu tahmin, robotik manipülasyon, otonom sürüş, iç mekan navigasyonu ve hatta insan aktivitesi senaryolarında çalışır. Model, 8,6 milyondan fazla çapraz sahne eğitim çifti üzerinde eğitildi ve 20'den fazla robot morfolojisinde 1.300'den fazla manipülasyon becerisini simüle edebilir
.
Bu dünya modelinin anında pratik bir değeri vardır: somut zekâdaki kronik veri kıtlığını hafifletmek için sentetik video verileri üretebilir ve bir robot gerçek dünyada bir eylemi gerçekleştirmeden önce sonuçlarını simüle ederek hassasiyeti ve güvenliği artırabilir .
Qwen-Robot Paketi'nin kritik bir tasarım ilkesi, dağıtım esnekliğidir. Modeller, örneğin bir depo teslimat aracında yalnızca Qwen-RobotNav'ı kullanmak gibi tekil işlevler için bağımsız olarak çalıştırılabilir veya bir tam yığına entegre edilebilir. Birlikte çalıştıklarında, üç model algı (RobotNav ve RobotManip) ve tahminin (RobotWorld) birbirini güçlendirdiği kapalı döngü bir sistem oluşturarak bir robotun aynı anda "yürümesini, görmesini ve düşünmesini" sağlar .
Bu tam yığın yaklaşımı, karmaşık görev ayrıştırmasını yöneten amiral gemisi Qwen3.7-Max ajan modeli de dahil olmak üzere Alibaba'nın daha geniş model ekosistemiyle sıkı bir şekilde entegre edilmiştir . Paketin açık kaynaklı verilere ve kamuya açık model sürümlerine olan temel bağımlılığı da, Alibaba'nın büyük ölçekli geliştirici benimseme stratejisine tam olarak uymaktadır
.
Qwen-Robot'un piyasaya sürülmesi ani bir deney değil. Yalnızca dijital yapay zekadan fiziksel alana doğru metodik, çok yıllı bir yürüyüşün doruk noktasını temsil ediyor.
Ekim 2025'te, Qwen'in teknoloji lideri Justin Lin, özel bir şirket içi robotik ve somut zekâ ekibi kurulduğunu kamuoyuna duyurdu. Bunu, yapay zeka ajanları için bir sonraki mantıklı adım olarak çerçevelendirdi ve çok modlu modellerin "kesinlikle sanal dünyadan fiziksel dünyaya adım atması gerektiğini" belirtti . Sadece birkaç ay sonra, Şubat 2026'da Alibaba, otonom, karmaşık çok adımlı görevleri yerine getirebilen "ajansal yapay zekâ çağı" için bir model olarak açıkça pazarlanan Qwen 3.5'i piyasaya sürdü
. Bu dil ve akıl yürütme gücü, Haziran ayında piyasaya sürülen robot modellerinin bilişsel omurgası haline geldi
.
Alibaba, şirket içi geliştirmenin yanı sıra stratejik dış hamleler de yaptı. Bulut bilişim birimi, 2025 yılında Çinli robotik girişimi X Square Robot için 140 milyon dolarlık bir finansman turuna liderlik etti . Bu çok yönlü strateji—şirket içi Ar-Ge, açık kaynaklı bir model ekosistemi ve girişim yatırımı—Qwen-Robot Paketi'ni, yeni nesil fiziksel, zeki makineler için kapsamlı bir "yapay zeka fabrikası" olma yönündeki daha büyük bir hedefin parçası olarak konumlandırıyor
.
Alibaba'nın somut zekâya girişi, onu güçlü bir simülasyon ve bilgi işlem yığını sağlayan Nvidia ve sayıları giderek artan ABD merkezli somut zekâ girişimleri gibi şirketlerle doğrudan rekabete sokuyor. Sağlanan kaynaklar bu rakiplere karşı doğrudan bir performans karşılaştırması sunmasa da, Qwen-Robot Paketi entegrasyon ve erişilebilirliğe dayalı belirgin bir değer önerisi sunuyor .
Paket, minimum uyarlama ile üçüncü taraf donanımlara dağıtılmak üzere tasarlanmış açık, modüler bir temeldir. Bu, özel mülkiyete dayalı, dikey olarak entegre bir yığınla tezat oluşturarak, Alibaba'yı bir dizi robot üreticisi için tarafsız bir model tedarikçisi olarak konumlandırıyor. Şirketin en büyük varlığı, kümülatif olarak 600 milyondan fazla indirilen yüzlerce açık kaynaklı model üretmiş ve artık robot temelleri üzerine inşa edebilecek devasa bir geliştirici topluluğu yaratmış olan mevcut, büyük ölçekli Qwen ekosistemidir .
Ancak, önemli bir belirsizlik seviyesi devam ediyor. Paket yalnızca Haziran 2026'da duyuruldu ve mevcut belgeler büyük ölçekli ticari dağıtım metriklerinden veya uzun vadeli güvenilirlik verilerinden yoksun. Bu modellerin, gerçekten yapılandırılmamış, uzun vadeli endüstriyel görevlerin değişkenliği altında nasıl performans göstereceği henüz bilinmiyor. Alibaba'nın fiziksel yapay zekâ hedefi için asıl sınav, bu modellerin kullanılabilirliğinin genel olarak robotik endüstrisi tarafından yaygın bir şekilde benimsenmeye dönüşüp dönüşmeyeceği olacak.
Comments
0 comments