Kunci kepada fleksibiliti rentas perkakasannya terletak pada perwakilan tindakan bersatu 80 dimensi, yang berfungsi seperti "bahasa badan" universal untuk mesin . Dengan menyeragamkan arahan tindakan dan mengira pergerakan relatif kepada bingkai kamera, bukan koordinat mutlak, RobotManip boleh menyesuaikan diri dengan perkakasan baru dengan cepat dan penalaan minima—seperti pemandu berpengalaman yang menyesuaikan diri dengan kereta asing
.
Kecekapan ini disokong oleh data yang besar. Model ini dilatih dengan lebih 38,100 jam video demonstrasi robot dan manusia sumber terbuka dan meliputi 15 morfologi robot . Latihan bersatu berskala besar ini bertujuan menyelesaikan masalah penurunan prestasi yang kerap berlaku apabila model robot dipindahkan antara platform fizikal berbeza
. Dalam ujian penanda aras, versinya mencapai dua kedudukan teratas dalam kadar kejayaan tugas, mengendalikan tugasan rumit seperti membalikkan kentang goreng dengan dua lengan
.
Qwen-RobotNav adalah model Vision-Language-Navigation (VLN), dibina di atas keluarga Qwen3-VL dan tersedia dalam saiz parameter 2B, 4B, dan 8B . Ia adalah pintu masuk tindakan untuk ejen fizikal bergerak, ditugaskan memberi robot kecerdasan ruang dan mobiliti autonomi
.
Apa yang membezakan Qwen-RobotNav ialah penyatuannya terhadap lima tugas navigasi berbeza di bawah satu kerangka kerja tunggal tanpa perlu menukar model. Ini termasuk mengikut arahan, navigasi titik-ke-matlamat, navigasi objek-ke-matlamat, pengesanan sasaran, dan pemanduan autonomi . Model ini menggunakan protokol pengekodan pemerhatian boleh kawal dan antara muka alat, membolehkannya menyambung terus pemahaman bahasa visual dengan kawalan gerakan
. Secara praktikal, ini bermakna robot boleh mentafsir arahan lisan seperti "cari bilik mesyuarat di hujung lorong" sambil memproses persekitaran visualnya secara dinamik untuk menavigasi ruang asing tanpa peta pra-dibina
.
Bahagian ketiga dan mungkin paling berpandangan jauh dalam suite ini adalah model dunia video bersyarat bahasa, berdasarkan Multi-Modal Diffusion Transformer (MMDiT) 60 lapisan dengan pengekod Qwen2.5-VL yang dibekukan .
Qwen-RobotWorld tidak hanya mengecam satu babak; ia meramal bagaimana babak tersebut akan berubah. Dengan menggunakan bahasa seharian sebagai antara muka tindakan bersatu, ia menjana trajektori visual masa depan yang berlandaskan fizik daripada pemerhatian semasa robot . Ramalan ini merangkumi manipulasi robot, pemanduan autonomi, navigasi dalaman, dan juga senario aktiviti manusia. Model ini dilatih dengan lebih 8.6 juta pasangan latihan merentas babak dan boleh mensimulasi lebih 1,300 kemahiran manipulasi merentas 20+ morfologi robot
.
Model dunia ini mempunyai nilai praktikal segera: ia boleh menjana data video sintetik untuk mengurangkan kekurangan data kronik dalam AI terwujud, dan ia boleh mensimulasi akibat sesuatu tindakan sebelum robot melaksanakannya di dunia nyata, meningkatkan ketepatan dan keselamatan .
Prinsip reka bentuk kritikal Qwen-Robot Suite adalah fleksibiliti pelaksanaannya. Model-model ini boleh dijalankan secara berasingan untuk fungsi tunggal—contohnya, hanya menggunakan Qwen-RobotNav dalam kenderaan penghantaran gudang—atau diintegrasikan ke dalam timbunan penuh (full stack). Apabila bekerjasama, ketiga-tiga model membentuk sistem gelung tertutup di mana persepsi (RobotNav dan RobotManip) dan ramalan (RobotWorld) saling mengukuhkan, membolehkan robot "berjalan, melihat, dan berfikir" serentak .
Pendekatan timbunan penuh ini disepadukan rapat dengan ekosistem model Alibaba yang lebih luas, termasuk model ejen utama Qwen3.7-Max, yang mengendalikan penguraian tugas kompleks . Kebergantungan asas suite pada data sumber terbuka dan pelepasan model yang tersedia umum juga selaras dengan strategi Alibaba untuk penggunaan berskala besar oleh pembangun
.
Pelancaran Qwen-Robot bukanlah satu eksperimen mengejut. Ia mewakili kemuncak perjalanan metodikal selama bertahun-tahun dari AI digital semata-mata ke domain fizikal.
Pada Oktober 2025, ketua teknologi Qwen, Justin Lin, mengumumkan secara terbuka pembentukan pasukan robotik dan AI terwujud dalaman yang khusus. Beliau menyatakan ini sebagai langkah logik seterusnya untuk ejen AI, dengan berkata bahawa model multimodal "pasti harus melangkah dari dunia maya ke dunia fizikal" . Hanya beberapa bulan kemudian, pada Februari 2026, Alibaba melancarkan Qwen 3.5, secara eksplisit memasarkannya sebagai model untuk "era AI ejen" yang mampu melakukan tugas autonomi berbilang langkah yang kompleks
. Kuasa bahasa dan penaakulan ini menjadi tulang belakang kognitif untuk model robot yang dilancarkan pada bulan Jun
.
Seiring dengan pembangunan dalaman, Alibaba juga membuat langkah luaran strategik. Unit pengkomputeran awannya mengetuai pusingan pembiayaan USD $140 juta untuk syarikat permulaan robotik China, X Square Robot, pada tahun 2025 . Strategi pelbagai penjuru ini—R&D dalaman, ekosistem model sumber terbuka, dan pelaburan syarikat permulaan—meletakkan Qwen-Robot Suite sebagai sebahagian daripada cita-cita lebih besar untuk menjadi "kilang AI" komprehensif bagi generasi baru mesin fizikal pintar
.
Kemasukan Alibaba ke dalam AI terwujud meletakkannya dalam persaingan langsung dengan syarikat seperti Nvidia, yang menyediakan timbunan simulasi dan pengkomputeran yang berkuasa, dan semakin banyak syarikat permulaan AI terwujud yang berpangkalan di AS. Walaupun sumber yang diberikan tidak menawarkan perbandingan prestasi langsung terhadap pesaing ini, Qwen-Robot Suite mempersembahkan cadangan nilai yang berbeza berdasarkan integrasi dan kebolehcapaian .
Suite ini adalah asas modular terbuka yang direka untuk digunakan pada perkakasan pihak ketiga dengan adaptasi minima. Ini berbeza dengan timbunan proprietari bersepadu menegak, meletakkan Alibaba sebagai pembekal model neutral untuk pelbagai pengeluar robot. Aset terbesar syarikat adalah ekosistem Qwen sedia ada berskala besar, yang telah menghasilkan beratus-ratus model sumber terbuka dengan lebih 600 juta muat turun kumulatif, mewujudkan komuniti pembangun besar yang kini boleh membina di atas asas robotnya .
Walau bagaimanapun, tahap ketidakpastian yang ketara masih wujud. Suite ini baru diumumkan pada Jun 2026, dan dokumentasi yang ada tidak mempunyai metrik penggunaan komersial berskala besar atau data kebolehpercayaan jangka panjang. Masih belum diketahui bagaimana model ini akan berprestasi di bawah keadaan tugasan industri berstruktur rendah yang benar-benar tidak menentu. Ujian sebenar untuk cita-cita AI fizikal Alibaba adalah sama ada ketersediaan model ini akan diterjemahkan kepada penggunaan meluas oleh industri robotik secara keseluruhan.
Comments
0 comments