Qwen Robot Suite adalah tiga model AI yang diluncurkan Juni 2026: RobotManip untuk tangan cekatan, RobotNav untuk navigasi otonom, dan RobotWorld sebagai 'otak' yang mampu memprediksi konsekuensi aksi fisik sebelum di... Model RobotManip menggunakan representasi aksi 80 dimensi untuk menyatukan 'bahasa tubuh' berbag...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba telah lama menjadi kekuatan dominan di ranah AI digital, tetapi langkah terbarunya menandai sebuah perubahan haluan yang pasti menuju dunia fisik. Pada Juni 2026, divisi Qwen perusahaan—yang sebelumnya dikenal dengan model bahasa besar (LLM) open-source populer mereka—meluncurkan Qwen-Robot Suite. Ini adalah keluarga model AI pertama yang dibangun khusus untuk embodied intelligence, mewakili langkah jelas melampaui chatbot dan memasuki ranah komando mesin yang dapat merasakan, menalar, dan bertindak di lingkungan nyata .
Dikembangkan oleh Tongyi Lab milik Alibaba, rangkaian model ini telah memasuki program percontohan dengan klien-klien perusahaan dan dirancang sebagai "sasis universal" bagi robot dengan berbagai bentuk dan tujuan . Inovasi intinya adalah sistem modular tiga bagian yang memberi robot "tangan yang cekatan", "kaki yang bisa mencari jalan", dan "otak yang berpikir."
Arsitektur modular suite ini mengatasi tantangan yang terfragmentasi dalam membangun AI fisik. Alih-alih satu sistem monolitik, tiga model menangani kemampuan yang terpisah namun saling terhubung.
Ini adalah model Vision-Language-Action (VLA) yang dibangun di atas arsitektur Qwen3.5-4B, berfungsi sebagai mesin manipulasi suite ini . Tujuannya adalah menerjemahkan instruksi bahasa alami ke dalam tindakan fisik yang presisi untuk lengan robot.
Kunci dari fleksibilitas lintas-perangkat kerasnya terletak pada representasi aksi terpadu 80 dimensi, yang berfungsi seperti "bahasa tubuh" universal untuk mesin . Dengan menstandarisasi instruksi aksi dan menghitung gerakan relatif terhadap bingkai kamera, bukan koordinat absolut, RobotManip dapat dengan cepat beradaptasi dengan perangkat keras baru hanya dengan sedikit penyetelan—seperti pengemudi berpengalaman yang menyesuaikan diri dengan mobil yang tidak dikenal
.
Ketangkasan ini didukung oleh data yang signifikan. Model ini dilatih awal menggunakan lebih dari 38.100 jam video demonstrasi robot dan manusia open-source dan mencakup 15 morfologi robot . Pelatihan skala besar dan terpadu ini dimaksudkan untuk memecahkan masalah umum penurunan performa saat model robot dipindahkan di antara platform fisik yang berbeda
. Dalam tes benchmark, versinya meraih posisi dua teratas dalam tingkat keberhasilan tugas, menangani tugas-tugas rumit seperti membalik kentang goreng dengan dua lengan
.
Qwen-RobotNav adalah model Vision-Language-Navigation (VLN), dibangun di atas keluarga Qwen3-VL dan tersedia dalam ukuran parameter 2B, 4B, dan 8B . Ini adalah gerbang aksi untuk agen fisik bergerak, bertugas memberikan robot kecerdasan spasial dan mobilitas otonom
.
Yang membedakan Qwen-RobotNav adalah penyatuannya atas lima tugas navigasi yang berbeda dalam satu kerangka kerja tanpa mengganti model. Ini termasuk mengikuti instruksi, navigasi point-goal, navigasi object-goal, pelacakan target, dan mengemudi otonom . Model ini menggunakan protokol pengkodean observasi yang dapat dikontrol dan antarmuka alat, memungkinkannya untuk menghubungkan pemahaman visi-bahasa secara langsung dengan kontrol gerak
. Dalam praktiknya, ini berarti robot dapat menafsirkan perintah lisan seperti "temukan ruang konferensi di ujung lorong" sambil secara dinamis memproses lingkungan visualnya untuk menavigasi ruang asing tanpa peta yang dibuat sebelumnya
.
Bagian ketiga dan mungkin yang paling visioner dari suite ini adalah model dunia video berbasis bahasa (language-conditioned video world model), yang didasarkan pada Multi-Modal Diffusion Transformer (MMDiT) 60-lapis dengan encoder Qwen2.5-VL beku .
Qwen-RobotWorld tidak hanya mengenali sebuah adegan; ia memprediksi bagaimana adegan itu akan berubah. Dengan menggunakan bahasa alami sebagai antarmuka aksi terpadu, ia menghasilkan lintasan visual masa depan yang berdasar pada fisik dari pengamatan robot saat ini . Prediksi ini beroperasi di seluruh skenario manipulasi robot, mengemudi otonom, navigasi dalam ruangan, dan bahkan aktivitas manusia. Model ini dilatih dengan lebih dari 8,6 juta pasangan pelatihan lintas-adegan dan dapat mensimulasikan lebih dari 1.300 keterampilan manipulasi di lebih dari 20 morfologi robot
.
Model dunia ini memiliki nilai praktis langsung: ia dapat menghasilkan data video sintetis untuk mengurangi kekurangan data kronis dalam embodied AI, dan dapat mensimulasikan konsekuensi dari suatu tindakan sebelum robot mengeksekusinya di dunia nyata, meningkatkan presisi dan keamanan .
Prinsip desain penting dari Qwen-Robot Suite adalah fleksibilitas penerapannya. Model-model ini dapat dijalankan secara mandiri (standalone) untuk fungsi tunggal—misalnya, hanya menggunakan Qwen-RobotNav di kendaraan pengiriman gudang—atau diintegrasikan ke dalam tumpukan penuh (full stack). Ketika bekerja sama, ketiga model tersebut membentuk sistem loop tertutup di mana persepsi (RobotNav dan RobotManip) dan prediksi (RobotWorld) saling memperkuat, memungkinkan robot untuk "berjalan, melihat, dan berpikir" secara bersamaan .
Pendekatan full-stack ini terintegrasi erat dengan ekosistem model Alibaba yang lebih luas, termasuk model agen andalan Qwen3.7-Max, yang menangani dekomposisi tugas yang kompleks . Ketergantungan dasar suite ini pada data open-source dan rilis model yang tersedia untuk publik juga sangat sesuai dengan strategi Alibaba untuk adopsi pengembang skala besar
.
Peluncuran Qwen-Robot bukanlah eksperimen mendadak. Ini mewakili puncak dari perjalanan metodis selama bertahun-tahun dari AI khusus digital menuju domain fisik.
Pada Oktober 2025, pemimpin teknologi Qwen, Justin Lin, secara terbuka mengumumkan pembentukan tim robotika dan embodied AI internal yang berdedikasi. Ia membingkainya sebagai langkah logis berikutnya untuk agen AI, menyatakan bahwa model multimodal "pasti harus melangkah dari dunia virtual ke dunia fisik" . Beberapa bulan kemudian, pada Februari 2026, Alibaba meluncurkan Qwen 3.5, secara eksplisit memasarkannya sebagai model untuk "era AI agentik" yang mampu melakukan tugas multi-langkah yang kompleks secara otonom
. Kekuatan bahasa dan penalaran ini menjadi tulang punggung kognitif untuk model robot yang diluncurkan pada bulan Juni
.
Bersamaan dengan pengembangan internal, Alibaba juga membuat langkah eksternal strategis. Unit komputasi awannya memimpin putaran pendanaan $140 juta untuk startup robotika China, X Square Robot, pada tahun 2025 . Strategi multi-cabang ini—R&D internal, ekosistem model open-source, dan investasi startup—memposisikan Qwen-Robot Suite sebagai bagian dari ambisi yang lebih besar untuk menjadi "pabrik AI" komprehensif bagi generasi baru mesin fisik yang cerdas
.
Masuknya Alibaba ke dalam embodied AI menempatkannya dalam persaingan langsung dengan perusahaan seperti Nvidia, yang menyediakan tumpukan simulasi dan komputasi yang kuat, dan semakin banyak startup embodied-AI yang berbasis di AS. Meskipun sumber yang disediakan tidak menawarkan perbandingan kinerja langsung terhadap para pesaing ini, Qwen-Robot Suite menghadirkan proposisi nilai yang berbeda berdasarkan integrasi dan aksesibilitas .
Suite ini adalah fondasi modular terbuka yang dirancang untuk digunakan pada perangkat keras pihak ketiga dengan adaptasi minimal. Ini kontras dengan tumpukan proprietary yang terintegrasi secara vertikal, memposisikan Alibaba sebagai pemasok model netral untuk berbagai produsen robot. Aset terbesar perusahaan adalah ekosistem Qwen berskala besar yang sudah ada, yang telah menghasilkan ratusan model open-source dengan lebih dari 600 juta unduhan kumulatif, menciptakan komunitas pengembang besar yang sekarang dapat membangun di atas fondasi robotnya .
Namun, tingkat ketidakpastian yang signifikan masih ada. Suite ini baru diumumkan pada Juni 2026, dan dokumentasi yang tersedia tidak memiliki metrik penyebaran komersial skala besar atau data keandalan jangka panjang. Masih belum diketahui bagaimana model-model ini akan berkinerja di bawah variabilitas tugas industri berjangka panjang yang benar-benar tidak terstruktur. Ujian sebenarnya bagi ambisi AI fisik Alibaba adalah apakah ketersediaan model-model ini akan diterjemahkan ke dalam adopsi luas oleh industri robotika secara keseluruhan.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Qwen Robot Suite adalah tiga model AI yang diluncurkan Juni 2026: RobotManip untuk tangan cekatan, RobotNav untuk navigasi otonom, dan RobotWorld sebagai 'otak' yang mampu memprediksi konsekuensi aksi fisik sebelum di...
Qwen Robot Suite adalah tiga model AI yang diluncurkan Juni 2026: RobotManip untuk tangan cekatan, RobotNav untuk navigasi otonom, dan RobotWorld sebagai 'otak' yang mampu memprediksi konsekuensi aksi fisik sebelum di... Model RobotManip menggunakan representasi aksi 80 dimensi untuk menyatukan 'bahasa tubuh' berbagai perangkat keras, dilatih dengan lebih dari 38.100 jam data open source; RobotNav menyatukan lima tugas navigasi termas...
Meskipun suite ini dapat dijalankan secara standalone atau full stack, metrik adopsi komersial skala besar belum tersedia dan perbandingan performa langsung dengan kompetitor seperti Nvidia belum didokumentasikan.
Loading comments...
Comments
0 comments