Ключ до її крос-хардверної гнучкості лежить в 80-вимірному уніфікованому представленні дій, яке функціонує як універсальна «мова тіла» для машин . Стандартизуючи інструкції до дій і обчислюючи рухи відносно кадру камери, а не в абсолютних координатах, RobotManip може швидко адаптуватися до нового обладнання з мінімальним налаштуванням — як досвідчений водій, що пристосовується до незнайомого авто
.
Ця спритність підкріплена значним обсягом даних. Модель пройшла попереднє навчання на понад 38 100 годинах відкритого відео з демонстраціями роботів і людей та охоплює 15 різних типів конструкцій роботів . Таке масштабне уніфіковане навчання покликане вирішити поширену проблему падіння продуктивності при перенесенні моделі робота між різними фізичними платформами
. У тестових випробуваннях різні версії моделі зайняли перші два місця за успішністю виконання завдань, впоравшись навіть зі складними операціями на кшталт перевертання картоплі фрі двома руками
.
Qwen-RobotNav — це Vision-Language-Navigation (VLN) модель, побудована на сімействі Qwen3-VL і доступна в розмірах 2B, 4B та 8B параметрів . Це шлюз до дії для мобільних фізичних агентів, завдання якого — наділити роботів просторовим інтелектом та автономною мобільністю
.
Що вирізняє Qwen-RobotNav — це її здатність об'єднувати п'ять різних навігаційних завдань в єдиній структурі без необхідності перемикати моделі. Серед них — слідування інструкціям, навігація до точки, навігація до об'єкта, відстеження цілі та автономне водіння . Модель використовує контрольований протокол кодування спостережень та інструментальний інтерфейс, що дозволяє безпосередньо поєднувати візуально-мовне розуміння з контролем руху
. На практиці це означає, що робот може виконати голосову команду на кшталт «знайди конференц-залу в кінці коридору», динамічно обробляючи своє візуальне оточення для навігації в незнайомих просторах без попередньо створеної карти
.
Третя і, мабуть, найбільш далекоглядна частина комплексу — це мовно-обумовлена відеомодель світу, заснована на 60-шаровому Multi-Modal Diffusion Transformer (MMDiT) із «замороженим» кодувальником Qwen2.5-VL .
Qwen-RobotWorld не просто розпізнає сцену; вона прогнозує, як ця сцена зміниться. Використовуючи природну мову як уніфікований інтерфейс дій, вона генерує фізично обґрунтовані візуальні траєкторії майбутнього на основі поточного спостереження робота . Це прогнозування охоплює роботизовані маніпуляції, автономне водіння, навігацію в приміщенні та навіть сценарії людської діяльності. Модель навчалася на понад 8,6 мільйонах міжсценарних тренувальних пар і може симулювати понад 1 300 навичок маніпуляції на більш ніж 20 різних типах роботів
.
Ця модель світу має безпосередню практичну цінність: вона може генерувати синтетичні відеодані, щоб пом'якшити хронічну нестачу даних для втіленого ШІ, а також симулювати наслідки дії до того, як робот виконає її в реальному світі, підвищуючи точність і безпеку .
Ключовий принцип дизайну Qwen-Robot Suite — це гнучкість розгортання. Моделі можна запускати окремо для виконання окремих функцій — наприклад, використовувати лише Qwen-RobotNav у складському транспортному засобі — або інтегрувати в повний стек. Працюючи разом, три моделі утворюють замкнену систему, де сприйняття (RobotNav та RobotManip) та прогнозування (RobotWorld) підсилюють одне одного, дозволяючи роботу «ходити, бачити й думати» одночасно .
Цей повноцінний підхід тісно інтегрований з ширшою екосистемою моделей Alibaba, включно з флагманською агентною моделлю Qwen3.7-Max, яка відповідає за розкладання складних завдань на простіші . Фундаментальна залежність комплексу від відкритих даних та публічно доступних випусків моделей також цілком вписується в стратегію Alibaba щодо масштабного залучення розробників
.
Запуск Qwen-Robot — це не раптовий експеримент. Він є кульмінацією методичного, багаторічного поступу від суто цифрового ШІ до фізичного світу.
У жовтні 2025 року технічний керівник Qwen Джастін Лін публічно оголосив про формування спеціальної внутрішньої команди з робототехніки та втіленого ШІ. Він схарактеризував це як наступний логічний крок для ШІ-агентів, заявивши, що мультимодальні моделі «безперечно повинні зробити крок із віртуального світу у фізичний» . Лише через кілька місяців, у лютому 2026 року, Alibaba запустила Qwen 3.5, прямо позиціюючи її як модель для «ери агентивного ШІ», здатну до автономних, складних багатокрокових завдань
. Ця мовна та логічна потужність стала когнітивним хребтом для роботизованих моделей, запущених у червні
.
Паралельно з внутрішніми розробками Alibaba робила стратегічні зовнішні кроки. Її підрозділ хмарних обчислень очолив раунд фінансування на $140 мільйонів для китайського робототехнічного стартапу X Square Robot у 2025 році . Ця багатовекторна стратегія — внутрішні розробки, відкрита екосистема моделей та інвестиції в стартапи — позиціонує Qwen-Robot Suite як частину більшої амбіції стати комплексною «фабрикою ШІ» для нового покоління фізичних, інтелектуальних машин
.
Вихід Alibaba на ринок втіленого ШІ ставить її в пряму конкуренцію з такими компаніями, як Nvidia, що пропонує потужний стек для симуляцій та обчислень, а також зі зростаючою кількістю американських стартапів у цій сфері. Хоча надані джерела не містять прямого порівняння продуктивності з цими конкурентами, Qwen-Robot Suite пропонує чітку ціннісну пропозицію, засновану на інтеграції та доступності .
Цей набір є відкритою, модульною основою, призначеною для розгортання на сторонньому обладнанні з мінімальною адаптацією. Це контрастує з пропрієтарними, вертикально інтегрованими стеками, позиціонуючи Alibaba як нейтрального постачальника моделей для широкого кола виробників роботів. Найбільшим активом компанії є її існуюча, масштабна екосистема Qwen, яка випустила сотні відкритих моделей із понад 600 мільйонами сумарних завантажень, створивши величезну спільноту розробників, які тепер можуть будувати на цих роботизованих основах .
Втім, значний рівень невизначеності залишається. Комплекс був анонсований лише в червні 2026 року, і в доступній документації бракує показників масштабного комерційного розгортання або даних про довгострокову надійність. Досі невідомо, як ці моделі проявлять себе в умовах мінливості справді неструктурованих, довготривалих промислових завдань. Справжнім випробуванням для фізичних ШІ-амбіцій Alibaba стане те, чи перетвориться доступність цих моделей на їх широке впровадження робототехнічною індустрією загалом.
Comments
0 comments