Kouzlo přenositelnosti spočívá v 80dimenzionální unifikované akční reprezentaci, což je vlastně univerzální „tělesná řeč“ pro stroje . Díky standardizovaným instrukcím a kalkulaci pohybu relativně vůči kameře (místo absolutních souřadnic) se RobotManip dokáže extrémně rychle přizpůsobit novému hardwaru – jako zkušený řidič, který přesedne do neznámého auta a po pár šlápnutích na plyn už jede
.
Tato šikovnost byla draze vykoupena daty: model předtrénoval na více než 38 100 hodinách open-source videí zachycujících roboty i lidi a pokrývá 15 různých morfologií robotů . Výsledkem je výrazné omezení propadů výkonu při přenosu modelu mezi platformami od různých výrobců
. V testech se jeho verze umístily na prvních dvou místech v úspěšnosti úkolů – od otočení kohoutkem až po obouruční obracení hranolek
.
Zatímco RobotManip řeší ruce, Qwen-RobotNav řeší nohy – respektive kola. Jde o Vision-Language-Navigation (VLN) model, vystavěný na rodině Qwen3-VL, dostupný ve velikostech 2B, 4B a 8B parametrů . Je to „akční brána“ pro mobilní roboty, zodpovědná za orientaci v prostoru a autonomní pohyb
.
Jeho hlavním trumfem je sjednocení pěti zásadně odlišných navigačních úloh pod jeden rámec, aniž byste museli modely přepínat. Patří sem: sledování instrukcí, navigace k bodu, navigace k objektu, sledování cíle a autonomní řízení . Pomocí speciálního protokolu pro kódování pozorování a nástrojového rozhraní model přímo propojuje vizuálně-jazykové chápání s řízením motorů
. V praxi to znamená, že robot slyší „najdi zasedačku na konci chodby“ a sám si za jízdy zpracovává, co vidí, aby se v neznámé budově neztratil. Žádná mapa předem, žádné čáry na zemi
.
Třetím, a z hlediska budoucnosti nejodvážnějším, kusem skládačky je jazykově podmíněný video model světa. Technicky jde o 60vrstvý Multi-Modal Diffusion Transformer (MMDiT) se zmrazeným enkodérem Qwen2.5-VL .
Qwen-RobotWorld totiž nedělá to, co ostatní – on nerozeznává jen scénu před sebou. On predikuje, jak se ta scéna změní. Používá přirozený jazyk jako univerzální akční rozhraní a z aktuálního pozorování generuje fyzikálně věrohodné budoucí vizuální trajektorie . Ať už jde o manipulaci, jízdu, chůzi po místnosti nebo interakci člověka, model má natrénováno na 8,6 milionech párů tréninkových scén a simuluje přes 1 300 manipulačních dovedností na více než 20 typech robotů
.
Praktické dopady jsou obrovské: model umí generovat umělá tréninková data, čímž řeší chronický nedostatek dat pro vtělenou AI, a hlavně umí simulovat důsledek akce ještě předtím, než ji robot provede – což je klíčové pro přesnost a bezpečnost v nepředvídatelném světě .
Jeden z pilířů celé koncepce je flexibilita nasazení. Modely lze provozovat samostatně (například jen Qwen-RobotNav pro doručovací vozík ve skladu) nebo jako „full-stack“ integrované řešení. V druhém případě tvoří RobotManip, RobotNav a RobotWorld uzavřenou smyčku, kde se vnímání a predikce vzájemně posilují – robot tak doslova „chodí, vidí a myslí“ současně .
Tohle všechno je hluboce provázáno s širším modelem ekosystému Alibaby. Vrcholný model Qwen3.7-Max se stará o složité rozkládání úkolů na dílčí kroky, zatímco základ celého robota stojí na otevřených datech a veřejně dostupných modelech .
Qwen-Robot nevznikl přes noc. Je výsledkem systematické, několikaleté cesty od digitální AI k fyzické.
V říjnu 2025 Justin Lin, technologický šéf divize Qwen, veřejně oznámil vznik specializovaného interního týmu pro robotiku a vtělenou AI. Napsal, že multimodální modely „by rozhodně měly vykročit z virtuálního světa do fyzického“ . O pár měsíců později, v únoru 2026, Alibaba uvedla model Qwen 3.5, otevřeně ho marketingově zařadila do „éry agentní AI“ a deklarovala jeho schopnost samostatně řešit složité, mnohakrokové úkoly
. Tento jazykový a logický výkon se stal kognitivní páteří modelů, které dorazily v červnu
.
Kromě interního vývoje přišly i chytré externí tahy: cloudová divize Alibaby vedla v roce 2025 investiční kolo za 140 milionů dolarů do čínského robotického startupu X Square Robot . Tato kombinace taktik – vlastní vývoj, open-source ekosystém a investice do startupů – staví sadu Qwen-Robot do role základního kamene ambice být komplexní „AI továrnou“ pro novou generaci inteligentních strojů
.
Vstupem do fyzického světa se Alibaba dostává do přímého konkurenčního boje s firmami jako Nvidia, která nabízí výkonný simulační a výpočetní stack, a s řadou amerických startupů zaměřených na vtělenou AI. Ačkoliv přímé výkonnostní srovnání s těmito konkurenty v dostupných zdrojích chybí, sada Qwen-Robot staví na odlišných hodnotách: otevřenosti a integraci .
Nejde o proprietární, vertikálně integrovaný celek, ale spíše o modulární základ, který lze s minimálním úsilím nasadit na hardware třetích stran. Alibaba se staví do role neutrálního dodavatele modelů pro různé výrobce robotů. Její největší devízou je ohromný existující ekosystém Qwen, který čítá stovky open-source modelů, přes 600 milionů stažení a více než 170 000 odvozených modelů – to je obří komunita vývojářů, která teď může stavět i na těchto robotických základech .
Přes všechen humbuk ale zůstává podstatná míra nejistoty. Sada byla představena v červnu 2026 a zatím postrádá jakékoliv metriky z velkého komerčního provozu nebo dlouhodobá data o spolehlivosti. Není známo, jak si modely poradí s nepředvídatelností skutečně nestrukturovaných, dlouhodobých průmyslových úkolů. Skutečný test fyzické AI od Alibaby bude spočívat v tom, jestli se z dostupnosti modelů stane jejich masové nasazení v praxi.
Comments
0 comments