Alibaba's Qwen Robot Suite is een trio van AI modellen, gelanceerd in juni 2026, dat robots geavanceerde manipulatie, autonome navigatie en het vermogen geeft om toekomstige fysieke acties te simuleren. Qwen RobotManip gebruikt een 80 dimensionale actierepresentatie als universele 'lichaamstaal' zodat verschillende...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba was al een dominante kracht in digitale AI, maar hun nieuwste zet markeert een duidelijke wending naar de tastbare wereld. In juni 2026 lanceerde de Qwen-divisie van het bedrijf – voorheen bekend van populaire open-source taalmodellen – de Qwen-Robot Suite. Dit is Alibaba's eerste AI-model-familie die specifiek is gebouwd voor 'embodied intelligence' en daarmee zet het een heldere stap voorbij chatbots, naar AI die machines kan aansturen om te handelen in de echte wereld .
Ontwikkeld door Alibaba's eigen Tongyi Lab, draait de suite al in proefprojecten bij zakelijke klanten en is hij ontworpen als een universeel 'chassis' voor robots in allerlei soorten en maten . De kerninnovatie is een modulair, driedelig systeem dat een robot voorziet van een "behendige hand", een "navigerende voet" en een "denkend brein".
De modulaire architectuur pakt de versnipperde uitdaging van fysieke AI aan. In plaats van één log systeem, zijn er drie modellen met aparte, maar onderling verbonden taken.
Dit Vision-Language-Action (VLA) model, gebouwd op de Qwen3.5-4B architectuur, is de motor achter de fijne motoriek van de suite . Het vertaalt opdrachten in gewone taal naar precieze bewegingen voor robotarmen.
De sleutel tot deze flexibiliteit voor verschillende hardware is een 80-dimensionale, universele actierepresentatie. Dit kun je zien als een universele 'lichaamstaal' voor machines . Door bewegingsinstructies te standaardiseren en te berekenen ten opzichte van een camerabeeld in plaats van absolute coördinaten, kan RobotManip zich razendsnel aanpassen aan nieuwe hardware – net zoals een ervaren chauffeur die in een onbekende auto stapt en na een paar keer gas geven de weg weet
.
De behendigheid komt niet uit de lucht vallen. Het model is vooraf getraind op meer dan 38.100 uur aan open-source video's van robots en menselijke demonstraties en dekt 15 verschillende robotvormen . Deze grootschalige, uniforme training moet het hardnekkige probleem oplossen dat de prestaties van een robotmodel kelderen zodra het op een ander fysiek platform wordt gezet
. In benchmarktests haalden de versies van het model de twee hoogste noteringen qua slagingspercentage, waarbij het zelfs complexe klussen aankon zoals het met twee armen omdraaien van frietjes
.
Qwen-RobotNav is een Vision-Language-Navigation (VLN) model, gebaseerd op de Qwen3-VL-familie en beschikbaar in 2B, 4B en 8B parametergroottes . Het is de actiepoort voor mobiele agents in de fysieke wereld en geeft robots ruimtelijk inzicht en autonome mobiliteit
.
Wat Qwen-RobotNav bijzonder maakt, is dat het vijf verschillende navigatietaken samenbrengt onder één dak, zonder dat je van model hoeft te wisselen. Denk aan het volgen van instructies, navigeren naar een punt, naar een object, het volgen van een doelwit en autonoom rijden . Het model gebruikt een controleerbaar observatie-coderingsprotocol en een tool-interface, waardoor het visueel-taalbegrip direct kan koppelen aan bewegingscontrole
. In de praktijk betekent dit dat een robot een gesproken commando zoals "zoek de vergaderzaal verderop in de gang" kan opvolgen, terwijl hij tegelijk zijn visuele omgeving verwerkt om zonder vooraf ingeladen kaart door een onbekend gebouw te navigeren
.
Het derde en meest toekomstgerichte onderdeel is het op taal gebaseerde videowereldmodel. Dit model is gebouwd op een 60-laags Multi-Modal Diffusion Transformer (MMDiT) met een vastgezette Qwen2.5-VL-encoder .
Qwen-RobotWorld herkent niet alleen een scène; het voorspelt hoe een scène zal veranderen. Door natuurlijke taal als universele actie-interface te gebruiken, genereert het fysiek realistische toekomstige videotrajecten op basis van wat de robot nu ziet . Deze voorspelling werkt voor robotmanipulatie, autonoom rijden, navigatie binnenshuis en zelfs voor scenario's met menselijke activiteit. Het model is getraind op meer dan 8,6 miljoen cross-scenario trainingsparen en kan meer dan 1.300 manipulatievaardigheden in meer dan 20 robotvormen simuleren
.
Dit wereldmodel heeft direct praktisch nut: het kan synthetische videodata genereren om het chronische tekort aan trainingsdata in de fysieke AI-wereld te verlichten, en het kan de gevolgen van een actie simuleren voordat een robot die in het echt uitvoert. Dit verhoogt de precisie en veiligheid aanzienlijk .
Een belangrijk ontwerpprincipe van de Qwen-Robot Suite is de flexibiliteit bij het uitrollen. De modellen kunnen los van elkaar worden gebruikt voor enkelvoudige functies – zoals alleen Qwen-RobotNav in een bezorgwagentje in een magazijn – of gecombineerd tot een complete stack. Wanneer de drie modellen samenwerken, ontstaat er een gesloten systeem waarin waarneming (RobotNav en RobotManip) en voorspelling (RobotWorld) elkaar versterken, waardoor een robot letterlijk tegelijk kan "lopen, kijken en denken" .
Deze complete aanpak is naadloos geïntegreerd met Alibaba's bredere modelecosysteem, inclusief het vlaggenschip Qwen3.7-Max agent-model dat complexe taken kan opsplitsen in deelstappen . Het feit dat de suite leunt op open-source data en openbaar beschikbare modellen, past perfect in Alibaba's strategie van grootschalige adoptie door ontwikkelaars
.
De lancering van Qwen-Robot is geen plotseling experiment. Het is het voorlopige hoogtepunt van een meerjarige, methodische mars van puur digitale AI naar het fysieke domein.
In oktober 2025 kondigde Qwen's technologiedirecteur, Justin Lin, publiekelijk de vorming van een toegewijd intern robotica- en embodied AI-team aan. Hij schetste dit als de logische volgende stap voor AI-agents en zei dat multimodale modellen "absoluut van de virtuele naar de fysieke wereld moeten stappen" . Enkele maanden later, in februari 2026, lanceerde Alibaba Qwen 3.5, dat expliciet op de markt werd gebracht als model voor het "agentische AI-tijdperk", in staat tot autonome, complexe taken in meerdere stappen
. Deze taal- en redeneerkracht vormde de cognitieve ruggengraat voor de robotmodellen die in juni werden gelanceerd
.
Naast interne ontwikkeling zette Alibaba ook strategische stappen naar buiten. De cloud computing-tak leidde in 2025 een investeringsronde van $140 miljoen voor de Chinese robotica-startup X Square Robot . Deze aanpak—interne R&D, een open-source modelecosysteem en investeringen in startups—positioneert de Qwen-Robot Suite als onderdeel van een grotere ambitie om een alomvattende "AI-fabriek" te zijn voor een nieuwe generatie fysieke, intelligente machines
.
Alibaba's entree in de fysieke AI plaatst het bedrijf in directe concurrentie met partijen zoals Nvidia, dat een krachtige simulatie- en rekeninfrastructuur biedt, en een groeiend aantal Amerikaanse startups op het gebied van belichaamde AI. De bronnen bieden geen directe prestatievergelijking met deze concurrenten, maar de Qwen-Robot Suite presenteert een onderscheidende waardepropositie op basis van integratie en toegankelijkheid .
De suite is een open, modulaire basis die is ontworpen om met minimale aanpassingen op hardware van derden te draaien. Dit staat haaks op een gesloten, verticaal geïntegreerd systeem en positioneert Alibaba als een neutrale modelleverancier voor diverse robotfabrikanten. Alibaba's grootste troef is het bestaande, grootschalige Qwen-ecosysteem, dat honderden open-source modellen heeft voortgebracht met samen meer dan 600 miljoen downloads. Dit heeft een enorme ontwikkelaarsgemeenschap gecreëerd die nu kan voortbouwen op deze robotbasis .
Toch blijft er een aanzienlijke onzekerheid. De suite is pas in juni 2026 aangekondigd en de beschikbare documentatie mist nog cijfers over grootschalige commerciële toepassing of gegevens over betrouwbaarheid op de lange termijn. Het is nog onbekend hoe deze modellen zullen presteren onder de variabiliteit van echt ongestructureerde, langetermijn industriële taken. De echte test voor Alibaba's fysieke AI-ambitie zal zijn of de pure beschikbaarheid van deze modellen zich vertaalt in brede acceptatie door de robotica-industrie.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Alibaba's Qwen Robot Suite is een trio van AI modellen, gelanceerd in juni 2026, dat robots geavanceerde manipulatie, autonome navigatie en het vermogen geeft om toekomstige fysieke acties te simuleren.
Alibaba's Qwen Robot Suite is een trio van AI modellen, gelanceerd in juni 2026, dat robots geavanceerde manipulatie, autonome navigatie en het vermogen geeft om toekomstige fysieke acties te simuleren. Qwen RobotManip gebruikt een 80 dimensionale actierepresentatie als universele 'lichaamstaal' zodat verschillende robots van meer dan 38.100 uur aan data kunnen leren.
De suite is modulair en kan los of als volledig geïntegreerd systeem worden ingezet, maar concrete grootschalige commerciële adoptiecijfers ontbreken nog en directe prestatievergelijkingen met concurrenten zoals Nvidi...
Loading comments...
Comments
0 comments