Alibabas Qwen Robot Suite er en trio af AI modeller lanceret i juni 2026, der giver robotter avancerede manipulationsevner, autonom navigation og evnen til at simulere fremtidige fysiske handlinger – et skridt fra cha... Qwen RobotManip bruger en 80 dimensionel handlingsrepræsentation til at lade forskellig robothar...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba har længe været en dominerende spiller inden for digital AI, men deres seneste træk markerer et definitivt skifte mod den fysiske verden. I juni 2026 lancerede virksomhedens Qwen-division – tidligere kendt for sine populære open source-sprogmodeller – Qwen-Robot suiten. Dette er deres første familie af AI-modeller, der er specialbygget til 'embodied intelligence' – et klart skridt væk fra chatbots og mod at styre maskiner, der kan opfatte, ræsonnere og handle i virkelige miljøer .
Udviklet af Alibabas Tongyi Lab, er suiten allerede i pilotprojekter hos erhvervskunder og er designet som et "universelt chassis" for robotter af forskellig form og med forskellige formål . Den centrale innovation er et modulært treenigt system, der giver en robot en "fingernem hånd", en "navigerende fod" og en "tænkende hjerne".
Suitens modulære arkitektur tackler den fragmenterede udfordring ved at bygge fysisk AI. I stedet for ét stort system håndterer tre separate modeller forskellige, men forbundne, funktioner.
Dette er en Vision-Language-Action (VLA) model bygget på Qwen3.5-4B arkitekturen og fungerer som suitens manipulationsmotor . Dens formål er at oversætte kommandoer på almindeligt sprog til præcise fysiske handlinger for robotarme.
Nøglen til dens fleksibilitet på tværs af forskelligt udstyr ligger i en 80-dimensionel samlet handlingsrepræsentation, der fungerer som et universelt "kropssprog" for maskiner . Ved at standardisere handlingsinstruktioner og beregne bevægelser relativt til et kamerabillede frem for absolutte koordinater, kan RobotManip hurtigt tilpasse sig nyt udstyr med minimal justering – lidt ligesom en erfaren chauffør, der sætter sig ind i en ukendt bil og lige skal mærke pedalerne et par gange, før turen går
.
Denne fingernemhed er understøttet af en betydelig datamængde. Modellen blev fortrænet på over 38.100 timers open source-video med robot- og menneskedemonstrationer og dækker 15 forskellige robot-typer . Denne store, samlede træning har til formål at løse det velkendte problem med ydelsesfald, når en robotmodel flyttes mellem forskellige fysiske platforme
. I benchmark-tests opnåede dens versioner top to-placeringer i opgave succesrater og håndterede komplekse opgaver som at vende pomfritter med to arme
.
Qwen-RobotNav er en Vision-Language-Navigation (VLN) model, bygget på Qwen3-VL familien og tilgængelig i størrelserne 2B, 4B og 8B parametre . Det er handlingsporten for mobile, fysiske agenter med den opgave at give robotter rumlig intelligens og autonom mobilitet
.
Hvad der adskiller Qwen-RobotNav er dens evne til at forene fem forskellige navigationstyper i én og samme ramme uden at skifte model. Disse inkluderer instruktionsfølge, punkt-mål-navigation, objekt-mål-navigation, målsporing og autonom kørsel . Modellen bruger en kontrollerbar observationskodningsprotokol og en værktøjsgrænseflade, så den kan forbinde visuel-sproglig forståelse direkte med bevægelseskontrol
. I praksis betyder det, at en robot kan tolke en talt kommando som "find mødelokalet nede ad gangen", mens den dynamisk bearbejder sine visuelle omgivelser for at navigere i ukendte rum uden et foruddefineret kort
.
Det tredje og måske mest visionære element i suiten er den sprogbetingede video-verdensmodel, der er baseret på en 60-lags Multi-Modal Diffusion Transformer (MMDiT) med en fastfrosset Qwen2.5-VL indkoder .
Qwen-RobotWorld genkender ikke bare en scene; den forudsiger, hvordan en scene vil ændre sig. Ved at bruge almindeligt sprog som en samlet handlingsgrænseflade, genererer den fysisk funderede, fremtidige visuelle forløb ud fra robottens nuværende observationer . Denne forudsigelse fungerer på tværs af robotmanipulation, autonom kørsel, indendørs navigation og endda scenarier med menneskelig aktivitet. Modellen blev trænet på over 8,6 millioner kryds-scene træningspar og kan simulere mere end 1.300 manipulationsfærdigheder på over 20 robot-typer
.
Denne verdensmodel har umiddelbar praktisk værdi: den kan generere syntetiske videodata for at afhjælpe den kroniske datamangel inden for embodied AI, og den kan simulere konsekvenserne af en handling før en robot udfører den i virkeligheden, hvilket forbedrer præcision og sikkerhed .
Et kritisk designprincip i Qwen-Robot suiten er dens fleksibilitet ved implementering. Modellerne kan køres selvstændigt til enkeltstående funktioner – for eksempel at bruge Qwen-RobotNav alene i et lagerleveringskøretøj – eller integreres i en komplet løsning. Når de arbejder sammen, danner de tre modeller et lukket kredsløb, hvor perception (RobotNav og RobotManip) og forudsigelse (RobotWorld) forstærker hinanden, så en robot kan "gå, se og tænke" samtidigt .
Denne tilgang med en komplet løsning er tæt integreret med Alibabas bredere model-økosystem, herunder flagskibs-agentmodellen Qwen3.7-Max, som håndterer kompleks opgavedekomponering . Suitens grundlæggende afhængighed af open source-data og offentligt tilgængelige modeludgivelser passer også perfekt ind i Alibabas strategi om storstilet udvikleradoption
.
Qwen-Robot lanceringen er ikke et pludseligt eksperiment. Den repræsenterer kulminationen på en metodisk, flerårig march fra rent digital AI ind i det fysiske domæne.
I oktober 2025 annoncerede Qwens teknologichef, Justin Lin, offentligt dannelsen af et dedikeret internt robot- og embodied AI-team. Han fremstillede det som det næste logiske skridt for AI-agenter og udtalte, at multimodale modeller "bestemt bør træde fra den virtuelle verden til den fysiske verden" . Blot få måneder senere, i februar 2026, lancerede Alibaba Qwen 3.5, som eksplicit blev markedsført som en model til den "agentiske AI-æra", i stand til autonome, komplekse flertrinsopgaver
. Denne sprog- og ræsonneringskraft blev den kognitive rygrad for robotmodellerne, der blev lanceret i juni
.
Sideløbende med den interne udvikling foretog Alibaba også strategiske, eksterne træk. Deres cloud computing-enhed ledte en finansieringsrunde på 140 millioner dollars til den kinesiske robotstartup X Square Robot i 2025 . Denne flerstrengede strategi – intern R&D, et open source-modeløkosystem og investeringer i startups – positionerer Qwen-Robot suiten som en del af en større ambition om at være en omfattende "AI-fabrik" for en ny generation af fysiske, intelligente maskiner
.
Alibabas indtog i embodied AI placerer dem i direkte konkurrence med virksomheder som Nvidia, der tilbyder en kraftfuld simulerings- og computer-stak, og et voksende antal USA-baserede embodied AI-startups. Selvom de angivne kilder ikke tilbyder en direkte præstationssammenligning med disse konkurrenter, præsenterer Qwen-Robot suiten et særskilt værditilbud baseret på integration og tilgængelighed .
Suiten er et åbent, modulært fundament designet til at blive implementeret på tredjeparts-hardware med minimal tilpasning. Dette står i kontrast til en proprietær, vertikalt integreret stak, og positionerer Alibaba som en neutral modelleverandør til en bred vifte af robotproducenter. Virksomhedens største aktiv er dets eksisterende, omfattende Qwen-økosystem, som har produceret hundredvis af open source-modeller med over 600 millioner kumulative downloads, hvilket har skabt et massivt udviklerfællesskab, der nu kan bygge videre på robotfundamenterne .
Der er dog en betydelig usikkerhed. Suiten blev først annonceret i juni 2026, og den tilgængelige dokumentation mangler storskala kommercielle implementeringsmålinger eller data om langsigtet pålidelighed. Det er stadig uvist, hvordan disse modeller vil klare sig under variabiliteten i virkeligt ustrukturerede, langvarige industrielle opgaver. Den virkelige test for Alibabas fysiske AI-ambitioner vil være, om tilgængeligheden af disse modeller omsættes til bred adoption i robotindustrien generelt.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Alibabas Qwen Robot Suite er en trio af AI modeller lanceret i juni 2026, der giver robotter avancerede manipulationsevner, autonom navigation og evnen til at simulere fremtidige fysiske handlinger – et skridt fra cha...
Alibabas Qwen Robot Suite er en trio af AI modeller lanceret i juni 2026, der giver robotter avancerede manipulationsevner, autonom navigation og evnen til at simulere fremtidige fysiske handlinger – et skridt fra cha... Qwen RobotManip bruger en 80 dimensionel handlingsrepræsentation til at lade forskellig robothardware lære samlede fysiske færdigheder fra over 38.100 timers open source data; Qwen RobotNav forener fem navigationstype...
Suiten kan implementeres selvstændigt eller som en komplet løsning, men konkrete data for kommerciel udbredelse mangler, og direkte sammenligninger med konkurrenter som Nvidia er endnu ikke dokumenterede.
Loading comments...
Comments
0 comments