Alibabas Qwen Robot suite er en trio av AI modeller lansert i juni 2026 som gir roboter avansert manipulasjon, autonom navigasjon og evnen til å simulere fremtidige fysiske handlinger – et steg fra chatboter til fullv... Qwen RobotManip bruker en 80 dimensjonal handlingsrepresentasjon for å lære opp ulik robothardwa...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba har lenge vært en dominerende kraft innen digital KI, men selskapets siste trekk markerer en definitiv vending mot den fysiske verden. I juni 2026 lanserte selskapets Qwen-divisjon – tidligere kjent for sine populære åpen kildekode-språkmodeller – Qwen-Robot Suite. Dette er den første familien med KI-modeller spesialbygd for kroppsliggjort intelligens, og representerer et klart steg forbi tekstroboter og inn i kommandoen over maskiner som kan sanse, resonnere og handle i virkelige omgivelser .
Utviklet av Alibabas forskningsenhet Tongyi Lab, har suiten allerede gått inn i pilotprogrammer med bedriftskunder og er designet som et "universelt chassis" for roboter i ulike former og størrelser . Kjerneinnovasjonen er et modulært, tredelt system som gir en robot en "fingernem hånd", en "navigerende fot" og en "tenkende hjerne".
Suitens modulære arkitektur adresserer den fragmenterte utfordringen med å bygge fysisk KI. I stedet for ett monolittisk system, håndterer tre modeller separate, men sammenkoblede evner.
Dette er en Visjon-Språk-Handling-modell (VLA) bygget på Qwen3.5-4B-arkitekturen, og fungerer som suitens manipulasjonsmotor . Dens formål er å oversette instruksjoner på naturlig språk til presise, fysiske handlinger for robotarmer.
Nøkkelen til den smidige tilpasningen på tvers av ulik maskinvare ligger i en 80-dimensjonal, enhetlig handlingsrepresentasjon, som fungerer som et universelt "kroppsspråk" for maskiner . Ved å standardisere handlingsinstruksjoner og beregne bevegelser i forhold til et kamerabilde i stedet for absolutte koordinater, kan RobotManip raskt tilpasse seg ny maskinvare med minimal finjustering – omtrent som en erfaren sjåfør som setter seg inn i en ukjent bil
.
Denne fingernemheten er støttet av betydelige datamengder. Modellen ble forhåndstrent på over 38 100 timer med åpen kildekode-video av roboter og menneskelige demonstrasjoner, og dekker 15 robotutførelser . Denne storskalatreningen har som mål å løse det vanlige problemet med ytelsesfall når en robotmodell flyttes mellom ulike fysiske plattformer
. I referansetester oppnådde versjonene topp to-plasseringer i oppgavegjennomføring, og håndterte komplekse oppgaver som å snu pommes frites med to armer
.
Qwen-RobotNav er en Visjon-Språk-Navigasjonsmodell (VLN), bygget på Qwen3-VL-familien og tilgjengelig i størrelsene 2B, 4B og 8B parametere . Den er handlingsportalen for mobile fysiske agenter, og har som oppgave å gi roboter romlig intelligens og autonom mobilitet
.
Det som skiller Qwen-RobotNav ut, er dens samling av fem distinkte navigasjonsoppgaver under ett enkelt rammeverk, uten å måtte bytte modell. Disse inkluderer instruksjonsfølging, punktmål-navigasjon, objektmål-navigasjon, målsporing og autonom kjøring . Modellen bruker en kontrollerbar observasjonskodingsprotokoll og et verktøygrensesnitt, som gjør at den kan koble visuell-språklig forståelse direkte med bevegelseskontroll
. I praksis betyr dette at en robot kan tolke en muntlig kommando som "finn konferanserommet nedover gangen" mens den dynamisk prosesserer sine visuelle omgivelser for å navigere i ukjente rom uten et forhåndsdefinert kart
.
Det tredje, og kanskje mest fremtidsrettede elementet i suiten, er den språkbetingede videoverdensmodellen, basert på en 60-lags Multi-Modal Diffusion Transformer (MMDiT) med en frosset Qwen2.5-VL-koder .
Qwen-RobotWorld gjenkjenner ikke bare en scene; den forutsier hvordan scenen vil endre seg. Ved å bruke naturlig språk som et enhetlig handlingsgrensesnitt, genererer den fysisk forankrede, fremtidige visuelle baner fra robotens nåværende observasjon . Denne prediksjonen opererer på tvers av robotmanipulasjon, autonom kjøring, innendørsnavigasjon og til og med scenarioer med menneskelig aktivitet. Modellen ble trent på over 8,6 millioner treningspar på tvers av ulike scenarioer og kan simulere mer enn 1300 manipulasjonsferdigheter på over 20 robotutførelser
.
Denne verdensmodellen har umiddelbar praktisk verdi: den kan generere syntetiske videodata for å avhjelpe den kroniske datamangelen innen kroppsliggjort KI, og den kan simulere konsekvensene av en handling før en robot utfører den i den virkelige verden, noe som forbedrer presisjon og sikkerhet .
Et kritisk designprinsipp for Qwen-Robot Suite er dens fleksibilitet ved utrulling. Modellene kan kjøres frittstående for enkeltfunksjoner – for eksempel kun å bruke Qwen-RobotNav i et leveringskjøretøy på et lager – eller integreres i en komplett stakk. Når de tre modellene samarbeider, danner de et lukket kretsløp der persepsjon (RobotNav og RobotManip) og prediksjon (RobotWorld) forsterker hverandre, noe som gjør det mulig for en robot å "gå, se og tenke" samtidig .
Denne full-stakk-tilnærmingen er tett integrert med Alibabas bredere modelløkosystem, inkludert flaggskipets agentmodell Qwen3.7-Max, som håndterer kompleks oppgavedekomponering . Suitens grunnleggende avhengighet av åpen kildekode-data og offentlig tilgjengelige modellutgivelser passer også rett inn i Alibabas strategi for storskala utvikleradopsjon
.
Lanseringen av Qwen-Robot er ikke et plutselig eksperiment. Den representerer kulminasjonen av en metodisk, flerårig marsj fra ren digital KI til det fysiske domenet.
I oktober 2025 kunngjorde Qwens teknologileder, Justin Lin, offentlig dannelsen av et dedikert, internt team for robotikk og kroppsliggjort KI. Han formulerte det som det neste logiske steget for KI-agenter, og uttalte at multimodale modeller "definitivt bør ta steget fra den virtuelle verden til den fysiske verden" . Bare noen måneder senere, i februar 2026, lanserte Alibaba Qwen 3.5, og markedsførte den eksplisitt som en modell for "den agentiske KI-æraen", i stand til autonome, komplekse flertrinnsoppgaver
. Denne språk- og resonneringskraften ble den kognitive ryggraden for robotmodellene som ble lansert i juni
.
Parallelt med intern utvikling, gjorde Alibaba også strategiske eksterne trekk. Selskapets skytjenesteenhet ledet en finansieringsrunde på 140 millioner dollar for den kinesiske robotikk-startupen X Square Robot i 2025 . Denne flerstrengede strategien – intern FoU, et økosystem med åpen kildekode-modeller og startup-investeringer – posisjonerer Qwen-Robot Suite som en del av en større ambisjon om å være en omfattende "KI-fabrikk" for en ny generasjon fysiske, intelligente maskiner
.
Alibabas inntog i kroppsliggjort KI plasserer dem i direkte konkurranse med selskaper som Nvidia, som tilbyr en kraftig simulerings- og datakraftstakk, og et økende antall USA-baserte startups innen kroppsliggjort KI. Selv om de oppgitte kildene ikke tilbyr en direkte ytelsessammenligning mot disse konkurrentene, presenterer Qwen-Robot Suite et distinkt verdiforslag basert på integrasjon og tilgjengelighet .
Suiten er et åpent, modulært fundament designet for å utplasseres på tredjeparts maskinvare med minimal tilpasning. Dette står i kontrast til en proprietær, vertikalt integrert stakk, og posisjonerer Alibaba som en nøytral modell-leverandør for en rekke robotprodusenter. Selskapets største fortrinn er dets eksisterende, storskala Qwen-økosystem, som har produsert hundrevis av modeller med åpen kildekode med over 600 millioner kumulative nedlastinger, og skapt et massivt utviklerfellesskap som nå kan bygge videre på robotfundamentene .
Det hersker imidlertid en betydelig grad av usikkerhet. Suiten ble kun annonsert i juni 2026, og den tilgjengelige dokumentasjonen mangler storskala kommersielle utrullingsmålinger eller langsiktig pålitelighetsdata. Det er fortsatt ukjent hvordan disse modellene vil prestere under variasjonen i virkelig ustrukturerte, langvarige industrielle oppgaver. Den virkelige testen for Alibabas ambisjoner om fysisk KI vil være om tilgjengeligheten av disse modellene fører til bred adopsjon i robotindustrien som helhet.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Alibabas Qwen Robot suite er en trio av AI modeller lansert i juni 2026 som gir roboter avansert manipulasjon, autonom navigasjon og evnen til å simulere fremtidige fysiske handlinger – et steg fra chatboter til fullv...
Alibabas Qwen Robot suite er en trio av AI modeller lansert i juni 2026 som gir roboter avansert manipulasjon, autonom navigasjon og evnen til å simulere fremtidige fysiske handlinger – et steg fra chatboter til fullv... Qwen RobotManip bruker en 80 dimensjonal handlingsrepresentasjon for å lære opp ulik robothardware med ferdigheter fra over 38 100 timer med åpen data; Qwen RobotNav forener fem navigasjonsoppgaver; RobotWorld forutse...
Selv om suiten kan tas i bruk enkeltvis eller som en full stakk, mangler den foreløpig dokumenterte kommersielle ytelsesmålinger, og det finnes ingen direkte ytelsessammenligninger med konkurrenter som Nvidia.
Loading comments...
Comments
0 comments