Alibabas Qwen Robot Suite, lanserad i juni 2026, är en trio AI modeller som ger robotar avancerad manipulation, autonom navigering och förmågan att simulera framtida fysiska handlingar – ett kliv från chattbotar till... Qwen RobotManip använder en 80 dimensionell handlingsrepresentation för att lära olika robothårdv...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba har länge varit en dominant kraft inom digital AI, men företagets senaste drag markerar en definitiv sväng in i den fysiska världen. I juni 2026 lanserade företagets Qwen-division – tidigare mest känt för sina populära stora språkmodeller med öppen källkod – Qwen-Robot Suite. Detta är den första familjen AI-modeller som byggts specifikt för förkroppsligad intelligens (embodied intelligence på engelska). Här lämnar man alltså chattbotarnas värld för att istället styra maskiner som kan uppfatta, resonera och agera i verkliga miljöer .
Utvecklad av Alibabas forskningsenhet Tongyi Lab har sviten redan gått in i pilotprogram hos företagskunder och är designad som ett "universellt chassi" för robotar i olika former och med olika syften . Kärninnovationen är ett modulärt system i tre delar som ger en robot en "fingerfärdig hand", en "navigerande fot" och en "tänkande hjärna".
Svitens modulära arkitektur tar sig an den fragmenterade utmaningen att bygga fysisk AI. Snarare än ett enda monolitiskt system hanterar tre separata modeller olika men sammankopplade förmågor.
Detta är en Vision-Language-Action-modell (VLA) byggd på Qwen3.5-4B-arkitekturen och fungerar som svitens manipulationsmotor . Dess syfte är att översätta instruktioner på naturligt språk till precisa fysiska handlingar för robotarmar.
Nyckeln till denna hårdvaruöverskridande flexibilitet ligger i en 80-dimensionell enhetlig handlingsrepresentation, vilken fungerar som ett universellt "kroppsspråk" för maskiner . Genom att standardisera handlingsinstruktioner och beräkna rörelser relativt kamerans bild snarare än absoluta koordinater kan RobotManip snabbt anpassa sig till ny hårdvara med minimal finjustering – ungefär som en erfaren förare som sätter sig i en obekant bil
.
Denna fingerfärdighet stöds av en betydande mängd data. Modellen förtränades på över 38 100 timmar videomaterial från robotar och mänskliga demonstrationer med öppen källkod och täcker 15 olika robottyper . Denna storskaliga, enhetliga träning syftar till att lösa det vanliga problemet med prestandafall när en robotmodell flyttas mellan olika fysiska plattformar
. I benchmark-tester nådde dess versioner topp två-positioner i andel lyckade uppgifter och klarade komplexa sysslor som att vända pommes frites med dubbla armar
.
Qwen-RobotNav är en Vision-Language-Navigation-modell (VLN), byggd på Qwen3-VL-familjen och tillgänglig i storlekarna 2B, 4B och 8B parametrar . Den fungerar som handlingsporten för mobila fysiska agenter, med uppgift att ge robotar rumslig intelligens och autonom rörlighet
.
Det som utmärker Qwen-RobotNav är dess förmåga att förena fem distinkta navigeringsuppgifter under ett enda ramverk utan att byta modell. Dessa inkluderar instruktionsföljning, punktmålsnavigering, objektmålsnavigering, målspårning och autonom körning . Modellen använder ett kontrollerbart observationskodningsprotokoll och ett verktygsgränssnitt, vilket gör att den kan koppla samman visuell-språklig förståelse direkt med rörelsekontroll
. I praktiken betyder detta att en robot kan tolka ett talat kommando som "hitta konferensrummet längre ner i korridoren" samtidigt som den dynamiskt bearbetar sin visuella omgivning för att navigera i okända utrymmen utan en förbyggd karta
.
Den tredje och kanske mest framåtblickande delen av sviten är den språkstyrda videovärldsmodellen, baserad på en 60-lagers Multi-Modal Diffusion Transformer (MMDiT) med en fryst Qwen2.5-VL-kodare .
Qwen-RobotWorld känner inte bara igen en scen; den förutspår hur en scen kommer att förändras. Genom att använda naturligt språk som ett enhetligt handlingsgränssnitt genererar den fysiskt grundade framtida visuella banor från robotens aktuella observation . Denna förutsägelse fungerar över robotmanipulation, autonom körning, inomhusnavigering och till och med scenarier med mänsklig aktivitet. Modellen tränades på över 8,6 miljoner träningspar över olika scener och kan simulera mer än 1 300 manipulationsfärdigheter över 20+ robottyper
.
Denna världsmodell har ett omedelbart praktiskt värde: den kan generera syntetisk videodata för att lindra den kroniska databristen inom förkroppsligad AI, och den kan simulera konsekvenserna av en handling innan en robot utför den i den verkliga världen, vilket förbättrar precision och säkerhet .
En kritisk designprincip i Qwen-Robot Suite är dess flexibilitet vid driftsättning. Modellerna kan köras fristående för enskilda funktioner – till exempel att bara använda Qwen-RobotNav i ett leveransfordon för lager – eller integreras i en fullständig stack. När de tre modellerna samverkar bildar de ett slutet system där perception (RobotNav och RobotManip) och förutsägelse (RobotWorld) förstärker varandra, vilket gör att en robot kan "gå, se och tänka" samtidigt .
Detta fullstack-grepp är tätt integrerat med Alibabas bredare modellekosystem, inklusive flaggskeppsmodellen Qwen3.7-Max, som hanterar komplex uppgiftsnedbrytning . Svitens grundläggande beroende av öppen källdata och offentligt tillgängliga modellsläpp passar också väl in i Alibabas strategi för storskalig användning bland utvecklare
.
Lanseringen av Qwen-Robot är inget plötsligt experiment. Den representerar kulmen på en metodisk, flerårig marsch från enbart digital AI in i den fysiska domänen.
I oktober 2025 meddelade Qwens teknologiansvarige, Justin Lin, offentligt bildandet av ett dedikerat internt team för robotik och förkroppsligad AI. Han beskrev det som nästa logiska steg för AI-agenter och konstaterade att multimodala modeller "definitivt borde ta steget från den virtuella världen till den fysiska världen" . Bara några månader senare, i februari 2026, lanserade Alibaba Qwen 3.5, som uttryckligen marknadsfördes som en modell för den "agentiska AI-eran" kapabel till autonoma, komplexa flerstegsuppgifter
. Denna språk- och tankeförmåga blev den kognitiva ryggraden för de robotmodeller som lanserades i juni
.
Parallellt med den interna utvecklingen gjorde Alibaba också strategiska externa drag. Dess molntjänstenhet ledde en finansieringsrunda på 140 miljoner dollar för den kinesiska robotstartupen X Square Robot under 2025 . Denna flerfaldiga strategi – intern forskning och utveckling, ett ekosystem med öppen källkod och investeringar i startups – positionerar Qwen-Robot Suite som en del av en större ambition att vara en omfattande "AI-fabrik" för en ny generation fysiska, intelligenta maskiner
.
Alibabas intåg i den förkroppsligade AI:n placerar dem i direkt konkurrens med företag som Nvidia, som erbjuder en kraftfull simulerings- och beräkningsstack, och ett växande antal USA-baserade startups inom området. Även om källmaterialet inte erbjuder någon direkt prestandajämförelse mot dessa konkurrenter, presenterar Qwen-Robot Suite ett distinkt värdeerbjudande baserat på integration och tillgänglighet .
Sviten är en öppen, modulär grund designad för att driftsättas på tredjepartshårdvara med minimal anpassning. Detta kontrasterar mot en proprietär, vertikalt integrerad stack och positionerar Alibaba som en neutral modellleverantör för en rad robotillverkare. Företagets största tillgång är dess befintliga, storskaliga Qwen-ekosystem, som har producerat hundratals modeller med öppen källkod och över 600 miljoner ackumulerade nedladdningar, vilket skapar en massiv utvecklargemenskap som nu kan bygga vidare på robotgrunderna .
En betydande nivå av osäkerhet kvarstår dock. Sviten tillkännagavs först i juni 2026, och den tillgängliga dokumentationen saknar mätetal för storskalig kommersiell driftsättning eller data om långsiktig tillförlitlighet. Det är fortfarande okänt hur dessa modeller kommer att prestera under variabiliteten i verkligt ostrukturerade, långsiktiga industriuppgifter. Det verkliga testet för Alibabas fysiska AI-ambitioner blir huruvida tillgången på dessa modeller leder till bred användning inom robotindustrin i stort.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Alibabas Qwen Robot Suite, lanserad i juni 2026, är en trio AI modeller som ger robotar avancerad manipulation, autonom navigering och förmågan att simulera framtida fysiska handlingar – ett kliv från chattbotar till...
Alibabas Qwen Robot Suite, lanserad i juni 2026, är en trio AI modeller som ger robotar avancerad manipulation, autonom navigering och förmågan att simulera framtida fysiska handlingar – ett kliv från chattbotar till... Qwen RobotManip använder en 80 dimensionell handlingsrepresentation för att lära olika robothårdvaror enhetliga fysiska färdigheter från över 38 100 timmar öppen källdata; Qwen RobotNav förenar fem navigeringsuppgifte...
Sviten kan användas fristående eller som ett fullt integrerat system, men storskaliga kommersiella mätetal saknas fortfarande och direkta prestandajämförelser med konkurrenter som Nvidia är ännu inte dokumenterade.
Loading comments...
Comments
0 comments