La suite Qwen Robot di Alibaba, lanciata a giugno 2026, è un trio di modelli IA che fornisce ai robot manipolazione avanzata, navigazione autonoma e la capacità di simulare azioni fisiche future, segnando il passaggio... Qwen RobotManip utilizza una rappresentazione dell'azione a 80 dimensioni per permettere a hardw...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba è da tempo una forza dominante nell'intelligenza artificiale digitale, ma la sua ultima mossa segna una svolta netta verso il mondo fisico. A giugno 2026, la divisione Qwen dell'azienda — già nota per i suoi popolari modelli linguistici open source — ha lanciato la Qwen-Robot Suite. Si tratta della sua prima famiglia di modelli IA costruiti appositamente per l'intelligenza incarnata, un chiaro passo oltre le chatbot per comandare macchine in grado di percepire, ragionare e agire in ambienti reali .
Sviluppata dal Tongyi Lab di Alibaba, la suite è già entrata in programmi pilota con clienti aziendali ed è stata progettata come un "telaio universale" per robot di diverse forme e scopi . L'innovazione principale risiede in un'architettura modulare a tre componenti che, come spiega la stessa azienda, fornisce a un robot una "mano abile", un "piede che sa orientarsi" e un "cervello pensante".
L'architettura modulare della suite affronta la sfida, storicamente frammentata, di costruire un'intelligenza fisica. Invece di un unico sistema monolitico, tre modelli separati gestiscono capacità distinte ma interconnesse.
È un modello Vision-Language-Action (VLA) costruito sull'architettura Qwen3.5-4B e rappresenta il motore di manipolazione della suite . Il suo scopo è tradurre istruzioni in linguaggio naturale in azioni fisiche precise per bracci robotici.
La chiave della sua flessibilità cross-hardware risiede in una rappresentazione unificata dell'azione a 80 dimensioni, che funziona come un "linguaggio del corpo" universale per le macchine . Standardizzando le istruzioni di movimento e calcolando gli spostamenti rispetto all'inquadratura di una telecamera, invece che in coordinate assolute, RobotManip può adattarsi rapidamente a nuovo hardware con una messa a punto minima — proprio come un guidatore esperto che si adatta a un'auto sconosciuta in pochi istanti
.
Questa abilità è supportata da un'enorme quantità di dati. Il modello è stato pre-addestrato su oltre 38.100 ore di video dimostrativi open source di robot e umani, coprendo 15 diverse morfologie robotiche . Questo addestramento unificato su larga scala mira a risolvere il comune problema del calo di prestazioni quando un modello robotico viene trasferito tra piattaforme fisiche diverse
. Nei test benchmark, le sue versioni hanno raggiunto le prime due posizioni per tasso di successo nei compiti, gestendo attività complesse come il girare patatine fritte con due braccia
.
Qwen-RobotNav è un modello Vision-Language-Navigation (VLN), costruito sulla famiglia Qwen3-VL e disponibile in taglie da 2, 4 e 8 miliardi di parametri . È la porta d'accesso all'azione per gli agenti fisici mobili, incaricato di fornire ai robot intelligenza spaziale e mobilità autonoma
.
Ciò che distingue Qwen-RobotNav è la sua capacità di unificare cinque distinti compiti di navigazione sotto un unico framework, senza bisogno di cambiare modello. Questi includono: seguire istruzioni, navigazione verso un punto, navigazione verso un oggetto, inseguimento di un bersaglio e guida autonoma . Il modello utilizza un protocollo di codifica dell'osservazione controllabile e un'interfaccia per strumenti, permettendogli di collegare la comprensione visivo-linguistica direttamente con il controllo del movimento
. In pratica, questo significa che un robot può interpretare un comando vocale come "trova la sala conferenze in fondo al corridoio" mentre elabora dinamicamente l'ambiente visivo circostante per navigare in spazi sconosciuti, senza bisogno di una mappa pre-costruita
.
Il terzo e forse più lungimirante componente della suite è il modello di mondo video condizionato dal linguaggio, basato su un Multi-Modal Diffusion Transformer (MMDiT) a 60 strati con un codificatore Qwen2.5-VL congelato .
Qwen-RobotWorld non si limita a riconoscere una scena; ne predice l'evoluzione. Utilizzando il linguaggio naturale come interfaccia d'azione unificata, genera traiettorie visive future e fisicamente verosimili a partire dall'osservazione corrente del robot . Questa capacità predittiva opera attraverso scenari di manipolazione robotica, guida autonoma, navigazione indoor e persino attività umane. Il modello è stato addestrato su oltre 8,6 milioni di coppie di addestramento cross-scenario e può simulare più di 1.300 abilità di manipolazione su oltre 20 morfologie robotiche
.
Questo modello di mondo ha un valore pratico immediato: può generare dati video sintetici per alleviare la cronica carenza di dati nell'IA incarnata e può simulare le conseguenze di un'azione prima che un robot la esegua nel mondo reale, migliorando precisione e sicurezza .
Un principio di progettazione fondamentale della Qwen-Robot Suite è la sua flessibilità di implementazione. I modelli possono funzionare in modalità standalone per funzioni singole — ad esempio, usando solo Qwen-RobotNav in un veicolo per consegne in magazzino — oppure essere integrati in uno stack completo. Quando lavorano insieme, i tre modelli formano un sistema a circuito chiuso in cui percezione (RobotNav e RobotManip) e predizione (RobotWorld) si rafforzano a vicenda, permettendo a un robot di "camminare, vedere e pensare" simultaneamente .
Questo approccio full-stack è profondamente integrato con l'ecosistema di modelli più ampio di Alibaba, incluso il modello di punta Qwen3.7-Max, che gestisce la scomposizione di compiti complessi . La dipendenza della suite da dati open source e il rilascio pubblico dei modelli si inseriscono perfettamente nella strategia di Alibaba di adozione su larga scala da parte degli sviluppatori
.
Il lancio di Qwen-Robot non è un esperimento improvviso. Rappresenta il culmine di un percorso meticoloso e pluriennale dall'IA puramente digitale verso il dominio fisico.
Nell'ottobre 2025, Justin Lin, responsabile tecnologico di Qwen, annunciò pubblicamente la formazione di un team interno dedicato alla robotica e all'IA incarnata. Lo inquadrò come il prossimo passo logico per gli agenti IA, affermando che i modelli multimodali "dovrebbero assolutamente passare dal mondo virtuale a quello fisico" . Pochi mesi dopo, a febbraio 2026, Alibaba lanciò Qwen 3.5, commercializzandolo esplicitamente come un modello per "l'era dell'IA agentica", capace di svolgere compiti complessi in più fasi in modo autonomo
. Questa potenza linguistica e di ragionamento è diventata la spina dorsale cognitiva per i modelli robotici lanciati a giugno
.
Parallelamente allo sviluppo interno, Alibaba ha fatto anche mosse strategiche esterne. La sua unità di cloud computing ha guidato un round di finanziamento da 140 milioni di dollari per la startup robotica cinese X Square Robot nel 2025 . Questa strategia a più livelli — R&S interna, un ecosistema di modelli open source e investimenti in startup — posiziona la Qwen-Robot Suite come parte di un'ambizione più grande: diventare una "fabbrica di IA" completa per una nuova generazione di macchine fisiche e intelligenti
.
L'ingresso di Alibaba nell'IA incarnata la pone in diretta competizione con aziende come Nvidia, che fornisce un potente stack di simulazione e calcolo, e con un numero crescente di startup americane del settore. Sebbene le fonti disponibili non offrano un confronto diretto delle prestazioni con questi concorrenti, la Qwen-Robot Suite presenta una proposta di valore distintiva basata su integrazione e accessibilità .
La suite è una base modulare e aperta, progettata per essere implementata su hardware di terze parti con un adattamento minimo. Questo approccio contrasta con uno stack proprietario e verticalmente integrato, posizionando Alibaba come un fornitore neutrale di modelli per una vasta gamma di produttori di robot. La più grande risorsa dell'azienda è il suo già imponente ecosistema Qwen, che ha prodotto centinaia di modelli open source con oltre 600 milioni di download cumulativi, creando una massiccia comunità di sviluppatori che ora può costruire sulle sue fondamenta robotiche .
Tuttavia, permane un significativo livello di incertezza. La suite è stata annunciata solo a giugno 2026 e la documentazione disponibile manca di metriche di implementazione commerciale su larga scala o di dati sull'affidabilità a lungo termine. Non è ancora noto come questi modelli si comporteranno sotto la variabilità di compiti industriali realmente non strutturati e di lunga durata. La vera prova per l'ambizione di Alibaba nell'IA fisica sarà verificare se la disponibilità di questi modelli si tradurrà in un'adozione diffusa da parte dell'intera industria robotica.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
La suite Qwen Robot di Alibaba, lanciata a giugno 2026, è un trio di modelli IA che fornisce ai robot manipolazione avanzata, navigazione autonoma e la capacità di simulare azioni fisiche future, segnando il passaggio...
La suite Qwen Robot di Alibaba, lanciata a giugno 2026, è un trio di modelli IA che fornisce ai robot manipolazione avanzata, navigazione autonoma e la capacità di simulare azioni fisiche future, segnando il passaggio... Qwen RobotManip utilizza una rappresentazione dell'azione a 80 dimensioni per permettere a hardware robotici diversi di apprendere abilità fisiche unificate da oltre 38.100 ore di dati open source; Qwen RobotNav unifi...
Sebbene la suite possa essere implementata in modo indipendente o come stack completo, i parametri di adozione nel mondo reale restano da verificare, e non sono ancora stati documentati confronti diretti delle prestaz...
Loading comments...
Comments
0 comments