C'est le modèle de manipulation de la suite. Techniquement, il s'agit d'un modèle Vision-Langage-Action (VLA) construit sur l'architecture Qwen3.5-4B . Sa mission est simple : traduire une instruction en langage naturel en une action physique précise pour un bras robotique. Par exemple, un opérateur pourrait dire « saisis la pièce bleue et pose-la à côté de la rouge » et le robot exécutera la tâche.
La flexibilité inter-machines de RobotManip repose sur un élément clé : une représentation d'action unifiée à 80 dimensions, une sorte de « langage corporel » universel pour machines . Au lieu de calculer des mouvements en coordonnées absolues complexes, le modèle raisonne en se basant sur ce que voit la caméra (coordonnées relatives), un peu comme un conducteur expérimenté qui s'adapte à une voiture inconnue en quelques coups d'accélérateur
.
Cette dextérité s'appuie sur un socle de données massif : plus de 38 100 heures de vidéos open source montrant des robots et des humains en action, couvrant 15 morphologies de robots différentes . Cette unification vise à résoudre un problème récurrent en robotique : la chute de performance lorsqu'un modèle entraîné sur un robot est transféré sur un autre matériel
. Lors de benchmarks, les versions du modèle ont atteint des taux de succès remarquables, allant jusqu'à réaliser des tâches complexes comme retourner des frites à deux bras
.
Si RobotManip est le bras, Qwen-RobotNav est les jambes et la boussole. Ce modèle de Vision-Langage-Navigation (VLN), basé sur la famille Qwen3-VL en versions 2B, 4B et 8B de paramètres, est la porte d'entrée vers l'autonomie mobile .
Sa force est d'unifier cinq tâches de navigation distinctes en une seule architecture, là où d'autres systèmes exigent de jongler entre plusieurs modèles. Cela inclut : suivre des instructions (« va jusqu'à la salle de réunion au bout du couloir »), la navigation vers un point ou un objet spécifique, le suivi de cible, et même la conduite autonome . Grâce à un protocole d'observation contrôlable et à une interface outil, le modèle connecte directement la compréhension visuelle et langagière au contrôle des mouvements
. Concrètement, un robot équipé de RobotNav peut se déplacer dans un immeuble de bureaux inconnu sans carte préétablie, simplement en interprétant ce qu'il voit et la consigne reçue
.
Le troisième modèle est le plus prospectif. Qwen-RobotWorld est un modèle de simulation vidéo du monde, conditionné par le langage. Basé sur un transformeur de diffusion multimodal (MMDiT) de 60 couches couplé à un encodeur Qwen2.5-VL, il ne se contente pas d'analyser une scène, il anticipe son évolution .
En utilisant le langage naturel comme interface d'action unifiée, RobotWorld prédit des séquences visuelles futures à partir de l'observation présente du robot . Des trajectoires physiquement crédibles sont générées, que ce soit pour une tâche de manipulation, un trajet en voiture ou une navigation intérieure. Capable de simuler plus de 1 300 compétences sur plus de 20 morphologies de robots et entraîné sur plus de 8,6 millions de paires de scènes, ce modèle génère également des données synthétiques pour pallier le manque chronique de données réelles en IA incarnée ; il permet aussi de simuler les conséquences d'une action avant qu'elle ne soit réellement exécutée, renforçant précision et sécurité
.
Un principe fondateur de la suite Qwen-Robot est la flexibilité. Chaque modèle peut être déployé de manière autonome — par exemple, utiliser uniquement Qwen-RobotNav dans un véhicule de livraison d'entrepôt — ou en pile complète et intégrée. Lorsqu'ils fonctionnent ensemble, ces trois modèles forment un système en boucle fermée, où la perception (RobotNav, RobotManip) et la prédiction (RobotWorld) se complètent, permettant à un robot de « marcher, voir et réfléchir » simultanément .
Cette pile complète s'intègre directement à l'écosystème plus large d'Alibaba, notamment avec le modèle phare Qwen3.7-Max, un modèle « agent » capable de décomposer des tâches complexes . Le fait que la suite s'appuie sur des modèles et des données massivement open source s'inscrit parfaitement dans la stratégie d'adoption à grande échelle du groupe chinois
.
Le lancement de Qwen-Robot n'est pas une lubie soudaine, mais l'aboutissement d'une feuille de route méthodique de plusieurs années pour passer du numérique au physique. Dès octobre 2025, Justin Lin, le responsable technologique de Qwen, annonçait la création d'une équipe interne dédiée à la robotique et à l'IA incarnée. Il décrivait cette étape comme logique, arguant que les modèles multimodaux « devaient absolument passer du monde virtuel au monde physique » .
Quelques mois plus tard, en février 2026, Alibaba dévoilait Qwen 3.5, un modèle présenté comme taillé pour « l'ère de l'IA agentique », capable de mener des tâches complexes de manière autonome . Cette puissance de raisonnement est devenue l'épine dorsale cognitive des modèles pour robots lancés en juin
. En parallèle du développement interne, la branche cloud d'Alibaba a mené un tour de table de 140 millions de dollars pour la startup chinoise de robotique X Square Robot en 2025, renforçant une stratégie d'investissement à 360 degrés
.
L'entrée d'Alibaba dans l'IA incarnée le place en concurrence directe avec des acteurs majeurs comme Nvidia (qui fournit un écosystème puissant de simulation et de calcul) ainsi qu'avec un nombre croissant de startups américaines du secteur. Si les sources disponibles ne proposent pas de comparaison directe des performances, la suite Qwen-Robot affiche une proposition de valeur distinctive : l'intégration et l'accessibilité.
Contrairement à une pile logicielle verticale et propriétaire, Alibaba se pose en fournisseur neutre d'une fondation modulaire et ouverte, conçue pour être déployée sur du matériel tiers avec un minimum d'adaptation. Son principal atout est l'immense communauté de l'écosystème Qwen, qui a déjà généré des centaines de modèles open source et plusieurs centaines de millions de téléchargements cumulés .
Pour autant, une incertitude majeure persiste. La suite n'a été annoncée qu'en juin 2026 et la documentation disponible manque de retours sur des déploiements commerciaux à grande échelle ou de données de fiabilité à long terme. La véritable résistance de ces modèles face à l'imprévisibilité de tâches industrielles longues et non structurées reste à prouver. Le vrai test pour l'ambition physique d'Alibaba sera de savoir si la disponibilité de ses modèles se traduira par une adoption massive par l'industrie de la robotique dans son ensemble.
Comments
0 comments