Alibaba da el salto del mundo digital al físico con Qwen Robot, una suite de tres modelos de IA que permite a los robots manipular objetos, navegar y simular acciones futuras, dejando atrás la era de los chatbots para... Qwen RobotManip usa una representación de 80 dimensiones para enseñar habilidades físicas unific...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba ha sido durante años un titán de la inteligencia artificial digital, pero su último movimiento marca un giro definitivo hacia el mundo tangible. En junio de 2026, la división Qwen de la compañía —conocida hasta ahora por sus populares modelos de lenguaje de código abierto— lanzó el Qwen-Robot Suite. Se trata de su primera familia de modelos de IA creados expresamente para la inteligencia corporizada (embodied intelligence), lo que representa un claro paso más allá de los chatbots, hacia sistemas que puedan percibir, razonar y actuar en entornos reales .
Desarrollado por el laboratorio Tongyi de Alibaba, este conjunto de herramientas ya ha entrado en programas piloto con clientes empresariales y está diseñado como un "chasis universal" para robots de diferentes formas y finalidades . La innovación principal reside en un sistema modular de tres partes que dota al robot de una "mano diestra", un "pie navegante" y un "cerebro pensante".
La arquitectura modular de la suite aborda el desafío fragmentado que supone construir una IA física. En lugar de un sistema monolítico, tres modelos independientes se encargan de capacidades separadas pero interconectadas.
Se trata de un modelo de Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) construido sobre la arquitectura Qwen3.5-4B, que funciona como el motor de manipulación de la suite . Su objetivo es traducir instrucciones en lenguaje natural a acciones físicas precisas para brazos robóticos.
La clave de su flexibilidad para adaptarse a distintos hardware reside en una representación unificada de acciones de 80 dimensiones, que funciona como un "lenguaje corporal" universal para las máquinas . Al estandarizar las instrucciones de acción y calcular los movimientos en relación con el encuadre de una cámara —en lugar de usar coordenadas absolutas—, RobotManip puede adaptarse rápidamente a nuevo hardware con ajustes mínimos, como un conductor experimentado que se acostumbra a un coche desconocido
.
Esta destreza se respalda con un volumen de datos considerable. El modelo fue preentrenado con más de 38.100 horas de video de demostraciones de robots y humanos de código abierto, abarcando 15 tipos de robots distintos . Este entrenamiento unificado a gran escala busca resolver el problema frecuente de la caída de rendimiento cuando un modelo robótico se traslada de una plataforma física a otra
. En pruebas de rendimiento, sus versiones alcanzaron los dos primeros puestos en tasas de éxito, llegando a realizar tareas complejas como voltear patatas fritas con dos brazos robóticos
.
Qwen-RobotNav es un modelo de Visión-Lenguaje-Navegación (VLN), construido sobre la familia Qwen3-VL y disponible en tamaños de 2B, 4B y 8B parámetros . Es la puerta de entrada a la acción para agentes físicos móviles, encargado de dotar a los robots de inteligencia espacial y movilidad autónoma
.
Lo que diferencia a Qwen-RobotNav es su capacidad para unificar cinco tareas de navegación distintas bajo un mismo marco, sin necesidad de cambiar de modelo. Estas incluyen el seguimiento de instrucciones, la navegación a un punto concreto, la navegación hacia un objeto, el seguimiento de un objetivo y la conducción autónoma . El modelo utiliza un protocolo de codificación de observación controlable y una interfaz de herramientas, lo que le permite conectar la comprensión del lenguaje visual directamente con el control de movimiento
. En la práctica, esto significa que un robot puede interpretar una orden hablada como "busca la sala de conferencias al final del pasillo" mientras procesa dinámicamente su entorno visual para navegar por espacios desconocidos sin un mapa predefinido
.
La tercera pieza, y quizás la más vanguardista de la suite, es el modelo de mundo de video condicionado por lenguaje. Está basado en un Transformador de Difusión Multimodal (MMDiT) de 60 capas, con un codificador congelado Qwen2.5-VL .
Qwen-RobotWorld no se limita a reconocer una escena; predice cómo cambiará dicha escena. Usando el lenguaje natural como una interfaz de acción unificada, genera trayectorias visuales futuras físicamente realistas a partir de la observación actual del robot . Esta predicción funciona en escenarios de manipulación robótica, conducción autónoma, navegación en interiores e incluso actividades humanas. El modelo fue entrenado con más de 8,6 millones de pares de entrenamiento multiescena y puede simular más de 1.300 habilidades de manipulación en más de 20 tipos de robots distintos
.
Este modelo de mundo tiene un valor práctico inmediato: puede generar datos de video sintéticos para aliviar la escasez crónica de datos en la IA corporizada y puede simular las consecuencias de una acción antes de que el robot la ejecute en el mundo real, mejorando la precisión y la seguridad .
Un principio de diseño fundamental del Qwen-Robot Suite es su flexibilidad de despliegue. Los modelos se pueden ejecutar de forma independiente para funciones concretas —por ejemplo, usando solo Qwen-RobotNav en un vehículo de reparto en un almacén— o integrarse en un sistema completo. Cuando trabajan juntos, los tres modelos forman un bucle cerrado donde la percepción (RobotNav y RobotManip) y la predicción (RobotWorld) se refuerzan mutuamente, permitiendo que un robot "camine, vea y piense" simultáneamente .
Este enfoque integral está estrechamente integrado con el ecosistema de modelos más amplio de Alibaba, incluyendo el modelo insignia Qwen3.7-Max, que se encarga de la descomposición de tareas complejas . La dependencia fundacional de la suite en datos de código abierto y el lanzamiento de modelos disponibles públicamente encaja también a la perfección con la estrategia de Alibaba de adopción a gran escala por parte de desarrolladores
.
El lanzamiento de Qwen-Robot no es un experimento repentino. Representa la culminación de un avance metódico de varios años desde la IA puramente digital hacia el dominio físico.
En octubre de 2025, el líder tecnológico de Qwen, Justin Lin, anunció públicamente la formación de un equipo interno dedicado a la robótica y la IA corporizada. Lo enmarcó como el siguiente paso lógico para los agentes de IA, afirmando que los modelos multimodales "definitivamente deben dar el paso del mundo virtual al mundo físico" . Solo unos meses después, en febrero de 2026, Alibaba lanzó Qwen 3.5, promocionándolo explícitamente como un modelo para la "era de la IA agéntica", capaz de realizar tareas complejas de varios pasos de forma autónoma
. Este poder de lenguaje y razonamiento se convirtió en la columna vertebral cognitiva de los modelos robóticos lanzados en junio
.
Paralelamente al desarrollo interno, Alibaba también realizó movimientos estratégicos externos. Su unidad de computación en la nube lideró una ronda de financiación de 140 millones de dólares para la startup china de robótica X Square Robot en 2025 . Esta estrategia múltiple —I+D interna, un ecosistema de modelos de código abierto e inversión en startups— posiciona al Qwen-Robot Suite como parte de una ambición mayor: ser una "fábrica de IA" integral para una nueva generación de máquinas físicas inteligentes
.
La entrada de Alibaba en la IA corporizada la sitúa en competencia directa con empresas como Nvidia, que proporciona una potente pila de simulación y computación, y un número creciente de startups de IA corporizada con sede en EE. UU. Aunque las fuentes disponibles no ofrecen una comparación directa de rendimiento frente a estos competidores, el Qwen-Robot Suite presenta una propuesta de valor distintiva basada en la integración y la accesibilidad .
La suite es una base abierta y modular diseñada para ser desplegada en hardware de terceros con una adaptación mínima. Esto contrasta con un enfoque propietario y verticalmente integrado, posicionando a Alibaba como un proveedor neutral de modelos para una amplia gama de fabricantes de robots. El mayor activo de la compañía es su enorme ecosistema Qwen preexistente, que ha producido cientos de modelos de código abierto con más de 600 millones de descargas acumuladas, creando una comunidad masiva de desarrolladores que ahora puede construir sobre sus cimientos robóticos .
Sin embargo, aún existe un nivel significativo de incertidumbre. La suite se acaba de anunciar en junio de 2026, y la documentación disponible carece de métricas de despliegue comercial a gran escala o datos de fiabilidad a largo plazo. Todavía se desconoce cómo se comportarán estos modelos bajo la variabilidad de tareas industriales no estructuradas y de larga duración. La verdadera prueba para la ambición de Alibaba en el ámbito de la IA física será si la disponibilidad de estos modelos se traduce en una adopción generalizada por parte de la industria robótica en su conjunto.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Alibaba da el salto del mundo digital al físico con Qwen Robot, una suite de tres modelos de IA que permite a los robots manipular objetos, navegar y simular acciones futuras, dejando atrás la era de los chatbots para...
Alibaba da el salto del mundo digital al físico con Qwen Robot, una suite de tres modelos de IA que permite a los robots manipular objetos, navegar y simular acciones futuras, dejando atrás la era de los chatbots para... Qwen RobotManip usa una representación de 80 dimensiones para enseñar habilidades físicas unificadas a diferentes robots; Qwen RobotNav unifica cinco tareas de navegación como seguir instrucciones o conducir de forma...
Aunque la suite ya se prueba con empresas y puede funcionar de forma modular o conjunta, aún no se conocen métricas de adopción a gran escala ni comparativas directas de rendimiento frente a rivales como Nvidia, lo qu...
Loading comments...
Comments
0 comments