A Alibaba lançou em junho de 2026 o Qwen Robot Suite, um trio de modelos de IA que dá aos robôs manipulação avançada, navegação autônoma e a capacidade de simular ações físicas futuras — um salto estratégico dos chatb... O Qwen RobotManip usa uma representação de ação de 80 dimensões para ensinar diferentes hardware...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
A Alibaba sempre foi uma força dominante no campo da inteligência artificial digital, mas seu movimento mais recente marca uma guinada definitiva para o mundo físico. Em junho de 2026, a divisão Qwen — antes conhecida por seus populares modelos de linguagem de código aberto — lançou o Qwen-Robot Suite. Esta é sua primeira família de modelos de IA construída especificamente para a inteligência incorporada, representando um claro passo além dos chatbots e rumo ao comando de máquinas que podem perceber, raciocinar e agir em ambientes reais .
Desenvolvida pelo Tongyi Lab, o laboratório de pesquisa de IA da Alibaba, a suíte já está em programas-piloto com clientes empresariais e foi projetada como um "chassi universal" para robôs de diferentes formas e finalidades . A inovação central está em um sistema modular de três partes, que equipa um robô com uma "mão habilidosa", um "pé que sabe o caminho" e um "cérebro pensante".
A arquitetura modular da suíte ataca o desafio fragmentado de se construir uma IA para o mundo físico. Em vez de um sistema monolítico, três modelos separados lidam com capacidades distintas, porém interconectadas.
Este é um modelo de Visão-Linguagem-Ação (VLA), construído sobre a arquitetura Qwen3.5-4B, que funciona como o motor de manipulação da suíte . Seu propósito é traduzir instruções em linguagem natural para ações físicas precisas em braços robóticos.
A chave para sua flexibilidade entre diferentes hardwares está em uma representação de ação unificada de 80 dimensões, que funciona como uma "linguagem corporal" universal para as máquinas . Ao padronizar as instruções de ação e calcular os movimentos em relação ao quadro da câmera, e não a coordenadas absolutas, o RobotManip pode se adaptar rapidamente a novos hardwares com o mínimo de ajuste — como um motorista experiente que se adapta a um carro desconhecido
.
Essa destreza é apoiada por uma base de dados significativa. O modelo foi pré-treinado com mais de 38.100 horas de vídeos de demonstração de robôs e humanos de código aberto, cobrindo 15 formatos diferentes de robôs . O objetivo desse treinamento unificado em larga escala é resolver o problema comum da queda de desempenho quando um modelo robótico é transferido entre diferentes plataformas físicas
. Em testes de benchmark, suas versões alcançaram as duas primeiras posições em taxas de sucesso de tarefas, realizando desde ações simples, como abrir uma torneira, até feitos complexos, como virar batatas fritas com dois braços robóticos
.
O Qwen-RobotNav é um modelo de Visão-Linguagem-Navegação (VLN), construído sobre a família Qwen3-VL e disponível em tamanhos de 2B, 4B e 8B parâmetros . Ele é a porta de entrada para a ação de agentes físicos móveis, encarregado de dar aos robôs inteligência espacial e mobilidade autônoma
.
O que diferencia o Qwen-RobotNav é sua unificação de cinco tarefas distintas de navegação sob uma única estrutura, sem a necessidade de trocar de modelo. Isso inclui seguir instruções, navegação por ponto de destino, navegação por objeto de destino, rastreamento de alvos e direção autônoma . O modelo utiliza um protocolo de codificação de observação controlável e uma interface de ferramentas, conectando o entendimento visão-linguagem diretamente ao controle de movimento
. Na prática, isso significa que um robô pode interpretar um comando falado como "encontre a sala de conferências no final do corredor" enquanto processa dinamicamente seu entorno visual para navegar em espaços desconhecidos, sem um mapa pré-construído
.
A terceira peça da suíte é o modelo de mundo em vídeo condicionado por linguagem, baseado em um Multi-Modal Diffusion Transformer (MMDiT) de 60 camadas com um codificador Qwen2.5-VL congelado .
O Qwen-RobotWorld não apenas reconhece uma cena; ele prevê como a cena vai mudar. Usando a linguagem natural como uma interface de ação unificada, ele gera trajetórias visuais futuras, com base na física, a partir da observação atual do robô . Essa previsão opera em cenários de manipulação robótica, direção autônoma, navegação interna e até mesmo atividades humanas. O modelo foi treinado com mais de 8,6 milhões de pares de treinamento de cenas variadas e pode simular mais de 1.300 habilidades de manipulação em mais de 20 formatos de robôs
.
Este modelo de mundo tem um valor prático imediato: ele pode gerar dados sintéticos em vídeo para aliviar a crônica falta de dados em IA incorporada, e pode simular as consequências de uma ação antes que um robô a execute no mundo real, melhorando a precisão e a segurança .
Um princípio de design fundamental do Qwen-Robot Suite é sua flexibilidade de implementação. Os modelos podem ser executados de forma independente para funções singulares — por exemplo, usando apenas o Qwen-RobotNav em um veículo de entrega de armazém — ou integrados em uma pilha completa. Ao trabalharem juntos, os três modelos formam um sistema de ciclo fechado onde a percepção (RobotNav e RobotManip) e a previsão (RobotWorld) se reforçam mutuamente, permitindo que um robô "ande, veja e pense" simultaneamente .
Esta abordagem de pilha completa está profundamente integrada ao ecossistema de modelos mais amplo da Alibaba, incluindo o principal modelo agente Qwen3.7-Max, que lida com a decomposição de tarefas complexas . A dependência fundamental da suíte em dados de código aberto e nos lançamentos de modelos públicos também se encaixa perfeitamente na estratégia da Alibaba de adoção em larga escala por desenvolvedores
.
O lançamento do Qwen-Robot não é um experimento repentino. Ele representa o ápice de uma marcha metódica de vários anos, saindo da IA puramente digital para o domínio físico.
Em outubro de 2025, o líder de tecnologia do Qwen, Justin Lin, anunciou publicamente a formação de uma equipe interna dedicada à robótica e IA incorporada. Ele classificou o movimento como o próximo passo lógico para os agentes de IA, afirmando que modelos multimodais "definitivamente deveriam dar o passo do mundo virtual para o mundo físico" . Apenas alguns meses depois, em fevereiro de 2026, a Alibaba lançou o Qwen 3.5, comercializando-o explicitamente como um modelo para a "era da IA agêntica", capaz de realizar tarefas complexas e autônomas de múltiplas etapas
. Esse poder de linguagem e raciocínio tornou-se a espinha dorsal cognitiva para os modelos de robô lançados em junho
.
Paralelamente ao desenvolvimento interno, a Alibaba também fez movimentos externos estratégicos. Sua unidade de computação em nuvem liderou uma rodada de investimento de US$ 140 milhões na startup chinesa de robótica X Square Robot, em 2025 . Essa estratégia multifacetada — P&D interno, um ecossistema de modelos de código aberto e investimento em startups — posiciona o Qwen-Robot Suite como parte de uma ambição maior de ser uma "fábrica de IA" abrangente para uma nova geração de máquinas inteligentes e físicas
.
A entrada da Alibaba na IA incorporada a coloca em concorrência direta com empresas como a Nvidia, que fornece uma poderosa pilha de simulação e computação, e um número crescente de startups de IA incorporada sediadas nos EUA. Embora as fontes não ofereçam uma comparação direta de desempenho com esses concorrentes, o Qwen-Robot Suite apresenta uma proposta de valor distinta baseada em integração e acessibilidade .
A suíte é uma base aberta e modular, projetada para ser implantada em hardware de terceiros com o mínimo de adaptação. Isso contrasta com uma pilha proprietária e verticalmente integrada, posicionando a Alibaba como uma fornecedora neutra de modelos para uma gama de fabricantes de robôs. O maior patrimônio da empresa é seu já existente e massivo ecossistema Qwen, que já produziu centenas de modelos de código aberto com mais de 600 milhões de downloads acumulados, criando uma enorme comunidade de desenvolvedores que agora podem construir sobre suas fundações robóticas .
No entanto, um nível significativo de incerteza permanece. A suíte foi anunciada apenas em junho de 2026, e a documentação disponível carece de métricas de implantação comercial em larga escala ou dados de confiabilidade de longo prazo. Ainda não se sabe como esses modelos se sairão sob a variabilidade de tarefas industriais verdadeiramente não estruturadas e de longo horizonte. O verdadeiro teste para a ambição de IA física da Alibaba será se a disponibilidade desses modelos se traduzirá em uma adoção generalizada pela indústria robótica como um todo.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
A Alibaba lançou em junho de 2026 o Qwen Robot Suite, um trio de modelos de IA que dá aos robôs manipulação avançada, navegação autônoma e a capacidade de simular ações físicas futuras — um salto estratégico dos chatb...
A Alibaba lançou em junho de 2026 o Qwen Robot Suite, um trio de modelos de IA que dá aos robôs manipulação avançada, navegação autônoma e a capacidade de simular ações físicas futuras — um salto estratégico dos chatb... O Qwen RobotManip usa uma representação de ação de 80 dimensões para ensinar diferentes hardwares robóticos a partir de 38.100 horas de dados abertos; o Qwen RobotNav unifica cinco tarefas de navegação em um só modelo...
Embora a suíte possa ser usada de forma independente ou integrada, as métricas de adoção comercial em larga escala e as comparações de desempenho direto com concorrentes como a Nvidia ainda não foram documentadas, dei...
Loading comments...
Comments
0 comments