阿里Qwen Robot套件于2026年6月推出,是三个AI模型组成的家族:Qwen RobotManip(灵巧操作)、Qwen RobotNav(自主导航)和Qwen RobotWorld(物理世界预测),标志着千问从聊天模型向具身物理智能的彻底转向。 操作模型采用80维统一动作表征,基于超38100小时开源数据训练,让不同硬件快速适配;导航模型在同一框架内统一指令跟随、目标搜索与自动驾驶等五大任务,无需手动切换模型。

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
阿里在数字AI领域一直是个庞然大物,但其最新动作标志着一次向物理世界的决定性转向。2026年6月,以热门开源大语言模型著称的千问团队发布了Qwen-Robot套件。这是其首个专为具身智能打造的大模型系列,意味着AI不再止步于聊天窗口,而是进入能感知、推理并在真实环境中行动的命令中枢。
该套件由阿里通义实验室开发,已进入企业客户试点阶段,被设计为不同形态机器人的“通用底座”。其核心创新在于一个模块化的三件套系统,相当于给机器人装上“灵巧的手”“认路的脚”和“会思考的大脑”。
套件的模块化架构试图应对构建物理AI时碎片化的挑战。它们不是铁板一块的单体系统,而是三个模型各司其职,又能彼此连接。
这是一个基于Qwen3.5-4B架构的视觉-语言-动作模型,充当套件的操作引擎。它的目的,是把自然语言指令转化为机械臂的精确物理动作。
其跨硬件灵活性的关键,在于一套80维的统一动作表征,它就像机器的通用“肢体语言”,为不同硬件定义了标准化的动作指令。同时,模型不再依赖繁琐的绝对坐标,而是基于摄像头画面中的相对位置操作,让动作计算更快、更准。搭载到不同硬件上,Qwen-RobotManip只需几步反馈就能自动适配,好比一位老司机坐进陌生车辆,试几脚油门就能上路
。
这种灵巧性背后是庞大的数据支撑。该模型基于超过38100小时的开源机器人数据与人类演示视频进行预训练,覆盖15种机器人形态。这种大规模的统一训练,意在解决机器人模型在切换不同物理平台时常见的性能暴跌问题
。在第三方权威评测中,不同版本在任务成功率上包揽前两名,甚至能完成双手炸薯条这类高难度复杂任务
。
Qwen-RobotNav是一个视觉-语言-导航模型,基于Qwen3-VL家族构建,提供2B、4B和8B三种参数规格。它是移动物理智能体的行动入口,任务就是赋予机器人空间智能和自主移动能力
。
Qwen-RobotNav的独特之处,在于它将五大类不同导航任务统一到一个框架下,无需切换模型。这包括指令跟随、点到点导航、物体目标导航、目标追踪和自动驾驶。模型采用可控观测编码协议和工具接口,将视觉语言理解与运动控制直接对接
。实践中,一个机器人听到“到走廊尽头找会议室”这样的口头指令,就能在陌生空间里动态解析视觉环境并自主导航,而不依赖预先建好的地图
。
套件的第三块拼图,或许也是最具前瞻性的一块,是一个基于语言驱动的视频世界模型。它采用60层的多模态扩散Transformer架构,并整合了已冻结参数的Qwen2.5-VL编码器。
Qwen-RobotWorld不只识别某个场景,而是预测该场景下一秒会如何变化。它以自然语言作为统一动作接口,从机器人当前观察出发,生成符合物理规律的未来视频轨迹。这种预测能力横跨机器人操作、自动驾驶、室内导航,甚至人类行为场景。该模型基于超过860万组跨场景训练对训练而成,能模拟1300多种操作技能,覆盖20余种机器人形态
。
这个世界模型有立竿见影的实用价值:其一,它可以生成合成视频数据,缓解具身智能领域长期存在的数据饥荒;其二,它能在真实世界执行动作之前,预先推演该动作的后果,提升操作精度和安全性。
Qwen-Robot套件一个至关重要的设计理念,是部署的灵活性。这些模型既可以独立运行——比如在仓库送货车上单独使用Qwen-RobotNav;也可以整合成完整的技术栈。三个模型协同工作时,构成一个闭环系统:RobotNav和RobotManip负责感知,RobotWorld负责预判,三者相互增强,使机器人真正实现“边走、边看、边思考”。
这种全栈式方法与阿里更广泛的模型生态紧密集成,其中就包括作为旗舰的Qwen3.7-Max智能体模型,后者负责处理复杂的任务拆解。该套件从根本上依赖开源数据并向公众发布模型,这也完全契合阿里大规模开发者生态的扩展策略
。
Qwen-Robot的推出并非一场突袭实验,而是阿里巴巴多年来从纯数字AI到物理领域系统性行军的顶点。
2025年10月,千问技术负责人林俊旸就公开宣布,已在千问内部组建一个专门负责机器人与具身智能的小团队。他将此框定为AI智能体的必然下一步,称多模态基础模型“绝对应从虚拟世界迈入物理世界”。仅仅数月后,2026年2月,阿里发布Qwen 3.5,明确将其定位为“AI智能体时代”的模型,能够自主完成复杂的多步骤任务
。这些语言和推理能力,成了此次6月机器人模型发布背后的认知基石
。
除了内部研发,阿里也做了相应的外部布局。2025年,旗下阿里云领投了中国机器人初创公司星尘智能1.4亿美元融资轮。这套多路并进的打法——内部自研、开源模型生态、初创公司投资——将Qwen-Robot套件置于一个更大的雄心之下:为新一代物理智能机器提供一站式“AI工厂”
。
阿里切入具身AI,使其与英伟达这类提供强大仿真与计算堆栈的公司,以及不断涌现的美国具身AI初创公司形成直接竞争。尽管现有资料并未提供直接的性能对比,但Qwen-Robot套件呈现了一个基于集成与可访问性的独特价值主张。
它是一套开放的模块化地基,可在第三方硬件上以最小适配量进行部署。这与封闭垂直集成的路线形成对比,将阿里定位为面向多种机器人制造商的、中立的模型供应商。这家公司最大的资产恰恰是其已有的庞大千问开发者生态。自2023年发布首代模型起,阿里已开源超300个AI模型,累计下载量超6亿次,衍生模型超过17万个。这意味着数量庞大的开发者社区,如今可以直接基于这套机器人地基进行构建。
然而,不确定性也同样巨大。该套件2026年6月方才发布,现有资料缺乏大规模的商业落地指标或长期可靠性数据。模型在高度非结构化、长时间跨度的工业任务中会有怎样的表现,仍然未知。对阿里物理AI野心的真正检验,将在于这套模型的开源可得性能否真正转化为整个机器人行业的大规模采纳。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
阿里Qwen Robot套件于2026年6月推出,是三个AI模型组成的家族:Qwen RobotManip(灵巧操作)、Qwen RobotNav(自主导航)和Qwen RobotWorld(物理世界预测),标志着千问从聊天模型向具身物理智能的彻底转向。
阿里Qwen Robot套件于2026年6月推出,是三个AI模型组成的家族:Qwen RobotManip(灵巧操作)、Qwen RobotNav(自主导航)和Qwen RobotWorld(物理世界预测),标志着千问从聊天模型向具身物理智能的彻底转向。 操作模型采用80维统一动作表征,基于超38100小时开源数据训练,让不同硬件快速适配;导航模型在同一框架内统一指令跟随、目标搜索与自动驾驶等五大任务,无需手动切换模型。
尽管套件可独立或全栈部署,但其大规模商用落地指标尚未验证,与英伟达等对手的直接性能对比也还未对外披露。
Loading comments...
Comments
0 comments