Alibaba представила Qwen Robot Suite — три ИИ модели, которые дают роботам ловкие манипуляции, автономную навигацию и способность предсказывать физические действия, знаменуя переход от чат ботов к полноценному управле... Qwen RobotManip использует 80 мерное представление действий, чтобы разное «железо» осваивало еди...

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
Alibaba давно доминирует в цифровом ИИ, однако июнь 2026 года ознаменовал решительный поворот компании в физический мир. Подразделение Qwen, известное прежде всего популярными открытыми языковыми моделями, запустило Qwen-Robot Suite. Это первое семейство ИИ-моделей, целенаправленно созданное для так называемого «воплощённого интеллекта» (embodied intelligence), — шаг от привычных чат-ботов к управлению машинами, способными воспринимать, рассуждать и действовать в реальной среде .
Разработкой руководила лаборатория Tongyi Lab, входящая в состав Alibaba. Комплект уже проходит пилотное тестирование у корпоративных клиентов и задуман как «универсальное шасси» для роботов разной конструкции и назначения . Ключевая инновация — модульная трёхкомпонентная архитектура: роботу дают «ловкую руку», «навигационную стопу» и «думающий мозг».
Модульность здесь призвана решить извечную проблему: собрать физический ИИ из одного монолитного куска крайне сложно. Вместо этого три модели выполняют разные, но тесно связанные функции.
Это визуально-языковая модель действий (Vision-Language-Action, VLA), построенная на архитектуре Qwen3.5-4B. Она играет роль «движка манипуляции» — переводит инструкции на естественном языке в точные физические движения роботизированных манипуляторов .
Секрет её кросс-аппаратной гибкости кроется в 80-мерном унифицированном представлении действий. Если угодно, это универсальный «язык тела» для машин . Стандартизируя команды и рассчитывая движения относительно кадра камеры (а не в абсолютных координатах), RobotManip быстро адаптируется к новому «железу» с минимальной настройкой — как опытный водитель, которому достаточно пару раз нажать на педаль газа в незнакомой машине, чтобы освоиться
.
Такая ловкость подкреплена внушительным объёмом данных. Модель предварительно обучена на более чем 38 100 часах открытых видеозаписей с роботами и демонстраций людей, охватывая 15 типов конструкций роботов . Столь масштабное унифицированное обучение призвано устранить распространённую проблему: падение производительности при переносе модели на другую физическую платформу
. В независимых тестах разные версии заняли первые два места по доле успешно выполненных задач, справляясь даже с такой сложной работой, как переворачивание картофеля фри двумя манипуляторами одновременно
.
Qwen-RobotNav — это модель визуально-языковой навигации (Vision-Language-Navigation, VLN), построенная на семействе Qwen3-VL и доступная в размерах 2B, 4B и 8B параметров . Она служит «воротами в движение» для мобильных физических агентов и отвечает за пространственный интеллект и автономную мобильность
.
Главное преимущество Qwen-RobotNav в том, что она объединяет в одной системе пять различных навигационных задач без необходимости переключения между моделями. Среди них: следование инструкциям, навигация к заданной точке или объекту, отслеживание целей и даже автономное вождение . Модель использует контролируемый протокол кодирования наблюдений и инструментальный интерфейс, напрямую связывая визуально-языковое понимание с управлением движением
. На практике это означает, что робот может осмыслить устную команду вроде «найди конференц-зал в конце коридора» и при этом в реальном времени анализировать визуальное окружение, чтобы сориентироваться в незнакомом пространстве без заранее построенной карты
.
Третья и, пожалуй, самая дальновидная часть комплекта — это видео-модель мира с языковым управлением, построенная на 60-слойном мультимодальном диффузионном трансформере (Multi-Modal Diffusion Transformer, MMDiT) с замороженным кодировщиком Qwen2.5-VL .
Qwen-RobotWorld не просто распознаёт сцену — она предсказывает, как эта сцена изменится. Используя естественный язык в качестве единого интерфейса действий, она генерирует физически достоверные будущие визуальные траектории на основе текущего наблюдения робота . Такой прогноз работает в сценариях роботизированных манипуляций, автономного вождения, навигации в помещении и даже для человеческой активности. Модель обучена на более чем 8,6 миллиона кросс-сценарных пар и может симулировать свыше 1300 навыков манипуляции для более чем 20 типов конструкций роботов
.
У этой «модели мира» есть непосредственная практическая ценность: она способна генерировать синтетические видеоданные, смягчая хроническую нехватку данных для обучения «воплощённого ИИ», а также проигрывать последствия действия ещё до того, как робот начнёт его выполнять в реальности, повышая точность и безопасность .
Ключевой принцип проектирования Qwen-Robot Suite — гибкость развёртывания. Модели можно запускать независимо для выполнения узких задач (скажем, использовать только Qwen-RobotNav в складском транспорте) или объединять в полный стек. При совместной работе три модели образуют замкнутую систему, где восприятие (RobotNav и RobotManip) и прогнозирование (RobotWorld) взаимно усиливают друг друга, позволяя роботу «одновременно ходить, видеть и думать» .
Такой полнофункциональный подход глубоко интегрирован с более широкой экосистемой моделей Alibaba, включая флагманскую агентную модель Qwen3.7-Max, которая берёт на себя сложную декомпозицию задач . Опора комплекта на открытые данные и публично доступные версии моделей также полностью вписывается в стратегию Alibaba по масштабному привлечению разработчиков
.
Запуск Qwen-Robot — не внезапный эксперимент. Это кульминация методичного многолетнего перехода от чисто цифрового ИИ в физическую сферу.
В октябре 2025 года технический руководитель Qwen Джастин Линь (Justin Lin) публично рассказал о формировании специальной внутренней команды по робототехнике и «воплощённому ИИ». Он назвал это следующим логическим шагом для ИИ-агентов, заявив, что мультимодальные модели «обязательно должны шагнуть из виртуального мира в физический» . А уже в феврале 2026 года Alibaba запустила Qwen 3.5, открыто позиционируя её как модель для «эры агентного ИИ», способную автономно решать сложные многошаговые задачи
. Этот лингвистический и логический «мозг» и стал когнитивной основой для робототехнических моделей, представленных в июне
.
Параллельно с внутренними разработками компания делала значимые внешние шаги. В 2025 году облачное подразделение Alibaba возглавило раунд финансирования на $140 млн для китайского робототехнического стартапа X Square Robot . Эта многовекторная стратегия — внутренние R&D, открытая экосистема моделей и инвестиции в стартапы — позиционирует Qwen-Robot Suite как часть большой амбиции стать комплексной «ИИ-фабрикой» для нового поколения физических интеллектуальных машин
.
Выход Alibaba на рынок «воплощённого ИИ» ставит её в прямую конкуренцию с такими компаниями, как Nvidia (предлагающая мощный стек симуляции и вычислений), и растущим числом американских стартапов в этой области. Прямых сравнений производительности с ними в представленных на данный момент источниках нет, однако Qwen-Robot Suite обладает отчётливым ценностным предложением, основанным на интеграции и доступности .
Это открытый, модульный фундамент, спроектированный для развёртывания на стороннем «железе» с минимальной адаптацией. Такой подход контрастирует с проприетарными вертикально интегрированными стеками и позиционирует Alibaba как нейтрального поставщика моделей для целого спектра производителей роботов. Главный актив компании — огромная экосистема Qwen, в рамках которой уже выпущены сотни открытых моделей, суммарно скачанных более 600 миллионов раз. Это создало колоссальное сообщество разработчиков, готовое строить проекты на её «роботизированном фундаменте» .
Остаётся, однако, значительная неопределённость. Комплект был анонсирован лишь в июне 2026 года, и в доступной сейчас документации отсутствуют метрики крупномасштабного коммерческого внедрения или данные о долгосрочной надёжности. Пока неизвестно, как эти модели покажут себя в условиях по-настоящему неструктурированных, продолжительных промышленных задач. Настоящей проверкой для физических ИИ-амбиций Alibaba станет то, превратится ли доступность этих моделей в их широкое внедрение робототехнической индустрией в целом.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Alibaba представила Qwen Robot Suite — три ИИ модели, которые дают роботам ловкие манипуляции, автономную навигацию и способность предсказывать физические действия, знаменуя переход от чат ботов к полноценному управле...
Alibaba представила Qwen Robot Suite — три ИИ модели, которые дают роботам ловкие манипуляции, автономную навигацию и способность предсказывать физические действия, знаменуя переход от чат ботов к полноценному управле... Qwen RobotManip использует 80 мерное представление действий, чтобы разное «железо» осваивало единые физические навыки на основе 38 100 часов открытых данных; Qwen RobotNav объединяет пять навигационных задач, включая...
Набор можно разворачивать как по частям, так и в виде единого «полного стека», но реальные метрики коммерческого внедрения пока не обнародованы, а прямых сравнений с конкурентами вроде Nvidia ещё нет.
Loading comments...
Comments
0 comments