ОтветыОпубликовано2 недели назадLast edited 2 недели назад27 источники

Alibaba выпускает Qwen-Robot: триада ИИ, дающая машинам ловкие руки, зоркий глаз и думающий мозг

Alibaba представила Qwen Robot Suite — три ИИ модели, которые дают роботам ловкие манипуляции, автономную навигацию и способность предсказывать физические действия, знаменуя переход от чат ботов к полноценному управле... Qwen RobotManip использует 80 мерное представление действий, чтобы разное «железо» осваивало еди...

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

252K0

An abstract visualization of three AI-powered robots representing the Qwen-Robot Suite's capabilities in manipulation, navigation, and world modeling. — What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, howAlibaba's Qwen-Robot Suite introduces three foundation models designed to power manipulation, navigation, and world prediction for physical AI agents.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
openai.com

Alibaba давно доминирует в цифровом ИИ, однако июнь 2026 года ознаменовал решительный поворот компании в физический мир. Подразделение Qwen, известное прежде всего популярными открытыми языковыми моделями, запустило Qwen-Robot Suite. Это первое семейство ИИ-моделей, целенаправленно созданное для так называемого «воплощённого интеллекта» (embodied intelligence), — шаг от привычных чат-ботов к управлению машинами, способными воспринимать, рассуждать и действовать в реальной среде .

Разработкой руководила лаборатория Tongyi Lab, входящая в состав Alibaba. Комплект уже проходит пилотное тестирование у корпоративных клиентов и задуман как «универсальное шасси» для роботов разной конструкции и назначения . Ключевая инновация — модульная трёхкомпонентная архитектура: роботу дают «ловкую руку», «навигационную стопу» и «думающий мозг».

Три модели — три роли

Модульность здесь призвана решить извечную проблему: собрать физический ИИ из одного монолитного куска крайне сложно. Вместо этого три модели выполняют разные, но тесно связанные функции.

Qwen-RobotManip: ловкая рука

Это визуально-языковая модель действий (Vision-Language-Action, VLA), построенная на архитектуре Qwen3.5-4B. Она играет роль «движка манипуляции» — переводит инструкции на естественном языке в точные физические движения роботизированных манипуляторов .

Секрет её кросс-аппаратной гибкости кроется в 80-мерном унифицированном представлении действий. Если угодно, это универсальный «язык тела» для машин . Стандартизируя команды и рассчитывая движения относительно кадра камеры (а не в абсолютных координатах), RobotManip быстро адаптируется к новому «железу» с минимальной настройкой — как опытный водитель, которому достаточно пару раз нажать на педаль газа в незнакомой машине, чтобы освоиться .

Такая ловкость подкреплена внушительным объёмом данных. Модель предварительно обучена на более чем 38 100 часах открытых видеозаписей с роботами и демонстраций людей, охватывая 15 типов конструкций роботов . Столь масштабное унифицированное обучение призвано устранить распространённую проблему: падение производительности при переносе модели на другую физическую платформу . В независимых тестах разные версии заняли первые два места по доле успешно выполненных задач, справляясь даже с такой сложной работой, как переворачивание картофеля фри двумя манипуляторами одновременно .

Qwen-RobotNav: зоркий глаз навигатора

Qwen-RobotNav — это модель визуально-языковой навигации (Vision-Language-Navigation, VLN), построенная на семействе Qwen3-VL и доступная в размерах 2B, 4B и 8B параметров . Она служит «воротами в движение» для мобильных физических агентов и отвечает за пространственный интеллект и автономную мобильность .

Главное преимущество Qwen-RobotNav в том, что она объединяет в одной системе пять различных навигационных задач без необходимости переключения между моделями. Среди них: следование инструкциям, навигация к заданной точке или объекту, отслеживание целей и даже автономное вождение . Модель использует контролируемый протокол кодирования наблюдений и инструментальный интерфейс, напрямую связывая визуально-языковое понимание с управлением движением . На практике это означает, что робот может осмыслить устную команду вроде «найди конференц-зал в конце коридора» и при этом в реальном времени анализировать визуальное окружение, чтобы сориентироваться в незнакомом пространстве без заранее построенной карты .

Qwen-RobotWorld: думающий мозг

Третья и, пожалуй, самая дальновидная часть комплекта — это видео-модель мира с языковым управлением, построенная на 60-слойном мультимодальном диффузионном трансформере (Multi-Modal Diffusion Transformer, MMDiT) с замороженным кодировщиком Qwen2.5-VL .

Qwen-RobotWorld не просто распознаёт сцену — она предсказывает, как эта сцена изменится. Используя естественный язык в качестве единого интерфейса действий, она генерирует физически достоверные будущие визуальные траектории на основе текущего наблюдения робота . Такой прогноз работает в сценариях роботизированных манипуляций, автономного вождения, навигации в помещении и даже для человеческой активности. Модель обучена на более чем 8,6 миллиона кросс-сценарных пар и может симулировать свыше 1300 навыков манипуляции для более чем 20 типов конструкций роботов .

У этой «модели мира» есть непосредственная практическая ценность: она способна генерировать синтетические видеоданные, смягчая хроническую нехватку данных для обучения «воплощённого ИИ», а также проигрывать последствия действия ещё до того, как робот начнёт его выполнять в реальности, повышая точность и безопасность .

Развёртывание и интеграция

Ключевой принцип проектирования Qwen-Robot Suite — гибкость развёртывания. Модели можно запускать независимо для выполнения узких задач (скажем, использовать только Qwen-RobotNav в складском транспорте) или объединять в полный стек. При совместной работе три модели образуют замкнутую систему, где восприятие (RobotNav и RobotManip) и прогнозирование (RobotWorld) взаимно усиливают друг друга, позволяя роботу «одновременно ходить, видеть и думать» .

Такой полнофункциональный подход глубоко интегрирован с более широкой экосистемой моделей Alibaba, включая флагманскую агентную модель Qwen3.7-Max, которая берёт на себя сложную декомпозицию задач . Опора комплекта на открытые данные и публично доступные версии моделей также полностью вписывается в стратегию Alibaba по масштабному привлечению разработчиков .

От чат-ботов к физическим агентам: стратегический разворот

Запуск Qwen-Robot — не внезапный эксперимент. Это кульминация методичного многолетнего перехода от чисто цифрового ИИ в физическую сферу.

В октябре 2025 года технический руководитель Qwen Джастин Линь (Justin Lin) публично рассказал о формировании специальной внутренней команды по робототехнике и «воплощённому ИИ». Он назвал это следующим логическим шагом для ИИ-агентов, заявив, что мультимодальные модели «обязательно должны шагнуть из виртуального мира в физический» . А уже в феврале 2026 года Alibaba запустила Qwen 3.5, открыто позиционируя её как модель для «эры агентного ИИ», способную автономно решать сложные многошаговые задачи . Этот лингвистический и логический «мозг» и стал когнитивной основой для робототехнических моделей, представленных в июне .

Параллельно с внутренними разработками компания делала значимые внешние шаги. В 2025 году облачное подразделение Alibaba возглавило раунд финансирования на $140 млн для китайского робототехнического стартапа X Square Robot . Эта многовекторная стратегия — внутренние R&D, открытая экосистема моделей и инвестиции в стартапы — позиционирует Qwen-Robot Suite как часть большой амбиции стать комплексной «ИИ-фабрикой» для нового поколения физических интеллектуальных машин .

Конкурентная позиция и неопределённости

Выход Alibaba на рынок «воплощённого ИИ» ставит её в прямую конкуренцию с такими компаниями, как Nvidia (предлагающая мощный стек симуляции и вычислений), и растущим числом американских стартапов в этой области. Прямых сравнений производительности с ними в представленных на данный момент источниках нет, однако Qwen-Robot Suite обладает отчётливым ценностным предложением, основанным на интеграции и доступности .

Это открытый, модульный фундамент, спроектированный для развёртывания на стороннем «железе» с минимальной адаптацией. Такой подход контрастирует с проприетарными вертикально интегрированными стеками и позиционирует Alibaba как нейтрального поставщика моделей для целого спектра производителей роботов. Главный актив компании — огромная экосистема Qwen, в рамках которой уже выпущены сотни открытых моделей, суммарно скачанных более 600 миллионов раз. Это создало колоссальное сообщество разработчиков, готовое строить проекты на её «роботизированном фундаменте» .

Остаётся, однако, значительная неопределённость. Комплект был анонсирован лишь в июне 2026 года, и в доступной сейчас документации отсутствуют метрики крупномасштабного коммерческого внедрения или данные о долгосрочной надёжности. Пока неизвестно, как эти модели покажут себя в условиях по-настоящему неструктурированных, продолжительных промышленных задач. Настоящей проверкой для физических ИИ-амбиций Alibaba станет то, превратится ли доступность этих моделей в их широкое внедрение робототехнической индустрией в целом.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Alibaba выпускает Qwen-Robot: триада ИИ, дающая машинам ловкие руки, зоркий глаз и думающий мозг»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Набор можно разворачивать как по частям, так и в виде единого «полного стека», но реальные метрики коммерческого внедрения пока не обнародованы, а прямых сравнений с конкурентами вроде Nvidia ещё нет.

Источники

Comments

0 comments

Loading comments...

← Back to Trending