2026년 6월 공개된 Qwen Robot은 로봇에 정교한 조작 능력, 자율 내비게이션, 물리적 사전 시뮬레이션 능력을 부여하는 3종 AI 모델로 구성된 ‘범용 섀시’다. Qwen RobotManip은 80차원 통합 동작 표현으로 서로 다른 하드웨어에서 38,100시간 이상의 오픈소스 데이터를 학습해 만능 손 역할을 하며, RobotNav는 안내, 추적, 자율주행 등 5가지 내비게이션 작업을 단일 프레임워크로 통합한다.

Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen-Robot AI model suite for robotics, what are the roles of Qwen-RobotNav, Qwen-RobotManip, and Qwen-RobotWorld, how. Article summary: In June 2026, Alibaba launched the **Qwen-Robot Suite**, its first suite of AI models for robots, positioning it as a move beyond chatbot-style “digital AI” into embodied intelligence for the physical world [6][7]. The s. Topic tags: general, academic, general web, news, user generated. Reference image context from search candidates: Reference image 1: visual subject "BABA-W (09988.HK) -2.300 (-2.104%)) Short selling $836.00M; Ratio 11.269%) rolled out the Qwen-Robot embodied AI foundation model series, comprising three core models: the VLA man" source context "BABA-W Rolls out Qwen-Robot Embodied AI Foundation Model Series" Reference image 2: visual subject "B
알리바바는 그동안 디지털 AI 분야의 강자로 군림해 왔지만, 이번 행보는 분명한 ‘물리적 세계’로의 전환을 의미합니다. 2026년 6월, 오픈소스 거대 언어 모델(LLM)로 유명했던 회사의 ‘퉁이(Qwen)’ 연구실이 Qwen-Robot 스위트를 처음으로 공개했습니다. 이는 단순한 챗봇을 넘어, 현실 환경에서 인지하고 추론하며 행동하는 ‘체화된 지능(Embodied Intelligence)’을 위한 첫 AI 모델 패밀리입니다 .
알리바바 퉁이 연구소(Tongyi Lab)가 개발한 이 제품군은 이미 기업 고객 대상 시범 운영에 들어갔으며, 다양한 형태의 로봇을 위한 ‘범용 섀시’로 설계되었습니다 . 핵심 혁신은 로봇에 **‘민첩한 손’, ‘길 찾는 발’, ‘생각하는 뇌’**를 부여하는 모듈식 3종 시스템에 있습니다.
이 스위트의 모듈형 아키텍처는 물리적 AI 구축의 파편화된 과제를 해결합니다. 하나의 거대한 단일 시스템이 아닌, 상호 연결된 세 개의 모델이 각기 다른 능력을 담당하는 방식입니다.
이 모델은 Qwen3.5-4B 아키텍처를 기반으로 한 시각-언어-행동(VLA, Vision-Language-Action) 모델로, 스위트의 조작 엔진 역할을 합니다 . 주된 목적은 자연어 지시를 로봇 팔의 정밀한 물리적 동작으로 변환하는 것입니다.
다양한 하드웨어에 유연하게 대응하는 비결은 기계를 위한 범용 ‘보디 랭귀지’라 할 수 있는 **80차원의 통합 동작 표현(Unified Action Representation)**에 있습니다 . 동작 지시를 표준화하고 절대 좌표가 아닌 카메라 프레임을 기준으로 움직임을 계산함으로써, RobotManip은 숙련된 운전자가 낯선 차에 적응하듯 최소한의 튜닝만으로 새로운 하드웨어에 빠르게 적응할 수 있습니다
.
이러한 민첩성은 방대한 데이터로 뒷받침됩니다. 이 모델은 38,100시간 이상의 오픈소스 로봇 및 인간 시연 비디오 데이터를 사전 학습받았으며, 15종의 로봇 형태를 포괄합니다 . 이 대규모 통합 훈련은 로봇 모델을 다른 물리적 플랫폼으로 옮길 때 흔히 발생하는 성능 저하 문제를 해결하기 위한 것입니다
. 벤치마크 테스트에서 RobotManip의 여러 버전은 작업 성공률 부문 1, 2위를 차지했으며, 양팔로 감자튀김을 뒤집는 등 복잡한 작업을 해내는 모습을 보였습니다
.
Qwen-RobotNav는 Qwen3-VL 패밀리 기반의 시각-언어-내비게이션(VLN, Vision-Language-Navigation) 모델이며, 2B, 4B, 8B 크기로 제공됩니다 . 이는 물리적 에이전트가 공간 지능과 자율 이동 능력을 갖추도록 하는 ‘행동 관문’입니다
.
Qwen-RobotNav가 두드러지는 점은 다섯 가지의 서로 다른 내비게이션 작업을 모델 전환 없이 하나의 프레임워크로 통합했다는 사실입니다. 여기에는 지시 따르기, 지점 목표 내비게이션, 객체 목표 내비게이션, 목표 추적, 자율 주행이 포함됩니다 . 이 모델은 제어 가능한 관측 인코딩 프로토콜과 도구 인터페이스를 사용하여 시각-언어 이해를 동작 제어와 직접 연결합니다
. 실제로 이는 로봇이 “복도 끝 회의실을 찾아줘”라는 음성 명령을 듣고, 미리 지도를 구축하지 않은 채 시각적 주변 환경을 동적으로 처리하며 낯선 공간을 이동할 수 있음을 의미합니다
.
스위트의 세 번째이자 가장 미래 지향적인 요소는 언어 조건부 비디오 월드 모델입니다. 이는 고정된 Qwen2.5-VL 인코더를 사용하는 60레이어의 다중 모드 확산 트랜스포머(MMDiT)를 기반으로 합니다 .
Qwen-RobotWorld는 단순히 장면을 인식하는 데 그치지 않고, 장면이 어떻게 변할지 예측합니다. 자연어를 통합 동작 인터페이스로 사용하여 로봇의 현재 관측으로부터 물리적으로 그럴듯한 미래의 시각적 궤적을 생성합니다 . 이 예측은 로봇 조작, 자율 주행, 실내 내비게이션, 심지어 인간 활동 시나리오 전반에 걸쳐 작동합니다. 이 모델은 860만 개 이상의 교차 장면 훈련 쌍으로 학습되었으며, 20개 이상의 로봇 형태에서 1,300개 이상의 조작 기술을 시뮬레이션할 수 있습니다
.
이 월드 모델은 당장 실용적인 가치를 지닙니다. 체화된 AI의 만성적인 데이터 부족 문제를 완화하기 위해 합성 비디오 데이터를 생성할 수 있고, 로봇이 현실에서 행동을 실행하기 전에 그 결과를 시뮬레이션하여 정밀도와 안전성을 향상시킬 수 있습니다 .
Qwen-Robot 스위트의 핵심 설계 원칙 중 하나는 배포의 유연성입니다. 이 모델들은 독립형으로도, 예를 들어 창고 배송 로봇에 Qwen-RobotNav만 단독으로 사용하거나, 풀스택으로 통합하여 구동할 수도 있습니다. 세 모델이 함께 작동하면 인지(RobotNav 및 RobotManip)와 예측(RobotWorld)이 서로를 강화하는 폐쇄 루프 시스템을 형성하여, 로봇이 ‘걷고, 보고, 생각하는’ 것을 동시에 할 수 있게 합니다 .
이러한 풀스택 접근 방식은 복잡한 작업 분해를 처리하는 최상위 Qwen3.7-Max 에이전트 모델을 포함한 알리바바의 전체 모델 생태계와 긴밀하게 통합됩니다 . 오픈소스 데이터와 공개적으로 출시된 모델에 근본적으로 의존하는 이 스위트의 특성은, 대규모 개발자 도입을 이끌어내려는 알리바바의 전략과도 완벽히 맞아떨어집니다
.
Qwen-Robot의 출시는 갑작스러운 실험이 아닙니다. 이는 순수 디지털 AI에서 물리적 영역으로 향하는 수년간의 체계적인 행보가 결실을 맺은 결과물입니다.
2025년 10월, Qwen의 기술 리더인 Justin Lin은 로봇 공학 및 체화된 AI를 위한 전담 사내 팀을 공식적으로 신설했다고 발표했습니다. 그는 멀티모달 모델이 “반드시 가상 세계에서 물리적 세계로 나아가야 한다”고 말하며, 이것이 AI 에이전트의 다음 논리적 단계임을 분명히 했습니다 . 몇 달 후인 2026년 2월, 알리바바는 자율적 복합 작업을 수행할 수 있는 ‘AI 에이전트 시대’를 위한 모델임을 전면에 내세우며 Qwen 3.5를 공개했습니다
. 이 언어 및 추론 능력은 6월에 출시된 로봇 모델의 인지적 중추가 되었습니다
.
내부 개발과 함께, 알리바바는 전략적인 외부 움직임도 병행했습니다. 2025년 알리바바 클라우드는 중국 로봇 스타트업 X Square Robot의 1억 4천만 달러 규모 투자 라운드를 주도했습니다 . 내부 R&D, 오픈소스 모델 생태계, 스타트업 투자라는 이 다각화된 전략은 Qwen-Robot 스위트가 차세대 지능형 물리적 기계를 위한 포괄적인 ‘AI 공장’이 되려는 더 큰 야망의 일부임을 보여줍니다
.
알리바바의 체화된 AI 시장 진입은 강력한 시뮬레이션 및 컴퓨팅 스택을 제공하는 NVIDIA, 그리고 증가하는 미국 기반의 체화된 AI 스타트업들과의 직접적인 경쟁을 의미합니다. 제공된 소스에서 이들 경쟁사와의 직접적인 성능 비교는 제공되지 않았지만, Qwen-Robot 스위트는 통합과 접근성 측면에서 차별화된 가치를 제시합니다 .
이 스위트는 개방적이고 모듈화된 기반으로, 최소한의 적응만으로 타사 하드웨어에 배포할 수 있도록 설계되었습니다. 이는 독점적인 수직 통합 스택과 대비되며, 알리바바를 다양한 로봇 제조사를 위한 중립적인 모델 공급자로 자리매김하게 합니다. 회사의 가장 큰 자산은 누적 다운로드 6억 건 이상, 300개가 넘는 오픈소스 모델을 배출한 기존의 대규모 Qwen 생태계입니다. 이를 통해 거대한 개발자 커뮤니티가 이제 로봇 기반 위에서 새롭게 구축할 수 있게 된 것입니다 .
그러나 상당한 수준의 불확실성도 남아 있습니다. 이 스위트는 2026년 6월에 막 발표되었으며, 사용 가능한 문서에는 대규모 상업적 배포 지표나 장기적인 신뢰성 데이터가 부족합니다. 진정한 비정형 환경에서 장기간의 산업 작업을 수행할 때 이 모델들이 어떤 성능을 보일지는 아직 미지수입니다. 알리바바의 물리적 AI 야망에 대한 진정한 시험대는 이 모델들의 가용성이 로봇 산업 전반의 광범위한 도입으로 이어질지 여부가 될 것입니다.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
2026년 6월 공개된 Qwen Robot은 로봇에 정교한 조작 능력, 자율 내비게이션, 물리적 사전 시뮬레이션 능력을 부여하는 3종 AI 모델로 구성된 ‘범용 섀시’다.
2026년 6월 공개된 Qwen Robot은 로봇에 정교한 조작 능력, 자율 내비게이션, 물리적 사전 시뮬레이션 능력을 부여하는 3종 AI 모델로 구성된 ‘범용 섀시’다. Qwen RobotManip은 80차원 통합 동작 표현으로 서로 다른 하드웨어에서 38,100시간 이상의 오픈소스 데이터를 학습해 만능 손 역할을 하며, RobotNav는 안내, 추적, 자율주행 등 5가지 내비게이션 작업을 단일 프레임워크로 통합한다.
각 모델은 독립 또는 풀스택으로 배포 가능하지만, 실제 상업 환경에서의 대규모 도입 및 장기적 성능 지표는 아직 입증되지 않은 단계다.
Loading comments...
Comments
0 comments