過往,工程師要幫機械人轉平台,往往要由頭寫過晒啲Code,好似換部新電話就要重新學打字咁。Qwen-RobotManip就唔同,佢係計相對於鏡頭嘅位置,而唔係死咕咕嘅絕對座標。呢個設計令佢換機好似老司機揸新車咁,踩兩腳油門就即刻上手,唔使大費周章重新調校 。
為咗練成呢身好武功,呢個模型事前睇咗超過38,100個鐘頭嘅開源機械人同人類示範影片,涵蓋15種唔同嘅機械人形態 。喺第三方嘅權威測試入面,佢啲唔同版本嘅任務成功率直頭包攬頭兩名,複雜到「雙手反轉薯條」呢類高難度動作都難佢唔倒
。
呢個模型最犀利嘅地方,係將五種原本要分開處理嘅導航任務,統一收歸同一個框架搞掂,中途唔使換Model。呢五種任務包括:指令跟隨、點對點導航、物件目標導航、目標追蹤同自動駕駛 。佢仲有個可以控制嘅觀察編碼協議同工具接口,直接將視覺語言理解駁落去郁動控制嗰度
。
Qwen-RobotWorld唔似得一般AI咁淨係識辨認眼前係乜,而係識得預測下一刻會發生咩事。佢用自然語言作為統一嘅動作指令接口,由機械人當下嘅觀察畫面,推算出符合物理定律嘅未來視像軌跡 。呢種預測能力跨越咗操作、自動駕駛、室內導航,甚至係人類活動場景。成個模型用咗超過860萬對跨場景嘅訓練數據,識得模擬超過1,300種操作技能,支援20幾種機械人形態
。
成個Qwen-Robot套件嘅設計就係「任你點砌」。你可以單獨部署其中一個模型,例如淨係將Qwen-RobotNav裝落去倉庫運貨車,等佢識得自己行。又或者玩全棧整合,將三個模型砌埋一齊,組成一個行得、睇得、諗得嘅閉環系統,令感知(RobotNav同RobotManip)同預測(RobotWorld)互相加強,真正做到「一邊行、一邊睇、一邊思考」。
呢種全棧玩法背後,梗係唔少得阿里成個模型家族嘅支援,特別係旗艦級嘅Qwen3.7-Max代理模型,專門負責拆解複雜嘅大任務 。而且,成個套件由頭到尾都係建基於開源數據同公開發放嘅模型,呢個策略同阿里想大規模吸引開發者嘅玩法一脈相承
。
Qwen-Robot嘅出現絕對唔係一時興起爆出嚟,而係一場部署咗好耐、一步步由純數碼AI走入物理世界嘅大龍鳳。
早喺2025年10月,千問嘅技術話事人Justin Lin(林俊暘)就喺社交平台X度公開宣布,佢哋喺千問內部成立咗一支專門搞機械人同具身智能嘅小隊。佢當時好霸氣咁話,多模態嘅基礎模型「絕對要由虛擬世界踩入現實世界」,好明顯係為今日呢一步定調 。事隔幾個月,到咗2026年2月,阿里就推出咗Qwen 3.5,仲好高調咁將佢標榜為「AI代理時代」嘅模型,話佢已經識得處理複雜嘅多步驟任務
。呢個語言同推理能力嘅大腦,就係之後6月出街嘅機械人模型嘅認知基石
。
除咗自己閉門造車,阿里對外嘅動作都唔慢。佢哋嘅阿里雲喺2025年帶頭,向中國機械人初創公司X Square Robot掟咗1.4億美金(約10.9億港元) 。呢種「內部研發、開源生態、初創投資」三管齊下嘅策略,擺明車馬想將Qwen-Robot打造成一間「AI工廠」,專為新一代嘅實體智能機器提供一條龍服務
。
阿里踩入呢個範疇,等於要同Nvidia呢啲有晒強勁模擬同運算平台嘅巨頭,以及美國一大班做具身智能嘅初創公司直接硬撼。雖然手上嘅資料冇直接將Qwen-Robot同佢哋嘅性能作比較,但係阿里嘅賣點好清楚,就係整合同易用 。
成個套件係一個開放、模組化嘅基礎平台,目標係放落去第三方硬件度用,而且唔使點樣大改。呢個同對手鍾意搞封閉式、垂直整合嘅玩法好唔同,阿里係想做一間中立嘅模型供應商,畀所有機械人製造商都用得著。
阿里手上最大嘅籌碼,就係佢經營咗咁耐嘅千問生態圈。由2023年到依家,佢哋已經開源咗超過300個AI模型,全球累計下載次數超過6億次,衍生咗超過17萬個模型 。即係話,佢哋本身已經有個好龐大嘅開發者社群,而家只係將呢個社群嘅力量引導去砌機械人嘅基礎上面
。
不過,現實梗係冇咁完美。而家最大嘅不確定性,就係呢套嘢喺2026年6月先至新鮮出爐,所有資料入面都未見到有大規模商業落地嘅數據,或者長期運行嘅穩定性報告。佢哋究竟頂唔頂得順現實世界嗰種雜亂無章、長時間工作嘅工業任務,真係冇人知。阿里呢場「實體AI大夢」成唔成功,最終都係要睇有幾多機械人公司願意真金白銀磅水去用。
Comments
0 comments