กุญแจสำคัญสู่ความยืดหยุ่นข้ามฮาร์ดแวร์อยู่ที่ การแทนค่าการกระทำแบบเดียวกัน 80 มิติ (80-dimension unified action representation) ซึ่งทำงานเหมือนกับ 'ภาษากาย' สากลสำหรับเครื่องจักร โดยการสร้างมาตรฐานให้กับคำสั่งการกระทำและการคำนวณการเคลื่อนไหวที่สัมพันธ์กับเฟรมของกล้อง แทนที่จะใช้พิกัดแบบสัมบูรณ์ RobotManip สามารถปรับตัวเข้ากับฮาร์ดแวร์ใหม่ๆ ได้อย่างรวดเร็วโดยใช้การปรับแต่งเพียงเล็กน้อย เปรียบเหมือนคนขับรถที่ชำนาญซึ่งปรับตัวเข้ากับรถยนต์คันใหม่ที่ไม่คุ้นเคยได้ง่าย
ความคล่องแคล่วนี้มาจากข้อมูลจำนวนมหาศาล โมเดลนี้ได้รับการฝึกฝนล่วงหน้าด้วย วิดีโอสาธิตจากหุ่นยนต์และมนุษย์ที่เป็นโอเพนซอร์สนานกว่า 38,100 ชั่วโมง และครอบคลุมรูปร่างหุ่นยนต์ถึง 15 รูปแบบ การฝึกฝนแบบรวมศูนย์ในขนาดใหญ่นี้มีขึ้นเพื่อแก้ปัญหาทั่วไปที่ประสิทธิภาพของโมเดลหุ่นยนต์มักลดลงเมื่อต้องถูกย้ายไปใช้งานบนแพลตฟอร์มทางกายภาพที่แตกต่างกัน
ในการทดสอบมาตรฐาน โมเดลเวอร์ชันต่างๆ ของ RobotManip สามารถครองอันดับหนึ่งและสองในด้านอัตราความสำเร็จของภารกิจ โดยจัดการงานที่ซับซ้อนได้ เช่น การใช้แขนสองข้างพลิกเฟรนช์ฟรายส์
Qwen-RobotNav คือโมเดลวิชัน-ภาษา-การนำทาง (Vision-Language-Navigation: VLN) ที่สร้างบนตระกูล Qwen3-VL และมีให้เลือกใช้ในขนาดพารามิเตอร์ 2B, 4B และ 8B มันคือประตูสู่การกระทำสำหรับเอเจนต์กายภาพเคลื่อนที่ โดยมีหน้าที่มอบความฉลาดเชิงพื้นที่และความสามารถในการเคลื่อนที่อัตโนมัติให้กับหุ่นยนต์
สิ่งที่ทำให้ Qwen-RobotNav แตกต่างคือการรวมเอางานนำทางที่แตกต่างกันถึงห้าประเภทเข้าไว้ในเฟรมเวิร์กเดียว โดยไม่ต้องสลับโมเดล ซึ่งรวมถึงการนำทางตามคำสั่ง, การนำทางไปยังจุดหมาย, การนำทางไปยังวัตถุ, การติดตามเป้าหมาย และการขับขี่อัตโนมัติ โมเดลนี้ใช้โปรโตคอลการเข้ารหัสการสังเกตที่ควบคุมได้และอินเทอร์เฟซเครื่องมือ ทำให้สามารถเชื่อมต่อความเข้าใจด้านวิชัน-ภาษาเข้ากับการควบคุมการเคลื่อนที่ได้โดยตรง
ในทางปฏิบัติ นี่หมายความว่าหุ่นยนต์สามารถตีความคำสั่งเสียง เช่น "หาห้องประชุมที่อยู่ตรงสุดทางเดิน" ในขณะที่ประมวลผลภาพสภาพแวดล้อมรอบตัวแบบเรียลไทม์เพื่อนำทางในพื้นที่ที่ไม่คุ้นเคยโดยไม่ต้องมีแผนที่สร้างไว้ล่วงหน้า
ชิ้นส่วนที่สามและอาจเป็นชิ้นส่วนที่มองการณ์ไกลที่สุดของชุดโมเดลนี้คือโมเดลโลกแบบวิดีโอที่กำหนดเงื่อนไขด้วยภาษา ซึ่งใช้สถาปัตยกรรม Multi-Modal Diffusion Transformer (MMDiT) 60 ชั้น ร่วมกับตัวเข้ารหัส Qwen2.5-VL ที่ถูกแช่แข็ง (ไม่ถูกเทรนเพิ่ม)
Qwen-RobotWorld ไม่ได้แค่รู้จำฉากเหตุการณ์ แต่มันทำนายว่าเหตุการณ์ในฉากนั้นจะเปลี่ยนแปลงไปอย่างไร โดยการใช้ภาษาธรรมชาติเป็นส่วนต่อประสานแอ็กชันแบบเดียวกัน มันจะสร้างแนวโน้มภาพในอนาคตที่มีพื้นฐานทางกายภาพจากการสังเกตการณ์ปัจจุบันของหุ่นยนต์ การทำนายนี้ครอบคลุมสถานการณ์การจัดการของหุ่นยนต์, การขับขี่อัตโนมัติ, การนำทางในอาคาร และแม้แต่สถานการณ์กิจกรรมของมนุษย์ โมเดลนี้ฝึกฝนด้วยคู่การฝึกฝนข้ามฉากมากกว่า 8.6 ล้านคู่ และสามารถจำลองทักษะการจัดการมากกว่า 1,300 ทักษะ บนรูปร่างหุ่นยนต์กว่า 20 รูปแบบ
โมเดลโลกนี้มีคุณค่าในทางปฏิบัติทันที: มันสามารถสร้างข้อมูลวิดีโอสังเคราะห์เพื่อบรรเทาปัญหาการขาดแคลนข้อมูลในการพัฒนา AI ที่มีกายภาพ และมันสามารถจำลองผลลัพธ์ของการกระทำ ก่อน ที่หุ่นยนต์จะลงมือทำจริงในโลกจริง ซึ่งช่วยเพิ่มความแม่นยำและความปลอดภัย
หลักการออกแบบที่สำคัญของ Qwen-Robot Suite คือความยืดหยุ่นในการนำไปใช้งาน โมเดลเหล่านี้สามารถทำงานแบบ แยกส่วน (Standalone) สำหรับฟังก์ชันเดี่ยวๆ เช่น การใช้เฉพาะ Qwen-RobotNav ในยานพาหนะขนส่งสินค้าในคลังสินค้า หรือสามารถผสานรวมเข้าด้วยกันเป็น ระบบเต็มรูปแบบ (Full Stack) เมื่อทำงานร่วมกัน โมเดลทั้งสามจะสร้างระบบวงปิดที่การรับรู้ (จาก RobotNav และ RobotManip) และการทำนาย (จาก RobotWorld) ส่งเสริมซึ่งกันและกัน ทำให้หุ่นยนต์สามารถ "เดิน, เห็น, และคิด" ได้พร้อมกัน
แนวทางแบบระบบครบวงจรนี้ถูกผสานรวมอย่างแน่นหนากับระบบนิเวศโมเดลที่กว้างขึ้นของอาลีบาบา รวมถึงโมเดลเอเจนต์ระดับเรือธง Qwen3.7-Max ซึ่งจัดการการแบ่งงานที่ซับซ้อนได้ การพึ่งพาข้อมูลโอเพนซอร์สและการเผยแพร่โมเดลสู่สาธารณะของชุดโมเดลนี้ ยังสอดคล้องกับกลยุทธ์ของอาลีบาบาในการสร้างฐานนักพัฒนาขนาดใหญ่อีกด้วย
การเปิดตัว Qwen-Robot ไม่ใช่การทดลองที่เกิดขึ้นอย่างกะทันหัน แต่มันเป็นผลลัพธ์ของความก้าวหน้าที่เป็นระบบและใช้เวลาหลายปี ในการย้ายจาก AI ในโลกดิจิทัลเพียงอย่างเดียวมาสู่โลกกายภาพ
ในเดือนตุลาคม 2025 Justin Lin หัวหน้าฝ่ายเทคโนโลยีของ Qwen ได้ประกาศต่อสาธารณะถึงการก่อตั้ง ทีมหุ่นยนต์และปัญญาประดิษฐ์ที่มีกายภาพ ภายในองค์กรโดยเฉพาะ เขาวางกรอบว่านี่คือก้าวต่อไปที่สมเหตุสมผลสำหรับ AI เอเจนต์ โดยระบุว่าโมเดลมัลติโหมด "ควรก้าวจากโลกเสมือนจริงไปสู่โลกกายภาพอย่างแน่นอน" เพียงไม่กี่เดือนต่อมาในเดือนกุมภาพันธ์ 2026 อาลีบาบาได้เปิดตัว Qwen 3.5 โดยทำการตลาดอย่างชัดเจนว่าเป็นโมเดลสำหรับ "ยุคแห่ง Agentic AI" ซึ่งสามารถทำงานหลายขั้นตอนที่ซับซ้อนได้ด้วยตัวเอง
พลังด้านภาษาและการใช้เหตุผลนี้ ได้กลายมาเป็นกระดูกสันหลังทางปัญญาให้กับโมเดลหุ่นยนต์ที่เปิดตัวในเดือนมิถุนายน
นอกเหนือจากการพัฒนาภายในแล้ว อาลีบาบายังเดินเกมภายนอกเชิงกลยุทธ์อีกด้วย หน่วยงานคลาวด์คอมพิวติ้งของบริษัทเป็นผู้นำการระดมทุนมูลค่า 140 ล้านดอลลาร์สหรัฐ ให้กับ X Square Robot สตาร์ทอัพด้านหุ่นยนต์ของจีนในปี 2025 กลยุทธ์หลายด้านนี้—การวิจัยและพัฒนาภายใน, ระบบนิเวศโมเดลโอเพนซอร์ส, และการลงทุนในสตาร์ทอัพ—ทำให้ Qwen-Robot Suite เป็นส่วนหนึ่งของความทะเยอทะยานที่ใหญ่กว่า ในการเป็น 'โรงงาน AI' ที่ครอบคลุมสำหรับเครื่องจักรอัจฉริยะเชิงกายภาพยุคใหม่
การเข้าสู่ตลาด AI สำหรับกายภาพของอาลีบาบาทำให้บริษัทต้องแข่งขันโดยตรงกับบริษัทอย่าง Nvidia ซึ่งมีสแต็กการจำลองและคอมพิวติ้งที่ทรงพลัง และสตาร์ทอัพด้าน AI ที่มีกายภาพในสหรัฐฯ ที่กำลังเติบโต แม้ว่าแหล่งข้อมูลที่มีจะไม่ได้เสนอการเปรียบเทียบประสิทธิภาพโดยตรงกับคู่แข่งเหล่านี้ แต่ Qwen-Robot Suite นำเสนอคุณค่าที่แตกต่างบนพื้นฐานของการผสานรวมและการเข้าถึงได้
ชุดโมเดลนี้คือรากฐานแบบเปิดและโมดูลาร์ ที่ถูกออกแบบมาให้สามารถนำไปใช้กับฮาร์ดแวร์ของบุคคลที่สาม โดยใช้การปรับแต่งน้อยที่สุด สิ่งนี้แตกต่างจากสแต็กที่เป็นกรรมสิทธิ์และผูกขาดในแนวดิ่ง ทำให้อาลีบาบาอยู่ในตำแหน่งซัพพลายเออร์โมเดลที่เป็นกลางสำหรับผู้ผลิตหุ่นยนต์หลากหลายราย ทรัพย์สินที่ยิ่งใหญ่ที่สุดของบริษัทคือระบบนิเวศ Qwen ขนาดใหญ่ที่มีอยู่แล้ว ซึ่งได้ผลิตโมเดลโอเพนซอร์สหลายร้อยโมเดลที่มียอดดาวน์โหลดสะสมมากกว่า 600 ล้านครั้ง สร้างชุมชนนักพัฒนาขนาดใหญ่ที่สามารถต่อยอดบนรากฐานหุ่นยนต์ของ Qwen ได้แล้ว
อย่างไรก็ตาม ความไม่แน่นอนในระดับที่สำคัญยังคงมีอยู่ ชุดโมเดลนี้เพิ่งได้รับการประกาศในเดือนมิถุนายน 2026 และเอกสารที่มีอยู่ยังขาดตัวชี้วัดการนำไปใช้ในเชิงพาณิชย์ขนาดใหญ่หรือข้อมูลความน่าเชื่อถือในระยะยาว ยังไม่เป็นที่ทราบแน่ชัดว่าโมเดลเหล่านี้จะทำงานได้ดีเพียงใดภายใต้ความแปรปรวนของงานอุตสาหกรรมที่ไม่มีโครงสร้างแน่นอนและใช้เวลานาน บททดสอบที่แท้จริงสำหรับความทะเยอทะยานด้าน AI เชิงกายภาพของอาลีบาบาจะอยู่ที่ว่า การมีอยู่ของโมเดลเหล่านี้จะนำไปสู่การยอมรับอย่างแพร่หลายจากอุตสาหกรรมหุ่นยนต์โดยรวมหรือไม่
Comments
0 comments