הגמישות החוצה-חומרה מתאפשרת בזכות פריצת דרך קריטית: ייצוג אחיד של תנועה ב-80 מימדים, מעין "שפת גוף" אוניברסלית שמאפשרת מודל יחיד לתקשר עם מגוון רחב של חומרות . במקום לחשב קואורדינטות אבסולוטיות, המודל פועל ביחס לפריים של המצלמה – ממש כמו נהג מנוסה שמסתגל במהירות לרכב לא מוכר
.
המיומנות הזו מגובה באימון חסר תקדים: המודל עבר אימון מקדים על מעל 38,100 שעות של וידאו ממקורות קוד פתוח, הכוללים הדגמות של רובוטים ובני אדם ומכסים 15 מורפולוגיות שונות של רובוטים . בבדיקות ביצועים, גרסאותיו השונות הגיעו לשני המקומות הראשונים בשיעורי הצלחה במטלות, כולל ביצועים מורכבים כמו הפיכת צ'יפס באמצעות שתי זרועות
.
מודל מבוסס ראייה-שפה-ניווט (Vision-Language-Navigation, VLN) הבנוי על משפחת Qwen3-VL וזמין בגדלים של 2, 4 ו-8 מיליארד פרמטרים . מודל זה הוא "שער הכניסה לפעולה" עבור גורמים פיזיים ניידים, ומשימתו היא להעניק אינטליגנציה מרחבית ויכולת תנועה אוטונומית
.
יתרונו הגדול של Qwen-RobotNav טמון ביכולתו לאחד חמש משימות ניווט תחת מסגרת אחידה מבלי להחליף מודלים. המשימות כוללות: מעקב אחר הוראות, ניווט אל נקודה, ניווט אל אובייקט, מעקב אחר מטרה ונהיגה אוטונומית . באמצעות פרוטוקול קידוד תצפית הניתן לשליטה וממשק כלים (Tool Interface), המודל מחבר ישירות בין הבנת שפה חזותית לבין פקודות תנועה
. בפועל, רובוט יכול לפרש פקודה מדוברת כמו "תמצא את חדר הישיבות במסדרון" תוך כדי עיבוד דינמי של הסביבה הוויזואלית, וכל זאת בלי צורך במפה מוכנה מראש
.
המודל השלישי, השאפתני מכולם, הוא מודל עולם (World Model) מבוסס וידאו. הוא מופעל על ידי Multi-Modal Diffusion Transformer (MMDiT) בעל 60 שכבות ומקודד Qwen2.5-VL קפוא .
במקום רק לזהות את הסצנה, Qwen-RobotWorld מנבא כיצד הסצנה תשתנה. על ידי שימוש בשפה טבעית כממשק פעולה אחיד, הוא מחולל סימולציות ויזואליות עתידיות שמתבססות על המצב הנוכחי . יכולת חיזוי זו רלוונטית לתפעול רובוטי, נהיגה אוטונומית, ניווט פנימי וגם תרחישים של פעילות אנושית. המודל אומן על מעל 8.6 מיליון זוגות אימון חוצי-תרחישים, ומסוגל לדמות מעל 1,300 כישורי תפעול שונים על פני 20+ סוגי רובוטים
.
הערך הפרקטי ברור ומיידי: המודל יכול לייצר מידע וידאו סינתטי כדי להתגבר על המחסור העצום במידע אימון, והוא יכול לדמות את ההשלכות של פעולה עוד לפני שהרובוט מבצע אותה בעולם האמיתי. בכך, הוא משפר משמעותית את הדיוק והבטיחות .
עקרון עיצובי קריטי בסדרה הוא גמישות הפריסה (Deployment Flexibility). המודולים בנויים לעבוד במצב עצמאי (Standalone) – למשל, התקנת Qwen-RobotNav בלבד ברכב משלוחים במחסן – או כמערכת משולבת (Full Stack). כאשר שלושתם פועלים יחד, נוצרת מערכת בלולאה סגורה, שבה יכולות התפיסה (RobotNav ו-RobotManip) והחיזוי (RobotWorld) מחזקות זו את זו, ומאפשרות לרובוט "ללכת, לראות ולחשוב" בעת ובעונה אחת .
הגישה המלאה הזו משתלבת באופן הדוק עם המערכת האקולוגית הרחבה של אליבאבא, כולל המודל Qwen3.7-Max Agent, המסוגל לבצע פירוק משימות מורכבות . האסטרטגיה, הנשענת במופגן על קוד פתוח, נועדה לעודד אימוץ נרחב בקהילת המפתחים
.
השקת Qwen-Robot אינה ניסוי פתאומי. היא שיאה של אסטרטגיה רב-שנתית ומתודולוגית.
באוקטובר 2025, ראש פרויקט Qwen, ג'סטין לין, הכריז על הקמת צוות פנימי ייעודי לרובוטיקה ובינה מלאכותית מגולמת. הוא תיאר זאת כצעד ההגיוני הבא, וקבע כי סוכני בינה מלאכותית רב-מודאליים "בהחלט צריכים לצעוד מהעולם הווירטואלי לעולם הפיזי" . חודשים ספורים לאחר מכן, בפברואר 2026, השיקה אליבאבא את Qwen 3.5, ושיווקה אותו במפורש כמודל המותאם ל"עידן ה-AI הסוכני", המסוגל לטפל במשימות אוטונומיות מורכבות
. יכולות השפה והחשיבה של המודל הזה הפכו לעמוד השדרה הקוגניטיבי של דגמי הרובוטים שהושקו ביוני
.
במקביל לפיתוח הפנימי, נקטה אליבאבא גם בצעדים חיצוניים אסטרטגיים. חטיבת מחשוב הענן שלה הובילה סבב גיוס של 140 מיליון דולר לסטארט-אפ הרובוטיקה הסיני X Square Robot בשנת 2025 . אסטרטגיה רב-ממדית זו – פיתוח פנימי, מערכת קוד פתוח והשקעות חיצוניות – ממקמת את סדרת Qwen-Robot כחלק משאפתנות גדולה יותר: להפוך ל"מפעל בינה מלאכותית" מקיף עבור הדור הבא של המכונות הפיזיות החכמות
.
כניסתה של אליבאבא לשוק הבינה המלאכותית המגולמת מציבה אותה בתחרות ישירה מול ענקיות כמו אנבידיה, שמספקת ערימת סימולציה ומחשוב חזקה, ומול מספר גדל והולך של סטארט-אפים אמריקאים. בעוד שטרם פורסמה השוואת ביצועים ישירה מולם, סדרת Qwen-Robot מציעה הצעת ערך ייחודית המבוססת על אינטגרציה ונגישות .
החבילה היא תשתית מודולרית ופתוחה, שנועדה לעבוד על חומרות של צד שלישי במינימום התאמות. גישה זו מנוגדת לערימה קניינית ואנכית, וממצבת את אליבאבא כ"ספקית מודלים נייטרלית" עבור מגוון רחב של יצרני רובוטים. הנכס הגדול ביותר של אליבאבא הוא המערכת האקולוגית העצומה של Qwen, שכבר ייצרה מאות דגמי קוד פתוח עם מעל 600 מיליון הורדות מצטברות – קהילת מפתחים ענקית שיכולה כעת לבנות על יסודות הרובוטים .
עם זאת, רמה משמעותית של אי-ודאות עדיין מרחפת. סדרת Qwen-Robot הוכרזה רק ביוני 2026, והתיעוד הזמין חסר מדדי פריסה מסחריים בקנה מידה גדול ונתוני אמינות ארוכת טווח. עדיין לא ידוע כיצד המודלים הללו יתפקדו בתנאים התעשייתיים הבלתי צפויים והממושכים של העולם האמיתי. המבחן האמיתי לאמביציה הפיזית של אליבאבא יהיה האם זמינותם של המודלים אכן תתורגם לאימוץ נרחב על ידי תעשיית הרובוטיקה כולה.
Comments
0 comments