בתהליך VLA מסורתי, המערכת פועלת לפי תהליך סדרתי: המכונית רואה את הכביש, מתרגמת את התפיסה החזותית הזו לאסימוני שפה (language-like tokens), ואז מעבדת את אסימוני השפה האלה כדי לייצר פעולת נהיגה. ד"ר ליו תיאר את שלב הביניים הזה כחולשה קריטית, וקבע בפה מלא ש"שפה היא רעל" לנהיגה בזמן אמת . הטיעון שלו הוא שאסימוני שפה מביאים איתם השהייה טבעית (latency) ומזריקים רעש סמנטי לא רלוונטי לתהליך שדורש תגובות באלפיות השנייה.
מודל ה-VLA 2.0 מסיר צוואר בקבוק זה לחלוטין. הוא מאמץ את מה שהחברה מכנה "Vision-Implicit Token-Action", ומאפשר ייצור מקצה-לקצה של פקודות נהיגה ישירות מקלט חזותי גולמי ללא כל ייצוג שפה כלשהו כמתווך . בעוד שהמערכת עדיין יכולה לקבל שפה כקלט — כמו פקודת ניווט מהנהג או הוראה קולית — היא לעולם אינה יוצרת אסימוני שפה משל עצמה כפלט פנימי בזמן פעולת הנהיגה
. XPeng הציגה את המערכת בתערוכת CVPR שלה לצד מודל עולם פיזיקלי (physical world model), כאשר מאמר מחקר קשור בשם DrivePTS התקבל לפרסום בכנס
.
הנהלת XPeng לא היססה לערוך השוואות ישירות מול טסלה. ההצהרות שלהם במהלך האביב והקיץ של 2026 מייצגות הסלמה חדה בביטחון העצמי. ד"ר ליו הצהיר בראיון מיוני כי XPeng כבר השיגה שוויון עם גרסת Tesla FSD v13 בסין, ושהדבקת הביצועים של גרסת FSD v14 החדשה יותר נמצאת "בהישג יד עוד לפני סוף הקיץ" .
לטענות טכניות אלו מצטרפת מחויבות אישית יוצאת דופן מהדרג הבכיר. בדצמבר 2025, המנכ"ל חֶה שְיָאופֶּנְג קבע "התערבות ביצועים" פומבית, והכריז שמערכת ה-VLA של XPeng חייבת להשתוות לחוויית הנהיגה בכביש של Tesla FSD v14.2 בעמק הסיליקון עד לתאריך 30 באוגוסט 2026 . ההימור על ההתערבות הזו הובהר: אם הצוות ייכשל, האחראי "ירוץ עירום"
.
כדי לתמוך בנרטיב שלה, XPeng פרסמה במאי 2026 סרטון השוואה ראש בראש, במסגרתו הטיסה לסין שני חובבי טסלה אמריקאים. ההשוואה המבוימת העמידה מכונית XPeng P7 עם VLA 2.0 מול טסלה מודל 3 עם FSD במסלולים זהים בבייג'ינג. על פי גרסת הסרטון של XPeng, רכבה נזקק ל-2 התערבויות נהג בלבד, לעומת 7 התערבויות לטסלה . בעוד שחֶה שְיָאופֶּנְג חזר והדגיש במספר אירועים, כולל בתערוכת Auto China 2026, כי המטרה היא להתעלות לחלוטין על מערכת ה-FSD של טסלה בשוק הסיני עד אוגוסט, סקירות עצמאיות מפצירות לנקוט במידה של זהירות. עורך Electrek שבחן את VLA 2.0 בבייג'ינג תיאר את ביצועיה כ"ברי השוואה" ל-FSD v14, אך ציין ששתי המערכות עדיין דורשות תשומת לב מתמדת של הנהג ורחוקות מאוד מנהיגה אוטונומית מלאה
.
לעת עתה, המרוץ נותר מרדף במהירות גבוהה המוגדר על ידי הימורים ארכיטקטוניים נועזים והצהרות נועזות אף יותר. ההחלטה של XPeng להנדס את השפה אל מחוץ למוח הנוהג שלה היא הימור מחושב שהדרך המהירה ביותר מראייה לפעולה היא בקו ישר — אפילו אם פירוש הדבר לזרוק את המילון מהחלון.
Comments
0 comments