In een traditionele VLA-pijplijn volgt het systeem een sequentieel proces: de auto ziet de weg, vertaalt die visuele waarneming naar taalachtige tokens, en redeneert vervolgens over die taaltokens om een rijactie te genereren. Dr. Liu beschreef deze tussenstap als een kritieke zwakte. Hij stelde botweg dat ”taal vergif is” voor realtime rijden . Zijn argument is dat taaltokens inherente latentie introduceren en irrelevante semantische ruis injecteren in een proces dat reacties op millisecondeniveau vereist.
Het VLA 2.0-model elimineert dit knelpunt volledig. Het hanteert wat het bedrijf een ”Vision-Implicit Token-Action”-pad noemt, waardoor direct vanuit ruwe visuele input rijcommando’s kunnen worden gegenereerd, zonder enige tussenliggende taalrepresentatie . Hoewel het systeem nog steeds taal als invoer kan accepteren – zoals een navigatieopdracht van de bestuurder of een gesproken instructie – creëert het nooit zelf taaltokens als interne uitvoer tijdens het rijden
. XPeng toonde het systeem op zijn CVPR-stand naast een fysiek AI-wereldmodel; een gerelateerd onderzoekspaper, DrivePTS, werd officieel aanvaard voor publicatie op de conferentie
.
De leiding van XPeng heeft niet geschroomd om directe vergelijkingen met Tesla te maken. Hun uitspraken in het voorjaar en de zomer van 2026 laten een scherpe escalatie in zelfvertrouwen zien. Dr. Liu stelde in zijn interview van juni dat XPeng reeds op gelijke hoogte staat met Tesla’s FSD v13 in China en dat het evenaren van de prestaties van het nieuwere FSD v14 “haalbaar is voor het einde van de zomer” .
Deze technische claims worden geschraagd door een ongebruikelijk persoonlijke toezegging van de top. In december 2025 sloot CEO He Xiaopeng een publieke ‘prestatieweddenschap’ af. Hij verklaarde dat XPengs VLA-systeem de rijervaring van Tesla’s FSD v14.2 in Silicon Valley moest evenaren voor 30 augustus 2026 . De inzet van de weddenschap werd expliciet gemaakt: mocht het team falen, dan zou de verantwoordelijke persoon “naakt gaan hardlopen”
.
Om het narratief kracht bij te zetten, bracht XPeng in mei 2026 een rechtstreekse vergelijkingsvideo uit waarin twee in de VS gevestigde Tesla-enthousiastelingen naar China werden gehaald. De geënsceneerde vergelijking zette een XPeng P7 met VLA 2.0 tegenover een Tesla Model 3 met FSD op identieke routes in Beijing. Volgens XPengs eigen montage van de video had het voertuig slechts 2 keer ingrijpen van de bestuurder nodig, tegenover 7 keer voor de Tesla . Hoewel He Xiaopeng bij meerdere gelegenheden heeft herhaald dat het doel is om Tesla’s FSD op de Chinese markt volledig te overtreffen voor augustus, manen onafhankelijke tests tot enige voorzichtigheid. Een redacteur van Electrek die VLA 2.0 testte in Beijing omschreef de prestaties als "vergelijkbaar" met FSD v14, maar merkte op dat beide systemen nog steeds constante aandacht van de bestuurder vereisen en verre van volledig autonoom zijn
.
Voorlopig blijft de race een achtervolging op hoge snelheid, gedefinieerd door gewaagde architectonische weddenschappen en nóg gewaagdere claims. XPengs beslissing om taal uit het brein van zijn auto te ontwerpen is een berekende gok dat het snelste pad van zien naar handelen een rechte lijn is – zelfs als dat betekent dat het woordenboek het raam uit kan.
Comments
0 comments