I en traditionel VLA-pipeline følger systemet en sekventiel proces: Bilen ser vejen, oversætter denne visuelle opfattelse til sproglignende tokens, og ræsonnerer derefter over disse sprogtokens for at generere en kørehandling. Dr. Liu beskrev dette mellemliggende trin som en kritisk svaghed og udtalte kontant, at 'sprog er gift' for kørsel i realtid . Hans argument er, at sprogtokens introducerer en iboende forsinkelse og sprøjter irrelevant semantisk støj ind i en proces, der kræver reaktioner på millisekundniveau.
VLA 2.0-modellen fjerner denne flaskehals fuldstændigt. Den anvender, hvad virksomheden kalder en 'Vision-Implicit Token-Action'-sti, hvilket muliggør en end-to-end-generering af kørekommandoer direkte fra rå visuelle input uden nogen form for mellemliggende sprogrepræsentation . Systemet kan stadig acceptere sprog som input – for eksempel en førers navigationskommando eller en talt instruktion – men det skaber aldrig sine egne sprogtokens som et internt output under selve kørslen
. XPeng fremviste systemet på deres CVPR-stand sammen med en fysisk AI-verdensmodel, og en relateret forskningsartikel, DrivePTS, blev accepteret til udgivelse på konferencen
.
XPengs ledelse har ikke været bleg for at drage direkte sammenligninger med Tesla. Deres påstande i løbet af foråret og sommeren 2026 repræsenterer en markant eskalering i selvtillid. Dr. Liu udtalte i sit interview i juni, at XPeng allerede har opnået paritet med Teslas FSD v13 i Kina, og at det er 'inden for rækkevidde inden udgangen af sommeren' at matche ydelsen fra den nyere FSD v14 .
Disse tekniske påstande bakkes op af en usædvanlig personlig forpligtelse fra toppen. I december 2025 indgik CEO He Xiaopeng et offentligt 'performance-væddemål', hvor han erklærede, at XPengs VLA-system skal matche køreoplevelsen fra Teslas FSD v14.2 i Silicon Valley inden den 30. august 2026 . Indsatsen i dette væddemål blev gjort eksplicit: Hvis teamet fejlede, skulle den ansvarlige 'løbe nøgen'
.
For at understøtte sin fortælling frigav XPeng i maj 2026 en direkte sammenligningsvideo, der bragte to amerikanske Tesla-entusiaster til Kina. Den iscenesatte sammenligning satte en XPeng P7 med VLA 2.0 op mod en Tesla Model 3 med FSD på identiske ruter i Beijing. Ifølge XPengs egen klipning af videoen krævede deres køretøj kun 2 førerovertagelser, sammenlignet med 7 for Teslaen . Mens He Xiaopeng ved flere lejligheder, herunder Auto China 2026, har gentaget, at målet er fuldt ud at overgå Teslas FSD på det kinesiske marked inden august, opfordrer uafhængige anmeldelser til en vis forsigtighed. En Electrek-redaktør, der testede VLA 2.0 i Beijing, beskrev dens ydeevne som 'sammenlignelig' med FSD v14, men bemærkede, at begge systemer stadig kræver konstant føreropmærksomhed og er langt fra fuldt autonome
.
Foreløbig er kapløbet en højhastighedsjagt defineret af dristige arkitektoniske væddemål og endnu dristigere påstande. XPengs beslutning om at designe sprog ud af bilens 'kørehjerne' er et kalkuleret sats på, at den hurtigste vej fra syn til handling er en lige linje – selv hvis det betyder, at man smider ordbogen ud af vinduet.
Comments
0 comments