I en tradisjonell VLA-pipeline følger systemet en sekvensiell prosess: bilen ser veien, oversetter denne visuelle oppfattelsen til språklignende tokens, og resonnerer deretter rundt disse språktokensene for å generere en kjørehandling. Dr. Liu beskrev dette mellomsteget som en kritisk svakhet, og uttalte kontant at "språk er gift" for sanntidskjøring . Argumentet hans er at språktokens introduserer iboende ventetid og injiserer irrelevant semantisk støy i en prosess som krever reaksjoner på millisekundnivå.
VLA 2.0-modellen eliminerer denne flaskehalsen fullstendig. Den tar i bruk det selskapet kaller en "Vision-Implicit Token-Action"-bane, som muliggjør en ende-til-ende-generering av kjørekommandoer direkte fra rå visuelle inntrykk uten noen mellomliggende språkrepresentasjon . Selv om systemet fortsatt kan akseptere språk som input, for eksempel en førers navigasjonskommando eller stemmeinstruks, skaper det aldri egne språktokens som et internt resultat under selve kjøringen
. XPeng viste frem systemet på sin CVPR-stand sammen med en fysisk AI-verdensmodell, og relatert forskningsartikkel, DrivePTS, ble akseptert for publisering på konferansen
.
XPengs ledelse har ikke vært beskjeden med å trekke direkte sammenligninger til Tesla. Deres påstander gjennom våren og sommeren 2026 representerer en kraftig opptrapping i selvtillit. Dr. Liu uttalte i sitt intervju i juni at XPeng allerede har oppnådd paritet med Teslas FSD v13 i Kina, og at det å matche ytelsen til den nyere FSD v14 er "innen rekkevidde før slutten av sommeren" .
Disse tekniske påstandene støttes av en uvanlig personlig forpliktelse fra toppen. I desember 2025 inngikk administrerende direktør He Xiaopeng et offentlig "ytelsesveddemål" der han erklærte at XPengs VLA-system måtte matche kjøreopplevelsen til Teslas FSD v14.2 i Silicon Valley innen 30. august 2026 . Konsekvensene av veddemålet ble gjort klinkende klart: hvis teamet mislyktes, skulle den ansvarlige personen "løpe naken"
.
For å underbygge narrativet sitt slapp XPeng i mai 2026 en video av en direkte duell som brakte to USA-baserte Tesla-entusiaster til Kina. Den iscenesatte sammenligningen stilte en XPeng P7 med VLA 2.0 mot en Tesla Model 3 med FSD på identiske ruter i Beijing. Ifølge XPengs egen videoversjon trengte deres bil bare 2 sjåførovertakelser, mot 7 for Teslaen . Selv om He Xiaopeng har gjentatt ved flere anledninger, inkludert på Auto China 2026, at målet er å fullstendig overgå Teslas FSD i det kinesiske markedet innen august, maner uavhengige vurderinger til en viss forsiktighet. En Electrek-redaktør som testet VLA 2.0 i Beijing, beskrev ytelsen som "sammenlignbar" med FSD v14, men bemerket at begge systemene fortsatt krever konstant føreroppmerksomhet og er langt fra fullstendig autonome
.
Foreløpig forblir kappløpet en høyhastighetsjakt definert av dristige arkitektoniske veddemål og enda dristigere påstander. XPengs beslutning om å designe språket ut av sin kjørende hjerne er en kalkulert gambling på at den raskeste veien fra syn til handling er en rett linje – selv om det betyr å kaste ordboken ut av vinduet.
Comments
0 comments