Hjärtat i XPengs CVPR-presentation var den andra generationen av deras Vision-Language-Action-modell, kallad VLA 2.0. För att förstå nyheten måste vi först titta på hur den första generationen fungerade. Tänk dig att bilen ser vägen, översätter det den ser till språkliknande symboler – ungefär som ord eller meningar – och sedan funderar över dessa ”språktokens” för att bestämma hur den ska köra. Det är en process i flera steg: se, översätt till språk, resonera, agera .
Dr. Liu menar att just det mellansteget är en kritisk svaghet. Han uttryckte det rakt på sak i intervjun: ”Språk är gift” för körning i realtid . Hans argument är att språktokens skapar en inbyggd fördröjning och dessutom fyller systemet med irrelevant semantiskt brus. När en bil måste reagera på millisekunder för att undvika en olycka är det inte optimalt att först översätta verkligheten till vackra beskrivningar.
Den nya VLA 2.0-modellen stryker det här steget helt. XPeng kallar det för en ”Vision-Implicit Token-Action”-bana – i praktiken en direkt väg från ögats råa visuella signaler till bilens handlingar, utan någon språklig mellanlandning . Systemet kan fortfarande ta emot språkliga kommandon, som en förares röststyrning eller textinstruktion, men det skapar aldrig själv språktokens som ett internt mellansteg under själva körningen
. På konferensen visades VLA 2.0 upp tillsammans med en fysisk AI-världsmodell, och en forskningsartikel vid namn DrivePTS accepterades för publicering vid CVPR
.
XPengs ledning har inte varit blygsamma i sina jämförelser med Tesla. Under våren och sommaren 2026 har självförtroendet trappats upp markant. Dr. Liu hävdade i sin juni-intervju att XPeng redan har nått samma prestandanivå som Teslas FSD v13 i Kina, och att det är ”inom räckhåll att matcha även den nyare FSD v14 före sensommaren” .
Den tekniska målsättningen backas upp av ett minst sagt personligt åtagande från toppen. I december 2025 gick XPengs vd He Xiaopeng ut med en offentlig ”prestationsvadslagning”. Han deklarerade att företagets VLA-system senast den 30 augusti 2026 måste ge samma körupplevelse på kinesiska vägar som Teslas FSD v14.2 ger i Silicon Valley . Insatsen var tydligt preciserad: om teamet misslyckas ska den ansvarige personen ”springa naken”
. Ett drastiskt löfte som onekligen väckt uppmärksamhet internationellt.
För att underbygga sina påståenden släppte XPeng i maj 2026 en iscensatt video där två Tesla-entusiaster från USA flögs till Peking. En XPeng P7 med VLA 2.0 ställdes mot en Tesla Model 3 med FSD på identiska rutter. Enligt XPengs egen videoredigering krävde deras bil endast två föraringripanden, medan Teslan behövde sju .
He Xiaopeng har upprepat målet vid flera tillfällen, bland annat på bilmässan Auto China 2026, där han sade att ambitionen är att ”fullständigt överträffa Teslas FSD på den kinesiska marknaden före augusti” . Oberoende bedömare manar dock till viss återhållsamhet. En Electrek-redaktör som testade VLA 2.0 i Peking beskrev prestandan som ”jämförbar” med Teslas FSD v14, men poängterade samtidigt att båda systemen fortfarande kräver konstant uppsikt från föraren och är långt ifrån helt autonoma
.
Tävlingen om självkörningens framtid är långt ifrån avgjord. XPengs beslut att arkitektoniskt designa bort språket ur bilens körhjärna är en kalkylerad chansning – ett ställningstagande för att den snabbaste vägen från synintryck till handling är en rak linje. Även om det innebär att man slänger ordboken ut genom fönstret.
Comments
0 comments