V tradičním VLA procesu systém funguje sekvenčně: auto „vidí“ silnici, přeloží toto vizuální vnímání do tokenů podobných jazyku a poté na základě těchto jazykových tokenů provede úvahu vedoucí k jízdnímu manévru. Dr. Liu popsal tento mezikrok jako kritickou slabinu a bez obalu prohlásil, že „jazyk je jed“ pro řízení v reálném čase . Jeho argumentem je, že jazykové tokeny vnášejí do procesu, který vyžaduje reakce na úrovni milisekund, inherentní latenci a irelevantní sémantický šum.
Model VLA 2.0 toto úzké hrdlo zcela eliminuje. Přijímá to, co společnost nazývá cestou „Vision-Implicit Token-Action“ (Vize-Implicitní token-Akce) . Ta umožňuje komplexní generování jízdních povelů přímo ze surových vizuálních vstupů bez jakékoli mezilehlé jazykové reprezentace . Systém sice stále dokáže přijímat jazyk jako vstup – například navigační povel řidiče nebo hlasovou instrukci – ale v průběhu samotného řízení už nikdy nevytváří vlastní jazykové tokeny jako interní výstup
. XPeng předvedl systém na svém stánku na CVPR spolu s fyzickým AI modelem světa a související výzkumný článek DrivePTS byl na konferenci přijat k publikaci
.
Vedení XPengu se neostýchá činit přímá srovnání s Teslou. Jejich vyjádření z jara a léta 2026 představují prudkou eskalaci sebevědomí. Dr. Liu v červnovém rozhovoru uvedl, že XPeng již dosáhl parity s Tesla FSD v13 v Číně a že vyrovnat se novější verzi FSD v14 je „na dosah před koncem léta“ .
Tato technická tvrzení jsou podpořena neobvykle osobním závazkem z nejvyšších míst. V prosinci 2025 vyhlásil generální ředitel He Xiaopeng veřejnou „sázku na výkon“. Prohlásil, že systém VLA od XPengu musí do 30. srpna 2026 odpovídat jízdnímu zážitku z Tesla FSD v14.2 v Silicon Valley . Sázka měla jasné důsledky: pokud by tým selhal, odpovědná osoba „poběží nahá“
.
Na podporu svého příběhu zveřejnil XPeng v květnu 2026 srovnávací video, do kterého přizval dva americké nadšence do Tesly, aby přiletěli do Číny. Toto připravené srovnání postavilo vůz XPeng P7 s VLA 2.0 proti Tesle Model 3 s FSD na identických trasách v Pekingu. Podle vlastního sestřihu XPengu vyžadoval jeho vůz pouze 2 zásahy řidiče, zatímco Tesla jich potřebovala 7 . Ačkoli He Xiaopeng na několika akcích, včetně Auto China 2026, zopakoval, že cílem je do srpna překonat Tesla FSD na čínském trhu, nezávislé recenze nabádají k opatrnosti. Editor Electreku, který testoval VLA 2.0 v Pekingu, popsal jeho výkon jako „srovnatelný“ s FSD v14, ale poznamenal, že oba systémy stále vyžadují neustálou pozornost řidiče a k plně autonomnímu řízení mají daleko
.
Prozatím zůstává tento závod vysokorychlostní honičkou definovanou odvážnými architektonickými sázkami a ještě odvážnějšími tvrzeními. Rozhodnutí XPengu vyprojektovat jazyk z mozku svého auta je propočítaným hazardem, že nejrychlejší cesta od vidění k akci vede přímo – i kdyby to znamenalo vyhodit slovník z okna.
Comments
0 comments