Wyobraźmy sobie tradycyjny system: auto patrzy na drogę, następnie to, co widzi, tłumaczy na język (tokeny), po czym analizuje to „zdanie” i dopiero wtedy wykonuje manewr. Brzmi jak strata cennych milisekund, prawda? Doktor Liu nie owija w bawełnę, nazywając ten etap „trucizną”. Jego zdaniem „język to trucizna” (language is poison) dla jazdy w czasie rzeczywistym . Przetwarzanie językowe wprowadza niepotrzebne opóźnienia i szum informacyjny, który w ułamku sekundy może zadecydować o bezpieczeństwie.
Co więc proponuje XPeng? Model VLA 2.0 idzie na skróty. Wykorzystuje autorską ścieżkę „Vision-Implicit Token-Action”, która pozwala generować polecenia jazdy bezpośrednio z surowych danych wizualnych, z całkowitym pominięciem etapu pośredniej reprezentacji językowej . System wciąż oczywiście rozumie polecenia głosowe kierowcy, ale sam nie tworzy już w swojej „głowie” żadnych językowych opisów sytuacji na drodze. Mówiąc wprost: widzi i działa
.
Ambicje XPenga najlepiej obrazuje osobisty zakład. W grudniu 2025 roku prezes He Xiaopeng publicznie zobowiązał się, że system VLA XPenga dorówna doświadczeniom z jazdy Tesli FSD v14.2 w Dolinie Krzemowej do 30 sierpnia 2026 roku. Stawka była wysoka i dość osobliwa: jeśli zespół poniesie porażkę, osoba odpowiedzialna za projekt „pobiegnie nago” .
Od tego czasu firma tylko eskalowała swoje deklaracje. W czerwcu 2026 roku dr Liu ogłosił, że XPeng osiągnął już poziom Tesli FSD v13 na chińskich drogach. Co więcej, dorównanie nowszemu oprogramowaniu FSD v14 jest „w zasięgu ręki przed końcem lata” .
Aby uwiarygodnić te śmiałe tezy, w maju 2026 roku XPeng zaprosił do Chin dwóch amerykańskich entuzjastów Tesli i zorganizował bezpośrednie porównanie na ulicach Pekinu. Naprzeciwko siebie stanęły XPeng P7 z systemem VLA 2.0 oraz Tesla Model 3 z FSD. Według opublikowanego przez XPenga nagrania, jego auto wymagało interwencji kierowcy tylko 2 razy, podczas gdy Tesla potrzebowała jej aż 7.
Czy to oznacza koniec dominacji Tesli? Nie do końca. Redaktor Electrek, który testował VLA 2.0 w Pekinie, opisał jego działanie jako „porównywalne” do FSD v14, ale ze znaczącym zastrzeżeniem: oba systemy wciąż wymagają nieustannej uwagi kierowcy i nie są w pełni autonomiczne . Wyścig trwa, a stawka jest najwyższa w historii. XPeng postawił wszystko na jedną kartę – odrzucenie języka jako zbędnego balastu – i wierzy, że najkrótsza droga od percepcji do działania wiedzie po linii prostej.
Comments
0 comments