Il pezzo forte della presenza di XPeng al CVPR 2026 è stata l'introduzione formale del suo modello Vision-Language-Action di seconda generazione, VLA 2.0. L'architettura rappresenta un allontanamento fondamentale dal modo in cui molti sistemi di AI, incluso il modello di prima generazione di XPeng, gestiscono il compito della guida .
In una tradizionale pipeline VLA, il sistema segue un processo sequenziale: l'auto vede la strada, traduce quella percezione visiva in token simili al linguaggio e poi ragiona su quei token linguistici per generare un'azione di guida. Il Dott. Liu ha descritto questo passaggio intermedio come un punto debole critico, affermando senza mezzi termini che “il linguaggio è un veleno” per la guida in tempo reale . La sua argomentazione è che i token linguistici introducono una latenza intrinseca e iniettano rumore semantico irrilevante in un processo che richiede reazioni nell'ordine dei millisecondi.
Il modello VLA 2.0 elimina completamente questo collo di bottiglia. Adotta quello che l'azienda chiama un percorso “Vision-Implicit Token-Action”, consentendo una generazione end-to-end dei comandi di guida direttamente dagli input visivi grezzi, senza alcuna rappresentazione linguistica intermedia . Sebbene il sistema possa ancora accettare il linguaggio come input – come un comando di navigazione del conducente o un'istruzione vocale – non crea mai token linguistici propri come output interno durante l'atto della guida
. XPeng ha presentato il sistema al suo stand del CVPR insieme a un modello fisico del mondo AI, con un relativo documento di ricerca, DrivePTS, accettato per la pubblicazione alla conferenza
.
La leadership di XPeng non è stata timida nel fare confronti diretti con Tesla. Le loro affermazioni nel corso della primavera e dell'estate 2026 rappresentano una netta escalation di fiducia. Il Dott. Liu ha dichiarato nella sua intervista di giugno che XPeng ha già raggiunto la parità con il FSD v13 di Tesla in Cina e che eguagliare le prestazioni del più recente FSD v14 è “a portata di mano entro la fine dell'estate” .
Queste affermazioni tecniche sono sostenute da un impegno personale insolito da parte dei vertici. Nel dicembre 2025, l'AD He Xiaopeng ha lanciato una pubblica “scommessa sulle prestazioni”, dichiarando che il sistema VLA di XPeng doveva eguagliare l'esperienza su strada del FSD v14.2 di Tesla nella Silicon Valley entro il 30 agosto 2026 . La posta in gioco di questa scommessa è stata resa esplicita: se il team avesse fallito, il responsabile avrebbe “corso nudo”
.
Per sostenere la propria narrazione, XPeng ha pubblicato un video comparativo testa a testa nel maggio 2026, portando due noti appassionati americani di Tesla in Cina. Il confronto scenografico ha messo a confronto una XPeng P7 con VLA 2.0 contro una Tesla Model 3 con FSD su percorsi identici a Pechino. Secondo la versione del video curata da XPeng, il suo veicolo ha richiesto solo 2 interventi del conducente, contro i 7 della Tesla . Sebbene He Xiaopeng abbia ribadito in diversi eventi, tra cui Auto China 2026, che l'obiettivo è superare completamente il FSD di Tesla nel mercato cinese entro agosto, le recensioni indipendenti invitano a una certa cautela. Un redattore di Electrek che ha testato VLA 2.0 a Pechino ha descritto le sue prestazioni come “paragonabili” al FSD v14, ma ha notato che entrambi i sistemi richiedono ancora un'attenzione costante da parte del conducente e sono ben lontani dall'essere completamente autonomi
.
Per ora, la corsa rimane un inseguimento ad alta velocità definito da audaci scommesse architetturali e affermazioni ancora più audaci. La decisione di XPeng di eliminare il linguaggio dal suo cervello di guida è una scommessa calcolata che il percorso più veloce dalla visione all'azione sia una linea retta, anche se questo significa buttare il dizionario dalla finestra.
Comments
0 comments