Dalam alur kerja VLA tradisional, sistem mengikuti proses sekuensial: mobil 'melihat' jalan, menerjemahkan persepsi visual itu menjadi token mirip bahasa, lalu 'bernalar' berdasarkan token bahasa itu untuk menghasilkan aksi mengemudi. Dr. Liu menyebut langkah perantara ini sebagai kelemahan kritis, dan dengan blak-blakan menyatakan bahwa “bahasa adalah racun” (language is poison) untuk mengemudi real-time . Argumennya, token bahasa menimbulkan latensi bawaan dan menyuntikkan gangguan semantik yang tidak relevan ke dalam proses yang menuntut reaksi dalam hitungan milidetik.
Model VLA 2.0 menghilangkan hambatan ini sepenuhnya. Model ini mengadopsi apa yang disebut perusahaan sebagai jalur “Vision-Implicit Token-Action”, yang memungkinkan pembuatan perintah mengemudi langsung dari input visual mentah tanpa representasi bahasa perantara apa pun . Meskipun sistem ini masih bisa menerima bahasa sebagai input—seperti perintah navigasi dari pengemudi atau instruksi suara—ia tidak pernah menciptakan token bahasanya sendiri sebagai output internal selama tindakan mengemudi berlangsung. Ibarat seorang penerjemah yang hanya mendengar dan langsung bertindak, tanpa bergumam menerjemahkan di dalam hati
. XPeng memamerkan sistem ini di stan CVPR mereka bersama model dunia AI fisik, dengan makalah penelitian terkait, DrivePTS, diterima untuk dipublikasikan di konferensi yang sama
.
Jajaran pimpinan XPeng tidak segan membuat perbandingan langsung dengan Tesla. Klaim-klaim mereka sepanjang musim semi dan panas 2026 merupakan eskalasi kepercayaan diri yang tajam. Dr. Liu menyatakan dalam wawancaranya di bulan Juni bahwa XPeng telah mencapai kesetaraan dengan Tesla FSD v13 di Cina, dan menyamai performa FSD v14 yang lebih baru “berada dalam jangkauan sebelum akhir musim panas” .
Klaim teknis ini didukung oleh komitmen personal yang tidak biasa dari pucuk pimpinan. Pada Desember 2025, CEO He Xiaopeng memasang “taruhan performa” publik, menyatakan bahwa sistem VLA XPeng harus menyamai pengalaman berkendara Tesla FSD v14.2 di Silicon Valley paling lambat 30 Agustus 2026 . Taruhannya dibuat eksplisit: jika tim gagal, penanggung jawabnya akan “lari telanjang”
.
Untuk mendukung narasinya, XPeng merilis video adu langsung pada Mei 2026 yang membawa dua penggemar Tesla dari AS ke Cina. Perbandingan terstruktur ini mempertandingkan XPeng P7 dengan VLA 2.0 melawan Tesla Model 3 dengan FSD pada rute identik di Beijing. Menurut hasil rekaman XPeng sendiri, kendaraan mereka hanya memerlukan 2 kali pengambilalihan kemudi oleh pengemudi, dibandingkan 7 kali untuk Tesla . Meskipun He Xiaopeng telah berulang kali menegaskan di berbagai acara, termasuk Auto China 2026, bahwa tujuannya adalah sepenuhnya melampaui FSD Tesla di pasar Cina pada bulan Agustus, ulasan independen menyarankan kehati-hatian. Seorang editor Electrek yang menguji VLA 2.0 di Beijing menggambarkan performanya “sebanding” dengan FSD v14, namun mencatat bahwa kedua sistem masih memerlukan perhatian pengemudi secara konstan dan masih jauh dari kata sepenuhnya otonomos
.
Untuk saat ini, persaingan ini tetaplah pengejaran berkecepatan tinggi yang didefinisikan oleh taruhan arsitektur berani dan klaim yang bahkan lebih berani. Keputusan XPeng untuk merancang bahasa keluar dari otak berkendaranya adalah sebuah judi yang diperhitungkan—bahwa jalur tercepat dari penglihatan ke tindakan adalah garis lurus, meskipun itu berarti membuang kamus ke luar jendela.
Comments
0 comments