Trong một quy trình VLA truyền thống, hệ thống tuân theo một chuỗi tuần tự: xe quan sát đường đi, chuyển đổi nhận thức thị giác đó thành các mã thông báo dạng ngôn ngữ (language tokens), và sau đó lập luận dựa trên những mã thông báo ngôn ngữ đó để tạo ra hành động lái xe. Tiến sĩ Liu mô tả bước trung gian này như một điểm yếu chí mạng, ông nói thẳng rằng "ngôn ngữ là thuốc độc" đối với việc lái xe thời gian thực . Lập luận của ông là các mã thông báo ngôn ngữ gây ra độ trễ cố hữu và đưa vào những "nhiễu" ngữ nghĩa không liên quan vào một quy trình đòi hỏi phản ứng ở cấp độ mili-giây.
Mô hình VLA 2.0 loại bỏ hoàn toàn nút thắt cổ chai này. Nó áp dụng cái mà công ty gọi là lộ trình "Thị giác-Mã thông báo Hàm ẩn-Hành động" (Vision-Implicit Token-Action), cho phép tạo ra các lệnh lái xe từ đầu đến cuối (end-to-end) trực tiếp từ dữ liệu đầu vào thị giác thô mà không cần bất kỳ biểu diễn ngôn ngữ trung gian nào . Mặc dù hệ thống vẫn có thể chấp nhận ngôn ngữ như một yếu tố đầu vào — chẳng hạn như lệnh điều hướng của tài xế hoặc một chỉ dẫn bằng giọng nói — nhưng nó không bao giờ tự tạo ra các mã thông báo ngôn ngữ như một đầu ra nội bộ trong quá trình lái xe
.
XPeng đã trưng bày hệ thống này tại gian hàng của mình ở CVPR cùng với một mô hình thế giới (world model) AI vật lý, và một bài báo nghiên cứu liên quan có tên DrivePTS cũng đã được chấp nhận xuất bản tại hội nghị .
Ban lãnh đạo XPeng không hề ngần ngại khi đưa ra những so sánh trực tiếp với Tesla. Những tuyên bố của họ trong suốt mùa xuân và hè năm 2026 thể hiện sự leo thang mạnh mẽ về mức độ tự tin. Tiến sĩ Liu tuyên bố trong cuộc phỏng vấn vào tháng 6 rằng XPeng đã đạt được sự ngang bằng với FSD v13 của Tesla tại Trung Quốc và việc bắt kịp hiệu suất của phiên bản FSD v14 mới hơn "nằm trong tầm tay trước khi kết thúc mùa hè" .
Những tuyên bố kỹ thuật này được hậu thuẫn bởi một cam kết cá nhân đặc biệt từ vị trí cao nhất. Vào tháng 12 năm 2025, CEO Hà Tiểu Bằng đã đặt ra một "vụ cá cược hiệu suất" công khai, tuyên bố rằng hệ thống VLA của XPeng phải sánh ngang với trải nghiệm trên đường của FSD v14.2 của Tesla tại Thung lũng Silicon trước ngày 30 tháng 8 năm 2026 . Mức độ nghiêm trọng của vụ cá cược này đã được làm rõ: nếu đội ngũ thất bại, người phụ trách sẽ phải "khỏa thân chạy bộ"
.
Để củng cố cho câu chuyện của mình, vào tháng 5 năm 2026, XPeng đã tung ra một video so sánh trực tiếp, mời hai người đam mê Tesla nổi tiếng tại Mỹ đến Trung Quốc. Cuộc đối đầu được dàn dựng này đưa một chiếc XPeng P7 chạy VLA 2.0 so tài với một chiếc Tesla Model 3 trang bị FSD trên cùng một cung đường ở Bắc Kinh. Theo bản cắt ghép video riêng của XPeng, xe của họ chỉ cần 2 lần tài xế can thiệp, so với 7 lần của Tesla .
Dù CEO Hà Tiểu Bằng đã nhắc lại tại nhiều sự kiện, bao gồm cả Triển lãm Ô tô Trung Quốc 2026, rằng mục tiêu là hoàn toàn vượt qua FSD của Tesla tại thị trường Trung Quốc vào tháng 8, các đánh giá độc lập vẫn khuyến nghị một mức độ thận trọng nhất định. Một biên tập viên của Electrek đã chạy thử VLA 2.0 tại Bắc Kinh mô tả hiệu suất của nó là "có thể so sánh" với FSD v14, nhưng lưu ý rằng cả hai hệ thống vẫn đòi hỏi tài xế phải liên tục chú ý và còn lâu mới đạt được mức độ tự lái hoàn toàn .
Hiện tại, cuộc đua vẫn là một màn rượt đuổi tốc độ cao được định hình bởi những canh bạc kiến trúc táo bạo và những tuyên bố còn táo bạo hơn. Quyết định của XPeng trong việc "thiết kế loại bỏ" ngôn ngữ khỏi não bộ lái xe là một sự đánh cược có tính toán rằng con đường nhanh nhất từ thị giác đến hành động là một đường thẳng — ngay cả khi điều đó có nghĩa là ném cả cuốn từ điển ra ngoài cửa sổ.
Comments
0 comments