La pieza central de la presencia de XPeng en el CVPR 2026 fue la presentación formal de su modelo de segunda generación Visión-Lenguaje-Acción, VLA 2.0. Esta arquitectura representa un cambio radical en la forma en que muchos sistemas de IA, incluido el modelo de primera generación de XPeng, gestionan la tarea de conducir .
En un esquema VLA tradicional, el sistema sigue un proceso secuencial: el coche ve la carretera, traduce esa percepción visual en tokens similares al lenguaje y luego razona sobre esos tokens lingüísticos para generar una acción de conducción. El Dr. Liu describió este paso intermedio como una debilidad crítica, afirmando sin rodeos que "el lenguaje es veneno" para la conducción en tiempo real . Su argumento es que los tokens de lenguaje introducen una latencia inherente e inyectan ruido semántico irrelevante en un proceso que exige reacciones en milisegundos.
El modelo VLA 2.0 elimina este cuello de botella por completo. Adopta lo que la compañía denomina una ruta "Visión-Token Implícito-Acción", que permite una generación de comandos de conducción de extremo a extremo directamente desde las entradas visuales brutas, sin ninguna representación de lenguaje intermedia . Aunque el sistema aún puede aceptar lenguaje como entrada —por ejemplo, una orden de navegación hablada del conductor—, nunca crea sus propios tokens de lenguaje como salida interna durante el acto de conducir
. XPeng mostró el sistema en su estand del CVPR junto a un modelo de mundo físico de IA, con un artículo de investigación relacionado, DrivePTS, aceptado para su publicación en la conferencia
.
La directiva de XPeng no se ha cortado a la hora de hacer comparaciones directas con Tesla. Sus declaraciones durante la primavera y el verano de 2026 representan una clara escalada en su nivel de confianza. El Dr. Liu declaró en su entrevista de junio que XPeng ya ha logrado igualar el rendimiento del FSD v13 de Tesla en China y que alcanzar el rendimiento del más reciente FSD v14 está "a su alcance antes de que termine el verano" .
Estas afirmaciones técnicas están respaldadas por un compromiso personal inusualmente serio por parte de la cúpula directiva. En diciembre de 2025, el CEO He Xiaopeng estableció una "apuesta de rendimiento" pública, declarando que el sistema VLA de XPeng debía igualar la experiencia en carretera del FSD v14.2 de Tesla en Silicon Valley antes del 30 de agosto de 2026 . Los términos de la apuesta eran explícitos: si el equipo fallaba, la persona a cargo "correría desnuda"
.
Para respaldar su discurso, XPeng publicó un vídeo comparativo en mayo de 2026 para el que llevó a dos entusiastas de Tesla residentes en EE. UU. a China. La comparación, preparada para la ocasión, enfrentó a un XPeng P7 con VLA 2.0 contra un Tesla Model 3 con FSD en rutas idénticas por Pekín. Según la versión del vídeo de XPeng, su vehículo solo necesitó 2 intervenciones del conductor, en comparación con las 7 del Tesla . Aunque He Xiaopeng ha reiterado en múltiples eventos, incluido el Salón del Automóvil de China 2026, que el objetivo es superar por completo al FSD de Tesla en el mercado chino para agosto, las reseñas independientes instan a la cautela. Un editor de Electrek que probó el VLA 2.0 en Pekín describió su rendimiento como "comparable" al del FSD v14, pero señaló que ambos sistemas aún requieren una atención constante por parte del conductor y están lejos de ser completamente autónomos
.
Por ahora, la carrera sigue siendo una persecución a alta velocidad definida por arriesgadas apuestas arquitectónicas y afirmaciones aún más audaces. La decisión de XPeng de eliminar el lenguaje del cerebro de su vehículo es una jugada calculada que apuesta a que el camino más rápido de la visión a la acción es en línea recta... incluso si eso significa tirar el diccionario por la ventana.
Comments
0 comments