Herzstück der neuen Strategie ist die auf der CVPR 2026 formal eingeführte zweite Generation des Vision-Language-Action-Modells, kurz VLA 2.0. Die Architektur bricht fundamental mit dem, was viele KI-Systeme – inklusive XPengs eigener erster Generation – derzeit tun .
In einer herkömmlichen VLA-Pipeline läuft der Prozess sequenziell ab: Das Fahrzeug sieht die Straße, übersetzt die visuelle Wahrnehmung in sprachähnliche Token (eine Art interne Beschreibung der Szene) und leitet daraus dann eine Fahraktion ab. Dr. Liu beschrieb diesen Zwischenschritt als kritische Schwäche und erklärte wörtlich: „Sprache ist Gift“ für das Fahren in Echtzeit . Sein Argument: Die Übersetzung in Sprache erzeugt unweigerlich Latenz und bringt irrelevantes semantisches Rauschen in einen Prozess, bei dem es auf Millisekunden ankommt. Stellen Sie sich vor, Sie müssten bei einer Gefahrenbremsung im Straßenverkehr erst innerlich den Satz „Ein Kind rennt auf die Straße“ formulieren, bevor Sie handeln – genau diese Verzögerung will XPeng ausschalten.
Das VLA-2.0-Modell entfernt diesen Engpass komplett. Es verfolgt einen sogenannten „Vision-Implicit-Token-Action“-Pfad. Das bedeutet: Aus den rohen visuellen Eingaben der Kameras werden direkt – Ende-zu-Ende – Fahrbefehle generiert, ohne dass das System intern eine sprachliche Repräsentation erzeugt . Das System kann dabei weiterhin Sprache als Eingabe akzeptieren, etwa einen Navigationsbefehl des Fahrers oder eine gesprochene Anweisung, aber es erzeugt selbst keine Sprachausgaben mehr während des Fahrens
. Wer sich für die technischen Details interessiert: Die zugehörige Forschungsarbeit DrivePTS wurde zur Veröffentlichung auf der Konferenz angenommen
.
XPengs Führungsetage hat in den letzten Monaten eine bemerkenswerte Chuzpe an den Tag gelegt, was den Vergleich mit Tesla betrifft. Dr. Liu erklärte im Juni-Interview, dass XPeng mit Teslas FSD v13 in China bereits gleichgezogen sei und das Erreichen des Leistungsniveaus des neueren FSD v14 noch vor Ende des Sommers in greifbarer Nähe liege .
Diese technischen Aussagen werden von einem ungewöhnlich persönlichen Einsatz des obersten Chefs flankiert. CEO He Xiaopeng schloss im Dezember 2025 eine öffentliche Wette ab: XPengs VLA-System müsse bis zum 30. August 2026 das Fahrerlebnis von Teslas FSD v14.2 erreichen, das dieser im Silicon Valley bietet . Sollte das Team scheitern, so versprach er, würde die verantwortliche Person einen Nacktlauf hinlegen
.
Um die eigene Darstellung zu untermauern, lud XPeng zwei bekannte US-amerikanische Tesla-Fans nach China ein. Das im Mai 2026 veröffentlichte Vergleichsvideo zeigt einen XPeng P7 mit VLA 2.0 und ein Tesla Model 3 mit FSD auf identischen Strecken in Peking. Laut XPengs eigenem Zusammenschnitt musste der Fahrer beim XPeng nur zweimal eingreifen, beim Tesla dagegen siebenmal .
CEO He Xiaopeng hat das Ziel bei mehreren Gelegenheiten, unter anderem auf der Auto China 2026, bekräftigt: Teslas FSD soll auf dem chinesischen Markt bis August vollständig überholt werden. Unabhängige Beobachter mahnen jedoch zur Besonnenheit. Ein Redakteur von Electrek, der das VLA-2.0-System in Peking selbst getestet hat, beschrieb die Leistung als „vergleichbar“ mit FSD v14 – betonte aber auch, dass beide Systeme noch die ständige Aufmerksamkeit des Fahrers erfordern und weit von einem echten autonomen Fahren entfernt sind .
Was hier abläuft, ist mehr als ein technologisches Wettrüsten. XPengs bewusste Entscheidung, Sprache aus dem Gehirn des Fahrzeugs zu verbannen, ist eine kalkulierte Wette: Der schnellste Weg von der visuellen Wahrnehmung zur Handlung ist eine gerade Linie – selbst wenn man dabei das Wörterbuch aus dem Fenster wirft. Ob dieser direkte Draht zwischen Auge und Tat reicht, um Elon Musks Vorsprung zu brechen, wird sich spätestens am 30. August zeigen müssen – sonst wird es für den XPeng-Verantwortlichen tatsächlich noch ungemütlich.
Comments
0 comments