В традиционном конвейере VLA (Vision-Language-Action, т.е. «зрение-язык-действие») система работает пошагово: машина «видит» дорогу, переводит визуальное восприятие в токены, подобные языковым, а затем уже рассуждает об этих языковых токенах, чтобы сгенерировать управляющее действие. Доктор Лю назвал этот промежуточный шаг критической уязвимостью, прямо заявив, что «язык — это яд» для вождения в реальном времени . Аргумент Лю в том, что языковые токены вносят свойственную им задержку и инъецируют нерелевантный семантический шум в процесс, требующий миллисекундной реакции.
Новая модель VLA 2.0 полностью убирает это узкое место. Использован путь, который в компании называют «зрение — неявный токен — действие». Он позволяет сквозную, end-to-end генерацию водительских команд прямо из сырых визуальных входных данных без всякого промежуточного представления в языке . При этом система всё ещё может принимать язык как входящий сигнал: например, навигационную команду водителя или голосовую инструкцию. Но она никогда не порождает собственные языковые токены как внутренний результат в ходе самого процесса езды
. На стенде CVPR компания демонстрировала работу системы совместно с физической моделью мира. Исследовательская работа DrivePTS была принята для публикации на конференции
.
Руководство XPeng не стесняется проводить прямые параллели с Tesla. Их заявления весной и летом 2026 года — это резкий скачок уверенности. Доктор Лю сообщил в июньском интервью, что XPeng уже достигла паритета с FSD v13 от Tesla в Китае и что сравнение с производительностью более новой FSD v14 «в пределах досягаемости ещё до конца лета» .
Эти технические утверждения подкреплены необычно личным обязательством сверху. В декабре 2025 года CEO Хэ Сяопэн заключил публичное пари: он заявил, что система VLA от XPeng должна сравняться по ощущениям от вождения на дороге с Tesla FSD v14.2 в Кремниевой долине к 30 августа 2026 года . Ставки были предельно ясны: если команда провалит задачу, ответственный за направление «побежит голым»
.
Чтобы подкрепить свою нарративную линию, XPeng выпустила в мае 2026 года видеосравнение, куда пригласила двух активных сторонников Tesla из США в Китай. Постановочное сравнение столкнуло седан XPeng P7 с VLA 2.0 против Tesla Model 3 с FSD на идентичных пекинских маршрутах. Согласно собственной версии видеоролика XPeng, их машине потребовалось лишь 2 вмешательства водителя против 7 у Tesla . Хотя Хэ Сяопэн неоднократно повторял на мероприятиях, включая Auto China 2026, что цель — полностью превзойти FSD Tesla на китайском рынке к августу, независимые обзоры призывают к осторожности. Редактор Electrek, тестировавший VLA 2.0 в Пекине, назвал производительность системы «сопоставимой» с FSD v14, но заметил, что обе всё ещё требуют постоянного внимания водителя и далеки от полностью автономного вождения
.
Пока эта гонка остаётся высокоскоростной погоней, определяемой смелыми архитектурными ставками и ещё более смелыми заявлениями. Решение XPeng исключить язык из «мозга» автомобиля — это рассчитанная игра на то, что самый быстрый путь от зрения к действию — это прямая линия. Даже если для этого придётся выбросить словарь.
Comments
0 comments