従来の多くのVLAモデルは、人間の思考プロセスを模倣するように設計されている。すなわち、カメラで捉えた「映像(Vision)」を、一度「言語(Language)」に翻訳し、その言葉を基に推論してから、ハンドルやアクセルといった「行動(Action)」に変換する、という逐次処理を行う。
しかし、劉博士はこの中間段階こそが、自動運転にとって致命的な弱点になると断じる。彼は、走行中のリアルタイム処理において、「言語は毒(Language is poison)」 に他ならないと、極めて刺激的な言葉で表現した 。
その理由は明白だ。まず、映像を言葉に変換し、それを再び解析するというステップが、不可避的な「遅延」を生み出す。ミリ秒単位の反応が求められる緊急回避の場面では、この遅延が生死を分けかねない。さらに、言語は本質的に曖昧さや不必要な意味論的ノイズを含んでしまう。たとえば、前方の停止車両を認識するだけなら、画像処理の方が「赤いセダンが左に寄って停車している」といった言葉の情報よりも直接的で、誤解の余地がない。
そこでVLA 2.0は、「ビジョン→暗示的トークン→アクション(Vision-Implicit Token-Action)」 という、XPeng独自の経路を採用した。これにより、生の視覚入力から運転操作を、中間言語表現を一切介さずに、エンドツーエンドで直接生成することを可能にしたのである 。
もちろん、音声認識やナビゲーションの目的地設定のように、システムへの入力として「言語」を使う機能は残っている。肝心なのは、走行中に「思考する」プロセスにおいて、システム内部で言語を発生させることが完全になくなったという点だ 。
XPengの経営陣は、その自信のほどをテスラとの直接比較という形で隠そうとしない。
2026年春から夏にかけての発言は、自信の明確な高まりを示している。劉博士は6月のインタビューで、中国市場においてXPengのシステムは既にTesla FSD v13と同等の性能に到達しており、より新しいFSD v14の性能に追いつくのも「夏の終わりまでには射程圏内」だと明言した 。
こうした技術面での主張は、トップによる異例の「公約」によって、より切迫感を帯びている。何小鵬(He Xiaopeng)会長兼CEOは2025年12月、自社のVLAシステムがシリコンバレーで走るTesla FSD v14.2と同等の走行体験を、2026年8月30日までに達成するという「成果報酬(というより罰ゲーム)」を公に宣言したのだ 。
その罰則は極めて具体的で、もし目標を達成できなければ、担当責任者は**「全裸でランニングする」** というものだった 。これは単なる社内のノリではなく、投資家や市場に対する、退路を断った決意表明と言えるだろう。
この主張を裏付けるため、XPengは2026年5月に公開比較動画を公開した。これは、米国からわざわざ招聘した2人のテスラ愛好家を同乗させ、北京の同一ルートでXPeng P7(VLA 2.0搭載)とTesla Model 3(FSD搭載)を走らせるという企画である。XPeng発表の編集動画によれば、ドライバーが介入しなければならない回数は、テスラが7回だったのに対し、XPengはわずか2回だったとしている 。
何小鵬CEOは、2026年4月の北京モーターショー(Auto China 2026)など、複数の場で「8月までにテスラFSDを完全に凌駕する」という目標を繰り返し表明している。しかし、独立系の評価は、手放しの賛辞にはやや慎重だ。VLA 2.0を北京で試乗したElectrekの編集者は、その性能をFSD v14と「同等」と評しつつも、両システムとも依然としてドライバーによる継続的な監視が不可欠であり、完全自動運転にはほど遠い、と冷静に指摘している 。
言葉を捨て、視覚から行動へ一直線に進む道を選んだXPengの賭け。それが最速の近道なのかはまだわからない。だが、「辞書を窓から投げ捨てる」という彼らの決断が、自動運転競争に全く新しいレースを引き起こしたことは間違いない。
Comments
0 comments