在傳統的VLA流程中,系統遵循著一套循序漸進的過程:車輛「看見」路況,將視覺感知轉換成類似語言的標記(tokens),然後針對這些語言標記進行推理,最終產生駕駛行為。劉博士將這個中介步驟形容為一個致命的弱點,他直言不諱地表示,對即時駕駛來說,「語言是毒藥」 。他的論點是,語言標記會帶來固有的延遲,並在需要毫秒級反應的過程中注入不相關的語義雜訊。
VLA 2.0模型徹底消除了這個瓶頸。它採用了公司所稱的**「視覺-隱含標記-行動」(Vision-Implicit Token-Action)**路徑,能夠直接從原始視覺輸入端到端地生成駕駛指令,過程中完全沒有任何中介的語言表徵 。儘管系統仍可接受語言作為「輸入」——例如駕駛的導航指令或語音命令——但在實際駕駛的行為生成過程中,它絕不會自行創造語言標記作為內部輸出
。小鵬在CVPR的攤位上展示了該系統以及一個實體的AI世界模型,其相關研究論文《DrivePTS》也已獲大會接受發表
。
小鵬的領導層在與特斯拉的正面交鋒上毫不客氣。他們在2026年春夏之際的一系列聲明,顯示出其自信的急遽升溫。劉博士在6月的訪談中表示,小鵬在中國已達到與特斯拉FSD v13並駕齊驅的水準,而追平更新版FSD v14的效能則是「在夏末之前可望實現」的目標 。
這些技術主張背後,還有來自最高層非比尋常的個人承諾。2025年12月,執行長何小鵬設立了一個公開的「效能賭注」,宣告小鵬的VLA系統必須在2026年8月30日前,達到特斯拉FSD v14.2在美國矽谷的道路體驗水準 。這個賭注的代價非常明確:若團隊失敗,負責人就要「裸奔」
。
為了支持其論述,小鵬在2026年5月發布了一支一對一實測影片,將兩名美國特斯拉愛好者請到中國。這場精心安排的對比,讓一輛搭載VLA 2.0的小鵬P7與一輛配備FSD的特斯拉Model 3,在相同的北京市區路線上進行比拼。根據小鵬剪輯的影片,其車輛僅需2次駕駛接手,而特斯拉則高達7次 。儘管何小鵬多次在包含2026年北京車展的場合重申,目標是在8月前於中國市場全面超越特斯拉FSD,但獨立評測仍呼籲外界保持謹慎。《Electrek》的一位編輯在北京測試VLA 2.0後,形容其表現與FSD v14「相當」,但也指出兩套系統依然需要駕駛隨時保持專注,距離全自動駕駛還有很長一段路要走
。
目前看來,這場競賽仍是一場由大膽的架構賭注與更為大膽的主張所定義的高速追逐。小鵬決定在設計環節就將語言從其駕駛大腦中剔除,是一場精心計算的豪賭;他們相信,從視覺到行動的最快路徑就是一條直線——即便這意味著要把整本字典扔出窗外。
Comments
0 comments