एक पारंपरिक VLA (विज़न-लैंग्वेज-एक्शन) पाइपलाइन में, सिस्टम एक अनुक्रमिक प्रक्रिया का पालन करता है: कार सड़क देखती है, उस दृश्य धारणा को भाषा-जैसे टोकन में अनुवाद करती है, और फिर ड्राइविंग क्रिया उत्पन्न करने के लिए उन भाषा टोकन के बारे में तर्क करती है। डॉ. लियू ने इस मध्यवर्ती कदम को एक गंभीर कमज़ोरी बताया, स्पष्ट रूप से कहा कि "भाषा ज़हर है" वास्तविक समय की ड्राइविंग के लिए । उनका तर्क है कि भाषा टोकन अंतर्निहित विलंबता (लेटेंसी) उत्पन्न करते हैं और एक ऐसी प्रक्रिया में अप्रासंगिक सिमेंटिक शोर इंजेक्ट करते हैं जो मिलीसेकंड-स्तर की प्रतिक्रियाओं की मांग करती है।
VLA 2.0 मॉडल इस बाधा को पूरी तरह से समाप्त करता है। यह अपनाता है जिसे कंपनी "विज़न-इम्प्लिसिट टोकन-एक्शन" (दृष्टि-अंतर्निहित टोकन-क्रिया) पथ कहती है, जो बिना किसी मध्यवर्ती भाषा प्रतिनिधित्व के सीधे कच्चे दृश्य इनपुट से ड्राइविंग कमांड की एंड-टू-एंड पीढ़ी को सक्षम बनाता है । जबकि सिस्टम अभी भी एक इनपुट के रूप में भाषा को स्वीकार कर सकता है - जैसे कि ड्राइवर का नेविगेशन कमांड या एक बोली जाने वाली सूचना - यह वास्तविक ड्राइविंग के कार्य के दौरान आंतरिक आउटपुट के रूप में कभी भी अपने स्वयं के भाषा टोकन नहीं बनाता है
। XPeng ने इस प्रणाली को अपने CVPR बूथ पर एक भौतिक AI वर्ल्ड मॉडल के साथ प्रदर्शित किया, जिसमें एक संबंधित शोध पत्र, DrivePTS, सम्मेलन में प्रकाशन के लिए स्वीकार किया गया
।
XPeng का नेतृत्व टेस्ला से सीधी तुलना करने में हिचकिचाया नहीं है। 2026 के वसंत और गर्मियों में उनके दावे आत्मविश्वास में तीव्र वृद्धि का प्रतिनिधित्व करते हैं। डॉ. लियू ने अपने जून के साक्षात्कार में कहा कि XPeng चीन में टेस्ला के FSD v13 के साथ पहले ही बराबरी हासिल कर चुका है और नए FSD v14 के प्रदर्शन से मुकाबला करना "गर्मियों के अंत से पहले पहुंच के भीतर" है ।
ये तकनीकी दावे शीर्ष से एक असामान्य रूप से व्यक्तिगत प्रतिबद्धता द्वारा समर्थित हैं। दिसंबर 2025 में, सीईओ ही शियाओपेंग ने एक सार्वजनिक "प्रदर्शन शर्त" रखी, यह घोषणा करते हुए कि XPeng के VLA सिस्टम को 30 अगस्त, 2026 तक सिलिकॉन वैली में टेस्ला के FSD v14.2 के ऑन-रोड अनुभव से मेल खाना चाहिए । इस शर्त के दांव को स्पष्ट कर दिया गया था: यदि टीम विफल रही, तो प्रभारी व्यक्ति "नंगा दौड़ेगा"
।
अपनी कहानी का समर्थन करने के लिए, XPeng ने मई 2026 में एक आमने-सामने का वीडियो जारी किया जिसमें दो अमेरिका-स्थित टेस्ला उत्साही लोगों को चीन लाया गया। इस मंचित तुलना ने एक जैसे बीजिंग मार्गों पर XPeng P7 को VLA 2.0 के साथ टेस्ला मॉडल 3 के FSD के खिलाफ खड़ा किया। XPeng के अपने वीडियो के अनुसार, इसके वाहन को केवल 2 बार ड्राइवर के हस्तक्षेप की आवश्यकता पड़ी, जबकि टेस्ला के लिए यह संख्या 7 थी । जबकि ही शियाओपेंग ने ऑटो चाइना 2026 सहित कई आयोजनों में दोहराया है कि लक्ष्य अगस्त तक चीनी बाजार में टेस्ला की FSD को पूरी तरह से पीछे छोड़ना है, स्वतंत्र समीक्षाएँ थोड़ी सावधानी बरतने का आग्रह करती हैं। एक Electrek संपादक जिसने बीजिंग में VLA 2.0 का परीक्षण किया, उसने इसके प्रदर्शन को FSD v14 के "तुलनीय" बताया, लेकिन कहा कि दोनों प्रणालियों को अभी भी लगातार ड्राइवर के ध्यान की आवश्यकता है और ये पूरी तरह से स्वायत्त होने से कोसों दूर हैं
।
फिलहाल, यह दौड़ साहसिक वास्तुशिल्प दांवों और उससे भी साहसी दावों द्वारा परिभाषित एक हाई-स्पीड चेज़ बनी हुई है। XPeng का अपने ड्राइविंग मस्तिष्क से भाषा को डिज़ाइन करके बाहर निकालने का निर्णय एक सोची-समझी जुआ है कि दृष्टि से क्रिया तक का सबसे तेज़ रास्ता एक सीधी रेखा है—भले ही इसका मतलब शब्दकोश को खिड़की से बाहर फेंकना ही क्यों न हो।
Comments
0 comments