"Google" शब्द को एक ही टोकन ["Google"] के रूप में एन्कोड किया जा सकता है, या टोकनाइज़र की शब्दावली के आधार पर ["Go", "ogle"]["G", "o", "o", "g", "l", "e"]
इससे दो परस्पर जुड़ी समस्याएँ पैदा होती हैं:
पहली, एम्बेडिंग लेयर कैरेक्टर-लेवल की जानकारी को पूरी तरह एन्कोड नहीं करती। शोध से पता चलता है कि LLM एम्बेडिंग लेयर केवल प्रत्येक टोकन के पहले अक्षर के लिए मज़बूत कैरेक्टर जानकारी संग्रहीत करती है; उसके बाद, अक्षर-स्तर की विस्तृत जानकारी तेज़ी से खत्म हो जाती है । जब किसी मॉडल को टोकन के अंदर अक्षर गिनने की ज़रूरत होती है, तो उसे उस प्रतिनिधित्व से अक्षर अनुक्रम का पुनर्निर्माण करना पड़ता है, जिसे मूल रूप से इसे संरक्षित करने के लिए डिज़ाइन ही नहीं किया गया था। बाद की ट्रांसफॉर्मर लेयर आंशिक रूप से इसकी भरपाई करती हैं—शोधकर्ताओं ने एक अलग "ब्रेकथ्रू" बिंदु देखा है जहाँ मॉडल टोकन को सही ढंग से अक्षर-दर-अक्षर बताने में सफल होता है—लेकिन यह प्रक्रिया अविश्वसनीय और नाज़ुक है
।
दूसरी, सबवर्ड टोकनाइज़र "बड़े पैमाने पर टोकन की आंतरिक संरचना से बेखबर" होते हैं। आर्काइव (Arxiv) के 2024 के एक अध्ययन ने इस कमज़ोरी को "टोकनाइज़ेशन का अभिशाप" (the curse of tokenization) नाम दिया: टोकनाइज़र स्वाभाविक रूप से टाइपोग्राफिकल त्रुटियों, लंबाई में बदलाव के प्रति संवेदनशील होते हैं, और स्वयं टोकन की आंतरिक संरचना से बेखबर होते हैं । "journalism" जैसा शब्द एक एकल टोकन हो सकता है—मॉडल ने इसे कभी भी अक्षर स्तर पर
j-o-u-r-n-a-l-i-s-m में विघटित करना नहीं सीखा, इसलिए जब इसका स्पेलिंग पूछा जाता है, तो यह अंदाज़ा लगाता है।
नतीजा वही हुआ जो यूज़र्स ने गूगल के AI ओवरव्यू के साथ देखा: एक AI जो दर्शनशास्त्र पर बहस कर सकता है और कोड लिख सकता है, वह पूरे आत्मविश्वास से ज़ोर देता है कि "Google" में दो 'p' हैं और "poop" में बिल्कुल एक 'r' है ।
अगर समस्या टोकनाइज़ेशन की है, तो सहज समाधान कैरेक्टर-लेवल या बाइट-लेवल मॉडल का उपयोग करना है। मॉडल को हर अक्षर देखने दें। यह दृष्टिकोण मौजूद है—ByT5 जैसे मॉडल सीधे रॉ बाइट्स पर काम करते हैं—लेकिन इसे व्यापक रूप से नहीं अपनाया गया क्योंकि यह मॉडलों को चलाने में नाटकीय रूप से अधिक महंगा बना देता है ।
शुद्ध कैरेक्टर-लेवल प्रोसेसिंग पर जाने से अनुक्रम की लंबाई अनुमानित 3–5 गुना बढ़ जाती है, जिससे कम्प्यूटेशनल लागत आनुपातिक रूप से बढ़ जाती है और मॉडल के लिए दीर्घ-दूरी की निर्भरता और अर्थ संबंधी संबंधों को सीखना कहीं अधिक कठिन हो जाता है । सबवर्ड टोकनाइज़र वह दक्षता समझौता है जिसने आधुनिक LLM को व्यावहारिक बनाया: वे टेक्स्ट को प्रबंधनीय शब्दावली आकारों में संपीड़ित करते हैं, जबकि धाराप्रवाह भाषा निर्माण के लिए पर्याप्त अर्थ संरक्षित रखते हैं।
शोधकर्ता मोटे तौर पर इस बात से सहमत हैं कि एक "संपूर्ण" टोकनाइज़र संभवतः मौजूद नहीं है । टोकनाइज़र "नियमित रूप से गैर-अद्वितीय एन्कोडिंग उत्पन्न करते हैं" और "प्रतिनिधित्व संबंधी बेमेल" पैदा करते हैं जो गहराई से वास्तुशिल्प है—पैच करने के लिए कोई साधारण बग नहीं
। कैरेक्टर-लेवल सटीकता और अर्थपूर्ण प्रवाह के बीच का व्यापार-बंद ट्रांसफॉर्मर आर्किटेक्चर के लिए मूलभूत प्रतीत होता है।
स्पेलिंग की ये विफलताएँ कई संरचनात्मक सीमाओं को उजागर करती हैं जो गूगल के AI ओवरव्यू से कहीं आगे तक लागू होती हैं।
LLM पैटर्न मिलानकर्ता हैं, प्रतीक हेरफेरकर्ता नहीं। अक्षर गिनना पारंपरिक कोड चलाने वाले किसी भी कंप्यूटर के लिए एक मामूली एल्गोरिदमिक कार्य है, लेकिन LLM एल्गोरिदम निष्पादित नहीं करते—वे अपने प्रशिक्षण डेटा में सांख्यिकीय पैटर्न के आधार पर अगले सबसे संभावित टोकन की भविष्यवाणी करते हैं । जब अक्षरों की संख्या पूछी जाती है, तो मॉडल सीखे हुए संघों से एक संभावित-सा लगने वाला उत्तर उत्पन्न करता है, न कि कोई गिनती की प्रक्रिया।
आत्मविश्वास का शुद्धता से कोई संबंध नहीं है। AI ने पूर्ण व्याकरणिक प्रवाह के साथ "दो" का जवाब दिया, फिर भी यह वास्तविक रूप से गलत था। यह LLM हेलुसिनेशन (मतिभ्रम) की एक पहचान है: विश्वसनीय-से लगने वाले उत्तर, जिनके पास कोई अंतर्निहित सत्यापन तंत्र नहीं है। गूगल ने स्वयं 2024 में स्वीकार किया था कि जबकि AI ओवरव्यूज़ "केवल वही जानकारी दिखाने के लिए बनाए गए हैं जो शीर्ष वेब परिणामों द्वारा समर्थित हो", वे फिर भी प्रश्नों या भाषा की बारीकियों की गलत व्याख्या कर सकते हैं ।
यह कमज़ोरी वास्तुकला की है, आकस्मिक नहीं। सबवर्ड टोकनाइज़ेशन का उपयोग करने वाला हर प्रमुख LLM—OpenAI, Anthropic, और Meta के मॉडल शामिल हैं—कैरेक्टर-लेवल के कार्यों जैसे शब्दों को उल्टा लिखना, अक्षरों की गिनती करना, या अनाग्राम को संभालने में समान कमज़ोरियाँ दिखाता है । मॉडलों का आकार बढ़ाने से कुछ हद तक मदद मिलती है, लेकिन पूर्वाग्रह बना रहता है
।
ये विफलताएँ शर्मनाक लग सकती हैं—एक AI जो अपनी ही कंपनी का नाम नहीं लिख सकता—लेकिन उद्योग इसे संकट के रूप में नहीं लेता क्योंकि LLM का बहुत बड़ा मूल्य कहीं और है।
धाराप्रवाह टेक्स्ट जनरेशन, सारांशीकरण, तर्क, अनुवाद, कोड जनरेशन—ये सभी क्षमताएँ मॉडल की अर्थ (सिमैंटिक) स्तर पर काम करने की क्षमता से आती हैं, जहाँ टोकन-लेवल का एब्स्ट्रैक्शन एक फीचर है, बग नहीं । अक्षर-स्तर की सटीकता वह चीज़ नहीं है जिसके लिए इन आर्किटेक्चर को अनुकूलित करने के लिए डिज़ाइन किया गया है।
व्यावहारिक समाधान यह है कि स्पेलिंग और गिनती के प्रश्नों को LLM को संभालने के बजाय पारंपरिक नियम-आधारित सॉफ़्टवेयर पर भेजा जाए। AI ओवरव्यूज़ के कई कार्यान्वयन पहले से ही ऐसे प्रश्नों का पता लगाने और उन्हें स्थगित करने का प्रयास कर रहे हैं, हालाँकि मई 2026 में सामने आई प्रमुख त्रुटियाँ दर्शाती हैं कि पहचान स्वयं अभी भी सही नहीं है । एक अलग अध्ययन में पाया गया कि गूगल के AI ओवरव्यूज़ स्पेलिंग को उलटने वाले सवालों के 52% समय पर गलत उत्तर देते हैं—और तीन या अधिक अक्षरों वाले केवल 10% शब्दों को ही सही ढंग से उल्टा लिखा गया
।
गूगल सार्वजनिक रूप से सामने आई विशिष्ट गिनती की समस्याओं के समाधान पर काम कर रहा है । लेकिन जो कोई भी टोकनाइज़ेशन के व्यापार-बंद को समझता है, उसके लिए असली सबक यह नहीं है कि गूगल ने एक दोषपूर्ण उत्पाद जारी किया। सबक यह है कि AI क्रांति को शक्ति देने वाली वास्तुकला में एक मूलभूत कमज़ोरी है—और किसी ने भी इसे ठीक करने का कोई ऐसा तरीका नहीं खोजा है जो LLM को पहले स्थान पर मूल्यवान बनाने वाली चीज़ों का बलिदान न करे।
Comments
0 comments