समय के साथ परिणाम यह होता है कि मॉडल का आउटपुट:
यह प्रभाव कई प्रकार के जनरेटिव मॉडलों में देखा गया है, जैसे:
कई अलग‑अलग मॉडल परिवारों में इसका दिखना यह संकेत देता है कि यह किसी एक आर्किटेक्चर की समस्या नहीं, बल्कि सिंथेटिक डेटा पर रिकर्सिव लर्निंग की सामान्य सीमा हो सकती है।
इस समस्या के पीछे एक सरल सांख्यिकीय कारण है।
जब कोई मॉडल डेटा जनरेट करता है, तो वह अक्सर उच्च‑संभावना वाले पैटर्न ज्यादा बनाता है और दुर्लभ घटनाओं को कम। ये दुर्लभ घटनाएं डेटा वितरण के "टेल" में होती हैं और सैंपलिंग में पहले से ही कम दिखती हैं।
अब अगर अगली पीढ़ी का मॉडल उसी सिंथेटिक डेटा से ट्रेन होता है:
हर नई ट्रेनिंग पीढ़ी पिछले मॉडल के पक्षपात को बढ़ाती जाती है। आखिरकार डेटा वितरण के टेल लगभग गायब हो सकते हैं।
एक बार जब ये दुर्लभ उदाहरण ट्रेनिंग कॉर्पस से हट जाते हैं, तो बाद के मॉडल उन्हें फिर से “खोज” नहीं सकते—क्योंकि उनके अस्तित्व का सबूत ही गायब हो चुका होता है।
हालिया विश्लेषण का एक दिलचस्प निष्कर्ष यह है कि इस समस्या को रोकने के लिए बहुत ज्यादा वास्तविक डेटा जरूरी नहीं हो सकता।
Exponential families नामक सांख्यिकीय मॉडलों पर आधारित शोध में पाया गया कि यदि ट्रेनिंग प्रक्रिया में वास्तविक वितरण से आया सिर्फ एक भी डेटा पॉइंट शामिल हो, तो वह पूरे सिस्टम को “एंकर” कर सकता है। यह संकेत देता है कि दुर्लभ पैटर्न मौजूद हैं, जिससे मॉडल गलत वितरण पर स्थिर नहीं होता।
इसी तरह, prior knowledge—यानी मॉडल में पहले से डाली गई संरचनात्मक धारणाएं या सीमाएं—भी मदद कर सकती हैं। ये मॉडल को पूरी तरह सिंथेटिक डेटा के पक्षपात की ओर बहकने से रोकती हैं।
व्यवहारिक रूप से इसका मतलब है:
भले ही सिंथेटिक डेटा की मात्रा बहुत ज्यादा हो, ये “एंकर” ट्रेनिंग को स्थिर बना सकते हैं।
यह समस्या खास तौर पर Large Language Models (LLMs) के लिए महत्वपूर्ण हो गई है।
इन मॉडलों को ट्रेन करने के लिए आम तौर पर इंटरनेट से विशाल डेटा इकट्ठा किया जाता है। लेकिन जैसे‑जैसे ऑनलाइन कंटेंट में AI‑जनरेटेड टेक्स्ट बढ़ रहा है, भविष्य के ट्रेनिंग डेटासेट में भी सिंथेटिक सामग्री का अनुपात बढ़ सकता है।
अगर भविष्य के मॉडल मुख्यतः इसी AI‑जनरेटेड डेटा पर प्रशिक्षित होते हैं, तो वे धीरे‑धीरे मानव भाषा और ज्ञान की विविधता से दूर हो सकते हैं।
संभावित परिणाम हो सकते हैं:
इसलिए शोधकर्ता चेतावनी देते हैं कि भविष्य के AI विकास के लिए विश्वसनीय मानव‑जनित डेटा तक पहुंच बनाए रखना या ऐसे तंत्र बनाना जरूरी होगा जो मूल डेटा वितरण को सुरक्षित रखें।
हालांकि मॉडल कोलैप्स का तंत्र अच्छी तरह समर्थित है, कुछ विवरण अभी भी शोध के अधीन हैं। उदाहरण के लिए, “सिर्फ एक वास्तविक डेटा पॉइंट” से कोलैप्स रुकने का दावा मुख्यतः सैद्धांतिक विश्लेषण और सरल सांख्यिकीय मॉडलों पर आधारित है, न कि बड़े पैमाने के वास्तविक LLM ट्रेनिंग प्रयोगों पर।
इसका मतलब है कि वास्तविक प्रणालियों में आवश्यक असली डेटा की मात्रा मॉडल आर्किटेक्चर, डेटासेट और ट्रेनिंग प्रक्रिया पर निर्भर कर सकती है।
फिर भी मूल संदेश स्पष्ट है: अगर AI केवल AI से सीखता रहा, तो समय के साथ वास्तविकता के कुछ हिस्से गायब हो सकते हैं। इसलिए लंबे समय तक सटीक और विश्वसनीय AI बनाए रखने के लिए वास्तविक दुनिया के डेटा से जुड़ाव बनाए रखना जरूरी है।
Comments
0 comments