مع الوقت، تصبح مخرجات النموذج:
وقد لوحظت هذه الظاهرة في عدة أنواع من النماذج التوليدية، منها:
وظهور المشكلة عبر عدة عائلات من النماذج يشير إلى أنها ليست مشكلة تقنية خاصة بنموذج معين، بل خاصية عامة قد تظهر عندما يتم التدريب بشكل متكرر على بيانات اصطناعية.
السبب يعود في الأساس إلى طريقة أخذ العينات الإحصائية.
عندما يولد نموذج ذكاء اصطناعي بيانات جديدة، فإنه يميل بطبيعته إلى إنتاج الأنماط ذات الاحتمال الأعلى أكثر من الأنماط النادرة. هذه الأنماط النادرة تقع في أطراف التوزيع الإحصائي، وهي أصلاً قليلة الظهور.
عند استخدام هذه البيانات الاصطناعية لتدريب الجيل التالي من النماذج يحدث ما يلي:
مع تكرار العملية، تختفي أطراف التوزيع تدريجياً، وتبقى فقط الأنماط الأكثر شيوعاً.
وبمجرد اختفاء هذه الأمثلة من بيانات التدريب، يصبح من المستحيل تقريباً للنماذج اللاحقة إعادة اكتشافها، لأن الدليل على وجودها لم يعد موجوداً في البيانات.
من النتائج اللافتة في التحليلات الحديثة أن كمية صغيرة جداً من البيانات الواقعية قد تكون كافية لمنع الانهيار.
في دراسة تحليلية استخدمت نماذج إحصائية تُعرف باسم العائلات الأسية (Exponential Families)، وجد الباحثون أن إدخال حتى نقطة بيانات واحدة من التوزيع الحقيقي يمكن أن يعمل كمرساة للنموذج. هذه النقطة تحافظ على دليل إحصائي على وجود الأنماط النادرة، مما يمنع التدريب التكراري من الانجراف نحو توزيع خاطئ.
هناك طريقة أخرى لتحقيق التأثير نفسه وهي استخدام المعرفة المسبقة (Prior Knowledge) داخل النموذج. فهذه القيود أو الافتراضات المدمجة تحدد شكل التوزيعات الممكنة التي يمكن للنموذج تعلمها، وبالتالي تمنع الانحراف الكامل نحو الأنماط المتحيزة الموجودة في البيانات الاصطناعية.
بعبارة أخرى:
حتى عندما تكون البيانات الاصطناعية أكثر بكثير من البيانات الحقيقية، يمكن لهذه "المراسي" أن تثبت عملية التعلم.
تزداد أهمية هذه المشكلة مع انتشار المحتوى الذي يولده الذكاء الاصطناعي على الإنترنت.
تعتمد النماذج اللغوية الكبيرة عادة على مجموعات بيانات ضخمة مأخوذة من الويب. ومع ازدياد النصوص التي ينتجها الذكاء الاصطناعي، قد تصبح هذه المجموعات مختلطة بكمية كبيرة من المحتوى الاصطناعي الناتج عن نماذج سابقة.
إذا تم تدريب النماذج المستقبلية بشكل أساسي على هذه البيانات، فقد يحدث انحراف تدريجي بعيداً عن ثراء اللغة والمعرفة البشرية.
النتائج المحتملة قد تشمل:
لهذا يحذر الباحثون من أن الحفاظ على مصادر موثوقة من البيانات البشرية الأصلية أو استخدام تقنيات تحافظ على التوزيع الحقيقي للبيانات أصبح أمراً ضرورياً لاستمرار تطوير أنظمة الذكاء الاصطناعي بدقة وموثوقية.
رغم أن آلية انهيار النماذج مدعومة بأدلة قوية، فإن بعض التفاصيل ما تزال قيد البحث.
فعلى سبيل المثال، فكرة أن نقطة بيانات حقيقية واحدة قد تمنع الانهيار جاءت من تحليلات نظرية ونماذج إحصائية مبسطة، وليس من تجارب تدريب ضخمة على نماذج لغوية كبيرة في بيئات الإنتاج.
لذلك قد يختلف مقدار البيانات الواقعية المطلوبة عملياً حسب:
لكن الرسالة الأساسية واضحة: الاعتماد الكامل على بيانات يولدها الذكاء الاصطناعي قد يؤدي تدريجياً إلى محو أجزاء من الواقع من النماذج نفسها. والحفاظ على اتصال دائم بالبيانات الحقيقية يظل ضرورياً للحفاظ على دقة هذه الأنظمة مع مرور الوقت.
Comments
0 comments