ผลลัพธ์คือเอาต์พุตของโมเดลจะค่อย ๆ แคบลง และเน้นเฉพาะรูปแบบที่พบบ่อยที่สุดในข้อมูลฝึก
ปรากฏการณ์นี้ถูกสังเกตในโมเดลหลายประเภท เช่น
การที่หลายสถาปัตยกรรมแสดงอาการเดียวกัน ทำให้นักวิจัยเชื่อว่า model collapse เป็น คุณสมบัติทั่วไปของการเรียนรู้แบบ generative ที่ใช้ข้อมูลสังเคราะห์แบบวนซ้ำ ไม่ใช่ปัญหาเฉพาะของโมเดลประเภทใดประเภทหนึ่ง
สาเหตุหลักมาจากหลักการพื้นฐานของสถิติและการสุ่มตัวอย่าง
เมื่อโมเดลสร้างข้อมูลสังเคราะห์ มันมักจะสร้าง รูปแบบที่มีความน่าจะเป็นสูง มากกว่ารูปแบบที่พบได้ยาก รูปแบบหายากเหล่านี้อยู่ใน "หาง" ของการกระจายข้อมูล ซึ่งมีโอกาสถูกสุ่มออกมาน้อยตั้งแต่แรก
เมื่อโมเดลรุ่นถัดไปถูกฝึกจากข้อมูลสังเคราะห์นั้น:
ผลลัพธ์คือหางของการกระจายข้อมูลค่อย ๆ หายไปทั้งหมด เหลือเพียงรูปแบบหลักที่พบบ่อยที่สุด
เมื่อข้อมูลหายากเหล่านี้หายไปจากชุดข้อมูลฝึก โมเดลรุ่นต่อมาจะไม่สามารถสร้างมันกลับมาได้ เพราะหลักฐานว่ารูปแบบเหล่านั้นเคยมีอยู่ได้หายไปแล้ว
ผลลัพธ์ที่น่าสนใจจากงานวิเคราะห์ล่าสุดคือ ข้อมูลจริงเพียงเล็กน้อยอาจเพียงพอที่จะหยุด model collapse ได้
นักวิจัยที่ศึกษากลุ่มโมเดลทางสถิติที่เรียกว่า exponential families พบว่า แม้จะเพิ่มข้อมูลจากโลกจริงเพียงจุดเดียวเข้าไปในการฝึก ก็สามารถทำหน้าที่เป็น "หลักยึด" ให้กระบวนการเรียนรู้ยังคงสะท้อนการกระจายข้อมูลจริงอยู่
จุดข้อมูลนั้นทำให้โมเดลยังคงมีหลักฐานว่ารูปแบบบางอย่างมีอยู่จริง จึงไม่ปล่อยให้การฝึกแบบวนซ้ำค่อย ๆ ลบมันออกไป
อีกวิธีหนึ่งคือการใช้ prior knowledge หรือความรู้ล่วงหน้าที่กำหนดข้อจำกัดให้กับโมเดล เช่น สมมติฐานหรือโครงสร้างทางสถิติที่กำหนดไว้ล่วงหน้า ซึ่งช่วยจำกัดไม่ให้โมเดลเบี่ยงเบนไปตามอคติของข้อมูลสังเคราะห์มากเกินไป
ในทางปฏิบัติ หมายความว่า
แม้ว่าข้อมูลสังเคราะห์จะมีจำนวนมากกว่ามาก แต่ “หลักยึด” เหล่านี้ยังสามารถทำให้การฝึกมีเสถียรภาพได้
ปัญหา model collapse เริ่มถูกพูดถึงมากขึ้นเพราะเนื้อหาที่สร้างโดย AI กำลังเพิ่มขึ้นอย่างรวดเร็วบนอินเทอร์เน็ต
โมเดลภาษาใหญ่ (LLMs) มักถูกฝึกด้วยข้อมูลขนาดมหาศาลจากเว็บ หากข้อความออนไลน์จำนวนมากเริ่มถูกสร้างโดย AI ชุดข้อมูลฝึกในอนาคตก็อาจเต็มไปด้วยข้อมูลที่มาจากโมเดลก่อนหน้า
หากโมเดลรุ่นใหม่เรียนรู้จากข้อมูลประเภทนี้เป็นหลัก อาจเกิดผลกระทบ เช่น
นักวิจัยจึงเตือนว่า การรักษาการเข้าถึง ข้อมูลที่สร้างโดยมนุษย์หรือข้อมูลจริงที่เชื่อถือได้ เป็นสิ่งสำคัญ เพื่อให้โมเดลยังคงสะท้อนความหลากหลายของภาษาและความรู้ในโลกจริง
แม้กลไกของ model collapse จะได้รับการสนับสนุนจากงานวิจัยหลายชิ้น แต่รายละเอียดบางอย่างยังอยู่ในขั้นทฤษฎี
ตัวอย่างเช่น แนวคิดที่ว่าข้อมูลจริงเพียงจุดเดียวสามารถหยุดการล่มของโมเดลได้นั้น มาจากการวิเคราะห์เชิงทฤษฎีและโมเดลสถิติแบบง่าย มากกว่าการทดลองเต็มรูปแบบกับ LLM ขนาดใหญ่ในระบบจริง
ดังนั้น ปริมาณข้อมูลจริงที่จำเป็นในระบบจริงอาจแตกต่างกันไปตามสถาปัตยกรรมโมเดล ชุดข้อมูล และขั้นตอนการฝึก
อย่างไรก็ตาม บทเรียนสำคัญจากงานวิจัยคือชัดเจน: การฝึก AI ด้วยข้อมูลที่สร้างโดย AI เพียงอย่างเดียวเสี่ยงทำให้โมเดลค่อย ๆ สูญเสียส่วนหนึ่งของความจริง และการรักษาการเชื่อมต่อกับข้อมูลโลกจริงยังคงเป็นปัจจัยสำคัญในการพัฒนา AI ระยะยาว
Comments
0 comments