Akibatnya, keluaran model menjadi semakin sempit dan kurang beragam, hanya mencerminkan pola yang paling umum dalam data pelatihan.
Fenomena ini tidak hanya terjadi pada satu jenis model. Penelitian menunjukkan efek serupa pada beberapa keluarga model generatif, termasuk:
Karena muncul pada berbagai arsitektur, para peneliti menyimpulkan bahwa model collapse kemungkinan merupakan sifat umum dalam pembelajaran generatif yang bergantung pada data sintetis secara rekursif, bukan sekadar masalah pada satu desain model tertentu.
Penyebab utama model collapse berkaitan dengan cara sampling statistik bekerja.
Ketika sebuah model menghasilkan data sintetis, ia cenderung lebih sering menghasilkan pola dengan probabilitas tinggi dibandingkan pola langka. Pola langka berada di “ekor distribusi” dan memang sudah jarang muncul sejak awal.
Saat model generasi berikutnya dilatih menggunakan dataset sintetis tersebut:
Setiap iterasi memperkuat bias dari model sebelumnya. Pada akhirnya, pola langka bisa hilang sepenuhnya dari dataset pelatihan.
Begitu pola-pola tersebut tidak lagi ada dalam korpus pelatihan, model generasi berikutnya tidak bisa merekonstruksinya—karena bukti bahwa pola itu pernah ada sudah hilang.
Temuan menarik dari penelitian terbaru adalah bahwa jumlah data nyata yang dibutuhkan untuk mencegah collapse mungkin sangat kecil.
Dalam analisis terhadap model statistik yang disebut exponential families, peneliti menemukan bahwa bahkan satu titik data dari distribusi nyata dapat bertindak sebagai “jangkar” bagi proses pelatihan. Titik data tersebut menjaga bukti bahwa pola yang jarang memang ada, sehingga proses pelatihan rekursif tidak menyimpang ke distribusi yang salah.
Selain data nyata, pengetahuan awal (prior knowledge) yang dimasukkan ke dalam model juga dapat berfungsi sebagai penahan. Dengan membatasi jenis distribusi yang boleh dipelajari model, prior mencegah sistem sepenuhnya mengikuti bias dari data sintetis.
Secara praktis, ini berarti:
Bahkan jika jumlah data sintetis jauh lebih besar daripada data nyata, elemen-elemen ini masih dapat menstabilkan proses pelatihan.
Masalah model collapse menjadi semakin relevan karena konten AI di internet terus bertambah.
Large language models biasanya dilatih menggunakan dataset berskala internet—teks dari situs web, forum, buku, dan berbagai sumber lainnya. Namun jika semakin banyak teks online dihasilkan oleh AI, dataset tersebut berisiko semakin dipenuhi oleh keluaran model sebelumnya.
Jika model masa depan terutama dilatih dari konten semacam itu, mereka berpotensi perlahan menjauh dari kekayaan dan keragaman bahasa manusia.
Beberapa konsekuensi yang dikhawatirkan peneliti antara lain:
Karena itu, banyak peneliti menekankan pentingnya menjaga akses terhadap data berkualitas tinggi yang dibuat manusia atau menerapkan mekanisme pelatihan yang mempertahankan distribusi data asli.
Walaupun mekanisme model collapse didukung oleh berbagai penelitian, beberapa detailnya masih belum sepenuhnya pasti. Misalnya, klaim bahwa satu titik data dunia nyata bisa mencegah collapse berasal dari analisis teoretis dan model statistik sederhana, bukan dari eksperimen pelatihan LLM berskala besar.
Artinya, dalam praktiknya jumlah data nyata yang dibutuhkan bisa berbeda-beda tergantung arsitektur model, komposisi dataset, dan metode pelatihan.
Comments
0 comments