この現象は特定のモデルに限らず、複数の生成モデルで確認されています。例えば次のようなモデルです。
原因は、基本的な統計的サンプリングにあります。
その合成データで次の世代のモデルを訓練すると、次のような連鎖が起こります。
このプロセスが繰り返されると、分布のテールが完全に消滅することもあります。
そして一度データから消えてしまったパターンは、合成データだけからは復元できません。なぜなら、それが存在していた証拠自体がデータに残っていないからです。
興味深いのは、モデル崩壊を防ぐために大量の実データが必ずしも必要とは限らないという点です。
その理由は、このデータ点が
として機能するためです。
結果として、合成データが大多数であっても
が存在すれば、学習が完全に偏った方向へ進むのを防げる可能性があります。
この問題が注目されている背景には、インターネット上のAI生成コンテンツの急増があります。
大規模言語モデルは通常、ウェブ全体から収集された膨大なテキストで訓練されます。しかし、もしそのデータの多くがすでにAIによって書かれたものになれば、将来のモデルはAIの出力を主に学習することになるかもしれません。
そうなると次のような影響が懸念されています。
研究者は、これを防ぐためには
モデル崩壊の基本メカニズム自体は複数の研究で支持されていますが、実際の大規模LLMでどの程度起きるのかなど、詳細にはまだ不確実性があります。
それでも研究から得られる重要な教訓ははっきりしています。
Comments
0 comments