В результате:
Этот эффект был продемонстрирован на разных типах генеративных моделей, включая:
То, что коллапс проявляется сразу в нескольких архитектурах, говорит о важном выводе: проблема связана не с конкретным алгоритмом, а с самой природой генеративного обучения на рекурсивных синтетических данных.
Причина во многом статистическая.
Когда модель генерирует данные, она чаще воспроизводит наиболее вероятные структуры из обучающего распределения. Редкие события находятся в его «хвостах» и при случайной выборке встречаются значительно реже.
Если следующая модель обучается на таком синтетическом наборе данных, происходит цепная реакция:
Каждая новая итерация закрепляет смещение предыдущей. В какой‑то момент редкие примеры полностью исчезают из обучающего корпуса.
После этого восстановить их почти невозможно: доказательства того, что такие случаи существовали, просто исчезают из данных.
Одно из самых неожиданных наблюдений последних исследований — для предотвращения коллапса может требоваться очень небольшое количество реальной информации.
В анализе статистических моделей из класса экспоненциальных семейств исследователи показали, что даже одна точка данных из реального распределения может выступать якорем для обучения. Она сохраняет информацию о существовании редких паттернов и не позволяет системе сходиться к неправильному распределению.
Похожую роль могут играть и априорные знания — ограничения или предположения, встроенные в модель. Они сужают пространство возможных распределений и не позволяют алгоритму полностью «уплыть» в сторону смещённых закономерностей синтетических данных.
На практике это означает:
Для современных ИИ‑систем этот риск становится всё более актуальным.
Большие языковые модели обучаются на огромных корпусах интернет‑текста. Но по мере того как всё больше контента создаётся самими ИИ‑системами, эти данные начинают заполнять интернет — а значит, и будущие обучающие датасеты.
Если новые поколения моделей будут обучаться преимущественно на таком контенте, возможны последствия:
Поэтому исследователи предупреждают: чтобы сохранить качество систем, необходимо поддерживать доступ к надежным данным, созданным людьми, или внедрять механизмы, которые сохраняют структуру исходного распределения при обучении.
Хотя сам механизм коллапса моделей хорошо подтверждён, некоторые детали остаются предметом обсуждения.
Например, вывод о том, что одна реальная точка данных может остановить коллапс, получен в основном на теоретических моделях и упрощённых статистических системах, а не на полномасштабных экспериментах с современными LLM.
Поэтому в реальных системах объём необходимых «якорных» данных может зависеть от архитектуры модели, состава датасета и процедуры обучения.
Тем не менее общий вывод остаётся очевидным: если ИИ обучается только на данных, созданных другими ИИ, со временем он начинает терять части реальности. Поддержание связи с реальными данными становится ключевым условием устойчивого развития таких систем.
Comments
0 comments