이 현상은 특정 모델만의 문제가 아니라 여러 생성 모델에서 확인됐다.
연구에서 분석된 모델 유형은 다음과 같다.
이 현상의 핵심 원인은 통계적 샘플링 방식에 있다.
이 상태에서 다음 세대 모델이 그 데이터를 학습하면 다음 과정이 반복된다.
결과적으로 각 세대마다 편향이 누적된다.
마지막 단계에서는 드문 패턴이 완전히 사라지게 되고, 이후 모델은 그 패턴이 존재했다는 사실 자체를 복원할 수 없게 된다.
흥미롭게도 일부 분석 연구는 아주 작은 양의 실제 데이터만으로도 붕괴를 막을 수 있을 가능성을 제시한다.
연구자들은 ‘지수 가족(Exponential Families)’이라는 통계 모델을 분석해 단 하나의 실제 데이터 포인트만 있어도 학습이 잘못된 분포로 수렴하는 것을 막을 수 있다는 결과를 제시했다.
이 데이터는 일종의 앵커(anchor) 역할을 한다.
즉,
또 다른 방법은 **사전 지식(prior)**을 모델에 넣는 것이다.
흥미로운 점은 합성 데이터가 훨씬 더 많아도 이런 앵커가 안정성을 유지할 수 있다는 것이다.
이 문제는 특히 대형 언어 모델(LLM) 시대에 더욱 중요해지고 있다.
만약 미래 모델들이 이런 데이터에 의존해 학습한다면 다음과 같은 문제가 생길 수 있다.
다만 모든 결론이 실제 대규모 LLM 학습 환경에서 완전히 검증된 것은 아니다.
따라서 실제 AI 시스템에서는 필요한 실제 데이터의 양이 다음 요소에 따라 달라질 수 있다.
그럼에도 연구들이 공통적으로 보여주는 메시지는 분명하다.
앞으로 AI 시스템의 품질을 유지하려면 현실 세계 데이터와의 연결을 계속 유지하는 전략이 필수적인 과제가 될 가능성이 크다.
Comments
0 comments