A medida que avanza el proceso, las salidas del modelo se vuelven más estrechas y menos diversas, reflejando principalmente los patrones más comunes presentes en los datos de entrenamiento.
Este fenómeno se ha observado en distintos tipos de modelos generativos, incluyendo:
El hecho de que aparezca en varias familias de modelos sugiere que el colapso no es un problema de una arquitectura específica, sino una propiedad general del aprendizaje generativo cuando se utilizan datos sintéticos de forma recursiva.
El mecanismo detrás del colapso de modelos tiene raíces en la estadística básica.
Cuando un modelo genera datos sintéticos, tiende a reproducir los patrones más probables con mucha más frecuencia que los raros. Estos eventos poco frecuentes se encuentran en los extremos (o "colas") de la distribución de datos, por lo que ya están subrepresentados cuando se toman muestras.
Cuando la siguiente generación de modelos se entrena con ese conjunto sintético ocurre lo siguiente:
Cada iteración refuerza los sesgos introducidos por modelos anteriores. Con el tiempo, los extremos de la distribución desaparecen por completo y solo quedan los patrones dominantes.
Una vez que esos ejemplos raros desaparecen del conjunto de entrenamiento, los modelos posteriores ya no pueden reconstruirlos, porque la evidencia de que existían se ha perdido.
Uno de los hallazgos más llamativos de análisis recientes es que podría bastar muy poca información del mundo real para evitar el colapso.
Investigadores que estudiaron modelos estadísticos conocidos como familias exponenciales encontraron que incluso un único dato proveniente de la distribución real puede servir como ancla para el proceso de entrenamiento. Ese dato preserva evidencia de que existen patrones raros, impidiendo que el entrenamiento recursivo converja hacia una distribución incorrecta.
Algo similar ocurre con el conocimiento previo incorporado al modelo (por ejemplo, restricciones matemáticas o supuestos sobre cómo deben comportarse los datos). Esos “priors” limitan las distribuciones posibles que el modelo puede aprender y evitan que se desvíe completamente hacia los patrones sesgados de los datos sintéticos.
En la práctica, esto implica que:
Incluso cuando los datos sintéticos superan ampliamente a los reales, estos elementos pueden estabilizar el proceso de entrenamiento.
El problema del colapso de modelos se vuelve especialmente relevante a medida que el contenido generado por IA se multiplica en internet.
Los grandes modelos de lenguaje se entrenan normalmente con enormes conjuntos de datos recopilados de la web. A medida que más textos en línea son producidos por sistemas de IA, esos conjuntos de datos corren el riesgo de contaminarse con salidas sintéticas de modelos anteriores.
Si los futuros modelos se entrenan principalmente con ese contenido, podrían empezar a alejarse gradualmente de la riqueza y diversidad del lenguaje humano.
Entre las posibles consecuencias se incluyen:
Por eso, varios investigadores advierten que evitar este escenario requerirá mantener acceso a datos confiables generados por humanos o incorporar mecanismos que preserven la distribución original de los datos durante el entrenamiento.
Aunque el mecanismo del colapso de modelos está bien respaldado, algunos detalles siguen siendo inciertos. Por ejemplo, la idea de que un único dato real pueda evitar el colapso proviene principalmente de análisis teóricos y de modelos estadísticos simplificados, no de experimentos a gran escala con LLM en producción.
Esto significa que, en sistemas reales, la cantidad exacta de datos humanos necesaria para estabilizar el entrenamiento podría variar según la arquitectura del modelo, el tipo de dataset y el procedimiento de entrenamiento.
Aun así, la conclusión central de la investigación es clara: entrenar IA únicamente con contenido generado por IA corre el riesgo de borrar partes de la realidad, por lo que mantener un vínculo con datos del mundo real es esencial para que los modelos sigan siendo precisos con el tiempo.
Comments
0 comments