El colapso del modelo se refiere a la disminución del rendimiento de los modelos de IA que se entrenan con contenido creado por IA generativa.
Un adagio común en el desarrollo de la IA y la informática es que una IA es tan buena como los datos con los que se entrenó En los últimos años, los investigadores descubrieron que los modelos generativos entrenados únicamente con el rendimiento de sus predecesores producen resultados cada vez más inexactos. Estos modelos, plagados de “defectos irreversibles”, acaban por volverse inservibles.1 Esto se debe a que cualquier error presente en el resultado de un modelo durante su ajuste se incluye posteriormente en el entrenamiento de su sucesor. Además, el nuevo modelo también produce sus propios errores. El colapso del modelo avanza a medida que los errores se acumulan con las generaciones sucesivas.2
Estos errores ocurren porque los modelos de IA generativa producen conjuntos de datos con menos variación que las distribuciones de datos originales. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao y un equipo de investigadores de universidades británicas y canadienses escribieron un reporte ampliamente citado sobre el colapso del modelo. A través de experimentos con modelos de IA, el equipo descubrió que los modelos entrenados con datos generados por AI, también conocidos como datos sintéticos, inicialmente perdían información de las colas, o extremos, de la verdadera distribución de datos, lo que llamaron “colapso temprano del modelo”. En posteriores Iterations, la distribución de datos convergió tanto que no se parecía en nada a los datos originales, lo que los investigadores denominaron “colapso tardío del modelo”.3
En escenarios del mundo real, el colapso del modelo podría ocurrir debido a los procesos de entrenamiento utilizados para grandes modelos de IA generativa, como los modelos de lenguaje grandes (LLM). Los LLM se entrenan principalmente con datos extraídos de Internet generados por humanos. Sin embargo, a medida que prolifere más contenido generado por IA en la web, más podría utilizarse para entrenar modelos futuros en lugar de datos generados por humanos, lo que podría precipitar el colapso del modelo.
El fenómeno del colapso del modelo plantea serias ramificaciones para el desarrollo de IA, lo que lleva a los investigadores a proponer varias soluciones. Estas soluciones incluyen el seguimiento de la procedencia de los datos, la preservación del acceso a las fuentes de datos originales y la combinación de datos acumulados generados por IA con datos reales para entrenar modelos de IA.
Los modelos de IA generativa han sido noticia en los últimos años por crear resultados inexactos y sin sentido, también llamados alucinaciones de IA. Por ejemplo, el chatbot de Google Bard hizo una afirmación errónea sobre el Telescopio Espacial James Webb, mientras que la tendencia a que las imágenes humanas generadas por IA posean dedos adicionales es omnipresente.
Si bien los resultados imprecisos y sin sentido son inconvenientes y, a veces, entretenidos, las consecuencias del colapso del modelo también pueden ser de gran alcance:
Los resultados inexactos del colapso del modelo pueden crear consecuencias costosas para las empresas que utilizan IA en la toma de decisiones. Todo, desde chatbots de atención al cliente hasta herramientas de diagnóstico médico impulsadas por IA, podría verse afectado. Imagine, por ejemplo, un modelo de diagnóstico de IA que no diagnostica correctamente a un paciente con una enfermedad rara porque la condición de baja probabilidad finalmente se olvidó y se quitó de los conjuntos de datos de entrenamiento en generaciones anteriores de modelos.
Bajo el colapso del modelo, los modelos podrían descartar puntos de datos periféricos relacionados con interacciones y preferencias humanas reales. Como resultado, los usuarios que buscan contenido menos popular o único podrían sentirse decepcionados con los resultados del modelo.4 Considere, por ejemplo, un sistema de recomendación de IA para compradores en línea: si un consumidor prefiere zapatos verde lima, pero el sistema recomienda continuamente zapatos en blanco y negro porque son los más vendidos, el consumidor podría inclinarse a buscar ayuda en otro lugar.
Si los sistemas de IA ampliamente utilizados que sufren el colapso del modelo producen perpetuamente resultados más limitados, las ideas de "cola larga" podrían desaparecer de la conciencia del público, limitando el alcance del conocimiento humano y exacerbando los sesgos comunes en la sociedad.5 Por ejemplo, los científicos de hoy pueden recurrir a herramientas de investigación impulsadas por IA para estudios para fundamentar su investigación. Sin embargo, las herramientas afectadas por el colapso del modelo podrían proporcionar solo estudios ampliamente citados para su revisión, lo que podría privar a los usuarios de información clave que podría conducir a descubrimientos importantes.
Los diferentes tipos de modelos de IA generativa son vulnerables a diferentes impactos del colapso del modelo.
En los LLM, el colapso del modelo puede manifestarse en resultados de texto cada vez más irrelevantes, sin sentido y repetitivos. En un experimento, los investigadores ajustaron OPT-125M, un modelo de lenguaje grande de código abierto lanzado por Meta. Generaciones del modelo se entrenaron con los datos producidos por sus predecesores. Después de una entrada inicial en inglés sobre arquitectura, una generación del modelo finalmente produjo un resultado sobre conejos con colas de diferentes colores.6
El colapso del modelo es especialmente notable en los modelos que generan imágenes, ya que el resultado de la imagen disminuye en calidad, diversidad y precisión. Un experimento utilizó un conjunto de datos de números distintos escritos a mano para entrenar un autocodificador variacional (VAE). Después de múltiples ciclos de entrenamiento iterativos, las generaciones posteriores del modelo arrojaron resultados en los que muchos de los dígitos se parecían entre sí.7 Un estudio diferente que incluyó un modelo de red generativa adversarial (GAN) entrenado en diversas imágenes de rostros encontró que el modelo finalmente produjo rostros más homogéneos.8
Los modelos de mezcla gaussiana pueden organizar los datos en grupos, pero los investigadores descubrieron que un GMM encargado de separar los datos en dos clústeres funcionó significativamente peor luego de unas cuantas docenas de iteraciones. La percepción del modelo de la distribución de datos subyacente cambió con el tiempo y, en su generación de 2000 iteraciones, sus resultados mostraron muy poca varianza.9
El colapso del modelo es uno de los múltiples fenómenos de degradación del modelo observados en machine learning. Otros incluyen el olvido catastrófico, el colapso modal, la desviación del modelo y la predicción performativa. Cada uno tiene similitudes con el colapso del modelo, pero es distinto.
Tanto el olvido catastrófico como el colapso del modelo implican pérdida de información por parte de los sistemas de IA. Sin embargo, el olvido catastrófico es distinto del colapso del modelo. El olvido catastrófico ocurre cuando un solo modelo aprende información nueva y “olvida” la información anterior, lo que produce un rendimiento degradado cuando ese modelo se aplica a una tarea que requiere el uso de la información anterior. El colapso del modelo es diferente porque implica una disminución del rendimiento a lo largo de sucesivas generaciones de modelos, en lugar de la pérdida de datos y el deterioro del rendimiento dentro de un modelo.10
Aunque tiene un nombre similar al colapso del modelo, el colapso modal es un fenómeno específico de los modelos GAN. Estos modelos constan de dos partes diferentes, un generador y un discriminador, que ayudan a producir datos sintéticos que son estadísticamente similares a los datos reales. El generador se encarga de crear los datos, mientras que el discriminador sirve como un control continuo del proceso, identificando los datos que no parecen auténticos. El colapso modal ocurre cuando el resultado del generador carece de varianza y este defecto no es detectado por el discriminador, lo que resulta en un rendimiento degradado.
La deriva del modelo se refiere a la degradación del rendimiento del modelo de machine learning debido a cambios en los datos o en las relaciones entre las variables de entrada y salida. Los modelos que se crean con datos históricos pueden estancarse. Si el entrenamiento de un modelo de IA, basado en datos de entrenamiento antiguos, no se alinea con los datos entrantes, no puede interpretar con precisión esos datos ni usar esos datos entrantes para hacer predicciones precisas de manera confiable. El colapso del modelo es diferente porque implica entrenar modelos sobre nuevos datos generados por IA en ciclos iterativos.
Los investigadores han comparado el colapso del modelo en los modelos de IA generativa con la predicción performativa en los modelos de aprendizaje supervisado, porque ambos implican la contaminación de los conjuntos de entrenamiento por las entradas anteriores del modelo de machine learning. La predicción performativa ocurre cuando el resultado de un modelo de aprendizaje supervisado influye en los resultados del mundo real de una manera que se ajusta a la predicción del modelo. Esto, a su vez, influye en los resultados futuros del modelo, lo que produce una "profecía autocumplida". La predicción performativa también se conoce como un bucle de feedback de equidad cuando este proceso afianza la discriminación.11 Por ejemplo, un modelo de toma de decisiones de préstamos hipotecarios impulsado por IA, entrenado con datos de la era discriminatoria de la exclusión social en Estados Unidos, puede alentar a los prestamistas a replicar inadvertidamente dicha discriminación en la actualidad.
Varias estrategias podrían ayudar a los desarrolladores y organizaciones de IA a evitar el colapso del modelo. Por ejemplo:
Las fuentes de datos originales de alta calidad pueden aportar una varianza importante que podría faltar en algunos datos generados por IA. Garantizar que los modelos de IA se sigan entrenando con estos datos generados por humanos puede preservar la capacidad de los sistemas de IA para rendir bien cuando se les encarga la tarea de dar cuenta de sucesos de baja probabilidad, como que un consumidor prefiera un producto inusual o que un científico se beneficie de la información de un estudio escasamente citado. En tales circunstancias, un resultado puede no ser común o popular, pero sigue siendo, de hecho, el más exacto.
Puede ser difícil diferenciar entre los datos generados por modelos y los datos generados por humanos en los ecosistemas de información, pero la coordinación entre los desarrolladores de LLM y los investigadores de IA podría ayudar a garantizar el acceso a la información sobre la procedencia de los datos. Uno de esos esfuerzos coordinados existe a través de The Data Provenance Initiative, un colectivo de investigadores de IA del MIT y otras universidades que ha auditado más de 4000 conjuntos de datos.12
Según un estudio, los desarrolladores de IA pueden evitar la degradación del rendimiento entrenando modelos de IA con datos reales y múltiples generaciones de datos sintéticos. Esta acumulación contrasta con la práctica de reemplazar completamente los datos originales con datos generados por IA.13
A medida que los desarrolladores de IA exploren la acumulación de datos, también podrían obtener beneficio de las mejoras en la calidad de los datos sintéticos producidos específicamente para fines de entrenamiento de machine learning. Los avances en los algoritmos de generación de datos pueden ayudar a mejorar la confiabilidad de los datos sintéticos y aumentar su utilidad. En la atención médica, por ejemplo, los datos sintéticos pueden incluso usarse para proporcionar una gama más amplia de escenarios para entrenar modelos, lo que lleva a mejores capacidades de diagnóstico.
Las herramientas de gobernanza de la IA pueden ayudar a los desarrolladores de la IA y a las empresas a mitigar el riesgo de que disminuya el rendimiento de la IA al permitir la supervisión y el control de los sistemas de la IA. Estas herramientas pueden incluir sistemas de detección automática de sesgos, desviaciones, rendimiento y anomalías, lo que podría detectar el colapso de los modelos antes de que repercuta en los resultados de una organización.
Los enlaces residen fuera de ibm.com.
1, 3, 6, 7 “The Curse of Recursion: Training on Generated Data Makes Models Forget.” arXiv.org. 14 de abril de 2024.
2 “The Internet Isn’t Completely Weird Yet; AI Can Fix That.” IEEE Spectrum. 23 de junio de 2023.
4, 5 “AI and the Problem of Knowledge Collapse.” arXiv.org. 22 de abril de 2024.
8 “Breaking MAD: Generative AI could break the Internet.” Rice University News and Media Relations. 30 de julio de 2024.
9, 10 “Supplementary Information: AI models collapse when trained on recursively generated data.” Nature Portfolio. Consultado el 22 de septiembre de 2024.
11 “Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias.” ACM Conference on Fairness, Accountability, and Transparency. Consultado el 30 de septiembre de 2024.
12 “About.” Data Provenance Initiative. Consultado el 23 de septiembre de 2024.
13 “Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data.” arXiv.org. 29 de abril de 2024.
Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.
Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza para la IA responsable con la ayuda de IBM® Consulting.