¿Qué es el olvido catastrófico?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el olvido catastrófico?

El olvido catastrófico ocurre cuando las redes neuronales olvidan tareas aprendidas previamente después de ser entrenadas con nuevos datos o de someterse a fine-tuning para tareas específicas. También conocido como interferencia catastrófica, este fenómeno hace que las redes entrenadas pierdan información relacionada con tareas antiguas cuando se entrenan con nuevos datos en un proceso de aprendizaje secuencial.

Muchas implementaciones de inteligencia artificial requieren modelos de machine learning para adaptarse a nuevos casos de uso a lo largo del tiempo. El olvido catastrófico ocurre cuando el proceso de entrenamiento para las nuevas tareas interfiere con la comprensión del modelo de las tareas antiguas. A medida que los nuevos conocimientos sustituyen al aprendizaje anterior, el modelo pierde la capacidad de gestionar sus tareas originales.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Por qué ocurre el olvido catastrófico?

Observado por primera vez por Michael McCloskey y Neal J. Cohen en 19891, el olvido catastrófico se produce como resultado de la forma en que los algoritmos de machine learning se adaptan a los nuevos conjuntos de datos. El proceso de entrenamiento de los modelos de deep learning, como los modelos de lenguaje de gran tamaño (LLM), implica exponer el modelo a los datos y permitirle actualizar sus ponderaciones en consecuencia. Un trabajo de informática de20232 descubrió que afecta más gravemente a los modelos grandes que a los pequeños.

Las ponderaciones de red, también conocidas como parámetros de un modelo, son su conjunto de reglas internas que utiliza para capturar patrones y relaciones en conjuntos de datos de entrenamiento. Durante el entrenamiento, un algoritmo de machine learning actualiza sus ponderaciones de forma iterativa según una función de pérdida: una ecuación matemática que mide el error en las predicciones del modelo.

El objetivo del entrenamiento es minimizar la función de pérdida mediante métodos como el descenso gradiente. La tasa de aprendizaje establece el ritmo al que un modelo actualiza sus ponderaciones durante el entrenamiento.

La configuración de los pesos de un modelo es su representación del conocimiento: un reflejo matemático de cómo el modelo entiende sus datos de entrenamiento. Si un modelo ajusta sus ponderaciones lo suficiente como para que los nuevos valores ya no sean relevantes para las tareas anteriores, pierde la capacidad de realizar esas tareas. En el proceso de aprendizaje de nuevas tareas, el modelo ha olvidado "catastróficamente" o por completo cómo abordar las antiguas.

¿Por qué olvidan las redes neuronales?

Las redes neuronales se componen de nodos interconectados que imitan las neuronas del cerebro humano. Al aprender, el cerebro crea sinapsis, o conexiones entre las neuronas del neocórtex, la región del cerebro responsable de la cognición de nivel superior. Mientras tanto, el hipocampo es responsable de convertir los recuerdos a corto plazo en recuerdos a largo plazo y preservar el conocimiento.

Aunque al campo de la neurociencia aún le queda mucho por descubrir sobre el cerebro, sí sabemos que este destaca en la optimización interna. La neuroplasticidad, o plasticidad cerebral, se refiere a la capacidad del cerebro de reestructurarse para un aprendizaje continuo. Las conexiones sinápticas que se utilizan con más frecuencia se fortalecen, mientras que las que se utilizan con menos frecuencia se marchitan y acaban desapareciendo.

La plasticidad es lo que permite a las personas recuperar habilidades perdidas, como el habla o el movimiento, después de sufrir una lesión cerebral traumática. Sin plasticidad neuronal, los humanos no podrían aprender a medida que crecen. Los cerebros de los bebés y los niños pequeños poseen una mayor plasticidad, por eso son capaces de aprender idiomas con tanta facilidad en comparación con los adultos.

Las redes neuronales funcionan de manera similar, ya que ajustan su peso en respuesta a los nuevos datos, de la misma manera que el cerebro forja nuevas conexiones sinápticas. Las capas ocultas entre la entrada y el output de una red neuronal pueden cambiar con el tiempo. Cuando las redes neuronales dan prioridad excesiva a los nuevos datos por encima de los conocimientos anteriores, pueden sobreajustar sus ponderaciones: en lugar de ampliar sus conocimientos, el modelo sustituye eficazmente sus conocimientos anteriores por los nuevos datos.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Los efectos del olvido catastrófico

El olvido catastrófico puede tener efectos sustanciales en el rendimiento de los modelos de machine learning, como los que se utilizan para aplicaciones de IA generativa. A medida que los modelos se aplican a nuevos casos de uso, pueden experimentar una deriva del modelo al cambiar sus ponderaciones y, finalmente, sufrir un olvido catastrófico.

El olvido catastrófico puede afectar negativamente a:

  • La formación de modelos y la utilización de recursos: los modelos que olvidan los conocimientos fundamentales deben reentrenarse. El entrenamiento de los LLM que impulsan los principales servicios de IA generativa cuesta millones de dólares, incluidos los recursos, así como la electricidad y el agua para alimentar los centros de datos a hiperescala que los albergan.
     

  • Implementación de modelos y mantenimiento de aplicaciones de IA: a medida que se degrada el rendimiento de un modelo, las aplicaciones que lo llaman también sufrirán problemas de rendimiento. En implementaciones periféricas en las que los modelos deben adaptarse a las circunstancias locales, el riesgo de olvido catastrófico puede aumentar.
     

  • Aprendizaje autónomo: los sistemas de aprendizaje experiencial pueden sufrir un olvido catastrófico con el tiempo. La pérdida de conocimientos fundamentales podría hacer que estos sistemas sean menos adaptables, confiables y consistentes. Con la robótica y los automóviles autónomos, estos efectos podrían ser especialmente peligrosos.

Superar el olvido catastrófico

Los investigadores y otros expertos han propuesto una serie de técnicas para contrarrestar el olvido catastrófico. Un artículo histórico publicado en 2017 por James Kirkpatrick, Andrei A. Rusi y otros exploraron un método basado en ralentizar la velocidad de aprendizaje de las ponderaciones relevantes para tareas más antiguas. En 2025, otro grupo de informáticos exploró el uso de la retropropagación para superar el olvido catastrófico (NOTA AL PIE: https://arxiv.org/abs/2501.01045#).

Otras técnicas para superar el olvido catastrófico incluyen:

  • Regularización
     

  • Soluciones arquitectónicas
     

  • Métodos de conjunto
     

  • Técnicas de ensayo
     

  • Redes neuronales con memoria aumentada (MANNs)

La regularización

La regularización es un conjunto de técnicas que hacen que los modelos sean más generalizables, lo que aumenta los sesgos, ya que se adaptan más fácilmente a los nuevos datos. La consolidación elástica del peso (EWC) es una de esas técnicas que añade una penalización a la función de pérdida para los ajustes en los pesos del modelo que son importantes para las tareas antiguas.

La inteligencia sináptica funciona de manera similar, lo que desincentiva al modelo de cambiar los principales parámetros. Ambas técnicas hacen que el modelo tenga menos probabilidades de perder conocimientos previos.

Soluciones arquitectónicas

La arquitectura del modelo describe la estructura de una red neuronal, incluido el número de capas que tiene y la forma en que están conectados los nodos. Cada capa está dedicada a una función diferente en el flujo de trabajo de la IA, como la predicción o la extracción de características.

Las redes neuronales progresivas (PNN) añaden redes neuronales para nuevas tareas al tiempo que conservan las conexiones en las redes neuronales utilizadas para funciones anteriores. El modelo combina las salidas de todas las redes, y aprovecha sus conocimientos más antiguos incluso cuando se trabaja en nuevas tareas.

Otras redes utilizan el promedio de ponderación dinámica (DWA) durante el aprendizaje multitarea para ajustar dinámicamente las ponderaciones del modelo durante el entrenamiento. El DWA permite que los modelos se adapten de forma flexible a diferentes tareas.

Métodos de conjunto

Los métodos de conjunto combinan los outputs de varios modelos para obtener resultados más fiables. Los bosques de aprendizaje permanente son modelos de bosques aleatorios que añaden nuevos bosques o árboles de decisión para nuevas tareas, de forma similar a como las PNN añaden nuevas redes a medida que aumenta su carga de trabajo.

Mientras tanto, las arquitecturas modulares compartimentadas pueden evitar que los nuevos datos contaminen el resto de la red. Los módulos específicos de la tarea se activan según sea necesario, y preservan los conocimientos adquiridos cuando no están en uso.

Técnicas de ensayo

Las técnicas de ensayo exponen el modelo a datos antiguos durante el entrenamiento para nuevas tareas, lo que ayuda a garantizar que el modelo no olvide catastróficamente lo que ha aprendido anteriormente. La experiencia de reproducción es una técnica de aprendizaje por refuerzo en la que un modelo almacena experiencias pasadas en un conjunto de datos diferente, entonces toma muestras aleatorias de este recuerdo durante el entrenamiento.

Redes neuronales con memoria aumentada (MANN)

Las redes neuronales con memoria aumentada son una arquitectura prometedora que combina redes neuronales con almacenamiento. Al procesar secuencias de entrada, como las instrucciones del usuario, los MANN pueden leer y escribir en la memoria. Muchos utilizan mecanismos de atención para aislar los componentes de memoria más relevantes para cada tarea.

La memoria episódica de gradiente (GEM) es un ejemplo de MANN que permite a los modelos de IA almacenar y recordar experiencias pasadas para informar nuevas tareas y preservar el conocimiento adquirido previamente.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página