¿Qué es el olvido catastrófico?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el olvido catastrófico?

El olvido catastrófico ocurre cuando las redes neuronales olvidan tareas aprendidas previamente después de ser entrenadas con nuevos datos o de someterse a ajustes para tareas específicas. También conocido como interferencia catastrófica, este fenómeno hace que las redes entrenadas pierdan información relacionada con tareas antiguas cuando se entrenan con nuevos datos en un proceso de aprendizaje secuencial.

Muchas implementaciones de inteligencia artificial requieren modelos de machine learning para adaptarse a nuevos casos de uso a lo largo del tiempo. El olvido catastrófico ocurre cuando el proceso de entrenamiento para las nuevas tareas interfiere con la comprensión del modelo de las tareas antiguas. A medida que el nuevo conocimiento reemplaza el aprendizaje previo, el modelo pierde la capacidad de manejar sus tareas originales.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Por qué ocurre el olvido catastrófico?

Observado por primera vez por Michael McCloskey y Neal J. Cohen en 19891, el olvido catastrófico ocurre como resultado de la forma en que los algoritmos de machine learning se adaptan a nuevos conjuntos de datos. El proceso de entrenamiento para los modelos de aprendizaje profundo, como los modelos de lenguaje de gran tamaño (LLM), implica exponer el modelo a los datos y permitir que actualice sus ponderaciones en consecuencia. Un artículo de informática de 20232 encontró que afecta a los modelos grandes más severamente que a los más pequeños.

Los pesos de la red, también conocidos como parámetros de un modelo, son su conjunto de reglas internas que emplea para capturar patrones y relaciones en conjuntos de datos de entrenamiento. Durante el entrenamiento, un algoritmo de machine learning actualiza sus pesos de forma iterativa según una función de pérdida: una ecuación matemática que mide el error en las prediccions del modelo.

El objetivo del entrenamiento es minimizar la función de pérdida mediante métodos como el descenso gradiente. La tasa de aprendizaje establece el ritmo al que un modelo actualiza sus pesos durante el entrenamiento.

La configuración de los pesos de un modelo es su representación de conocimiento: un reflejo matemático de cómo el modelo entiende sus datos de entrenamiento. Si un modelo ajusta sus pesos lo suficiente como para que los nuevos valores ya no sean relevantes para las tareas anteriores, pierde la capacidad de realizar esas tareas. En el proceso de aprendizaje de nuevas tareas, el modelo ha olvidado “catastróficamente” o por completo cómo abordar las antiguas.

¿Por qué se olvidan las neural networks?

Las redes neuronales se componen de nodos interconectados que imitan las neuronas en el cerebro humano. Al aprender, el cerebro crea sinapsis, o conexiones entre las neuronas del neocórtex, la región del cerebro responsable de la cognición de alto nivel. Por su parte, el hipocampo se encarga de convertir las recordaciones a corto plazo en recordaciones a largo plazo y de preservar el conocimiento.

Si bien el campo de la neurociencia aún tiene mucho por descubrir sobre el cerebro, sabemos que el cerebro sobresale en la optimización interna. La neuroplasticidad, o plasticidad cerebral, se refiere a la capacidad del cerebro para reestructurarse para el aprendizaje continuo. Las conexiones sinápticas utilizadas con más frecuencia se fortalecen, mientras que las que se utilizan con menos frecuencia se marchitan y finalmente desaparecen.

La plasticidad es lo que permite a las personas recuperar habilidades perdidas, como el habla o el movimiento, después de sufrir una lesión cerebral traumática. Sin plasticidad neuronal, los humanos no serían capaces de aprender a medida que crecen. El cerebro de los bebés y niños pequeños tiene mayor plasticidad, razón por la cual son capaces de aprender idiomas con tanta facilidad en comparación con los adultos típicos.

Las neural networks artificiales funcionan de manera similar en el sentido de que ajustan sus pesos en respuesta a nuevos datos, al igual que el cerebro forja nuevas conexiones sinápticas. Las capas ocultas entre la entrada y los resultados de una red neuronal pueden cambiar con el tiempo. Cuando las redes neuronales priorizan en exceso los nuevos datos sobre el conocimiento previo, pueden sobreajustar sus ponderaciones: en lugar de ampliar su conocimiento, el modelo reemplaza efectivamente su conocimiento previo con los nuevos datos.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Los efectos del olvido catastrófico

El olvido catastrófico puede tener efectos sustanciales en el rendimiento de los modelos de machine learning, como los que se utilizan para las aplicaciones de IA generativa. A medida que los modelos se aplican a nuevos casos de uso, pueden tener Experiencia de desviación del modelo a medida que cambian sus pesos y, finalmente, sufrir un olvido catastrófico.

El olvido catastrófico puede afectar negativamente:

  • Formación de modelos y uso de recursos: los modelos que olvidan los conocimientos básicos deben volver a formar. El entrenamiento de los LLM que impulsan los principales servicios de IA generativa cuesta millones de dólares, incluidos los Recursos así como la electricidad y el agua para alimentar los centros de datos a hiperescala que los albergan.
     

  • Despliegue de modelos y mantenimiento de aplicaciones de IA: a medida que el rendimiento de un modelo se degrada, las aplicaciones que lo llaman también sufrirán problemas de rendimiento. En los despliegues perimetrales donde los modelos deben adaptarse a las circunstancias locales, el riesgo de olvido catastrófico puede aumentar.
     

  • Aprendizaje autónomo: los sistemas de aprendizaje experiencial pueden sufrir un olvido catastrófico con el tiempo. La pérdida de conocimientos fundamentales podría hacer que estos sistemas sean menos adaptables, confiables y consistentes. Con la robótica y los automóviles autónomos, estos efectos pueden ser especialmente peligrosos.

Superar el olvido catastrófico

Los investigadores y otros expertos han propuesto una serie de técnicas para contrarrestar el olvido catastrófico. Un artículo histórico publicado en 2017 por James Kirkpatrick, Andrei A. Rusi y otros exploraron un método basado en ralentizar la tasa de aprendizaje de pesos relevantes para tareas más antiguas. En 2025, otro grupo de informáticos exploró el uso de la retropropagación para superar el olvido catastrófico (NOTA AL PIE: https://arxiv.org/abs/2501.01045#).

Otras técnicas para superar el olvido catastrófico incluyen:

  • Regularización
     

  • Soluciones arquitectónicas
     

  • Métodos de conjunto
     

  • Técnicas de ensayo
     

  • Redes neuronales aumentadas de memoria (MANNs)

Regularización

La regularización es un conjunto de técnicas que hacen que los modelos sean más generalizables a riesgo de aumentar los sesgos: se adaptan más fácilmente a los nuevos datos. La consolidación del peso elástico (EWC) es una de estas técnicas que agrega una penalización a la función de pérdida para los ajustes de los pesos del modelo que son importantes para las tareas antiguas.

La inteligencia sináptica funciona de manera similar, desincentivando al modelo para que no cambie los parámetros principales. Ambas técnicas hacen que el modelo tenga menos probabilidades de perder conocimientos previos.

Soluciones arquitectónicas

La arquitectura del modelo describe la estructura de una red neuronal, incluida la cantidad de capas que tiene y la forma en que se conectan los nodos. Cada capa está dedicada a una función diferente en el flujo de trabajo de la IA , como la predicción o la extracción de características .

Las redes neuronales progresivas (PNN) agregan redes neuronales para nuevas tareas a la vez que conservan las conexiones de las redes neuronales empleadas para las funciones anteriores. El modelo combina las salidas de todas las redes, aprovechando sus conocimientos más antiguos incluso cuando se trabaja en nuevas tareas.

Otras redes emplean el promedio dinámico de pesos (DWA) durante el aprendizaje multitarea para ajustar dinámicamente los pesos del modelo durante el entrenamiento. DWA permite que los modelos se adapten de manera flexible a diferentes tareas.

Métodos de conjunto

Los métodos de conjunto combinan los resultados de múltiples modelos para obtener resultados más confiables. Bosques de aprendizaje permanente son modelos de bosque aleatorios que agregan nuevos bosques o árboles de decisión para nuevas tareas, de manera similar a cómo las PNN agregan nuevas redes a medida que se expande su carga de trabajo.

Mientras tanto, las arquitecturas modulares compartimentadas pueden evitar que los nuevos datos contaminen el resto de la red. Los módulos específicos de tareas se activan según sea necesario, preservando los conocimientos adquiridos cuando no están en uso.

Técnicas de ensayo

Las técnicas de ensayo exponen el modelo a datos antiguos durante el entrenamiento para nuevas tareas, lo que ayuda a garantizar que el modelo no olvide catastróficamente lo que aprendió previamente. Larepetición de experiencias es una técnica de aprendizaje por refuerzo en la que un modelo almacena experiencias en un conjunto de datos separado, luego toma muestras aleatorias de esta memoria durante el entrenamiento.

Redes neuronales aumentadas de memoria (MANN)

Las redes neuronales con memoria aumentada son una arquitectura prometedora que combina neural networks con almacenamiento de memoria externa. Al procesar secuencias de instrucciones del usuario, los MANN pueden leer de y escribir en la memoria. Muchos emplean mecanismos de atención para aislar los componentes de memoria más relevantes para cada tarea.

La memoria episódica de gradiente (GEM) es un ejemplo de MANN que permite que los modelos de IA almacenen y recuerden experiencias pasadas para informar nuevas tareas y preservar el conocimiento adquirido previamente.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página