Qu’est-ce que l’oubli catastrophique ?

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que l’oubli catastrophique ?

On parle d’oubli catastrophique lorsque les réseaux neuronaux oublient les tâches apprises après avoir été entraînés sur de nouvelles données ou après avoir fait l’objet d’un réglage fin pour des tâches bien précises. Également connu sous le nom d’interférence catastrophique, ce phénomène fait perdre aux réseaux entraînés des informations relatives aux tâches antérieures lorsqu’ils sont entraînés sur de nouvelles données dans le cadre d’un processus d’apprentissage séquentiel.

De nombreuses applications d’intelligence artificielle exigent que les modèles de machine learning s’adaptent aux nouveaux cas d’utilisation au fil du temps. On parle d’oubli catastrophique lorsque le processus d’entraînement aux nouvelles tâches interfère avec la manière dont le modèle comprend ses tâches antérieures. À mesure que de nouvelles connaissances remplacent ses acquis antérieurs, le modèle perd la capacité de gérer ses tâches initiales.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Pourquoi l’oubli catastrophique survient-il ?

Observé pour la première fois par Michael McCloskey et Neal J. Cohen en 19891, l’oubli catastrophique est une conséquence de la manière dont les algorithmes de machine learning s’adaptent aux nouveaux jeux de données. Le processus d’entraînement des modèles d’apprentissage profond, tels que les grands modèles de langage (LLM), consiste à exposer le modèle à des données et à lui permettre de mettre à jour ses pondérations en conséquence. En 2023, un article informatique2 révélait que les grands modèles en étaient davantage affectés.

Les pondérations du réseau, également appelées paramètres du modèle, constituent un ensemble de règles internes qui lui permet de saisir les schémas et relations présents dans les jeux de données d’entraînement. Pendant l’entraînement, un algorithme de machine learning met à jour ses pondérations de manière itérative, en fonction d’une fonction de perte (une équation mathématique qui mesure l’erreur dans les prédictions du modèle).

L’objectif de l’entraînement est de minimiser la fonction de perte grâce à des méthodes telles que la descente de gradient. Le taux d’apprentissage définit le rythme auquel un modèle met à jour ses pondérations pendant l’entraînement.

La configuration des pondérations du modèle correspond à sa représentation des connaissances : la façon dont le modèle comprend ses données d’entraînement est représentée mathématiquement. Si un modèle ajuste ses pondérations de manière à ce que les nouvelles valeurs ne soient plus pertinentes pour les tâches précédentes, il perd la capacité à réaliser ces tâches. Au cours du processus d’apprentissage des nouvelles tâches, le modèle a « catastrophiquement » ou complètement oublié comment aborder les anciennes.

Pourquoi les réseaux de neurones oublient-ils ?

Les réseaux de neurones sont composés de nœuds interconnectés qui imitent les neurones du cerveau humain. Lors de l’apprentissage, le cerveau crée des synapses, c’est-à-dire des connexions entre les neurones du néocortex, la région du cerveau impliquée dans les fonctions cognitives supérieures. L’hippocampe, quant à lui, est chargé de transformer les souvenirs à court terme en souvenirs à long terme et de préserver les connaissances.

Bien que le domaine des neurosciences ait encore beaucoup à découvrir sur le cerveau, nous savons qu’il excelle dans l’optimisation interne. La neuroplasticité, ou plasticité cérébrale, désigne la capacité du cerveau à se restructurer pour permettre un apprentissage continu. Les connexions synaptiques les plus sollicitées se renforcent, tandis que celles qui le sont moins se détériorent et finissent par disparaître.

La plasticité est ce qui permet aux personnes de retrouver des capacités perdues, telles que la parole ou le mouvement, après avoir subi un traumatisme crânien. Sans elle, les êtres humains ne seraient pas capables d’apprendre au fur et à mesure de leur croissance. Le cerveau des bébés et des jeunes enfants présente une plus grande plasticité ; c’est pourquoi ils sont capables d’apprendre les langues plus facilement que les adultes.

Les réseaux de neurones artificiels fonctionnent de manière similaire dans la mesure où ils ajustent leurs pondérations en réponse à de nouvelles données, tout comme le cerveau établit de nouvelles connexions synaptiques. Les couches cachées entre l’entrée et la sortie d’un réseau de neurones peuvent changer au fil du temps. Lorsque les réseaux de neurones privilégient excessivement les nouvelles données par rapport aux connaissances antérieures, ils peuvent sur-ajuster leurs pondérations (au lieu d’élargir ses connaissances, le modèle remplace ses connaissances antérieures par les nouvelles données).

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Les effets de l’oubli catastrophique

L’oubli catastrophique peut avoir des effets considérables sur la performance des modèles de machine learning, comme ceux utilisés pour les applications d’IA générative. Lorsque les modèles sont appliqués à de nouveaux cas d’utilisation, ils peuvent subir une dérive au fur et à mesure que leurs pondérations changent et, à terme, un oubli catastrophique.

L’oubli catastrophique peut avoir un effet négatif sur :

  • Entraînement des modèles et utilisation des ressources : les modèles qui oublient les connaissances acquises doivent être entraînés à nouveau. L’entraînement des LLM qui alimentent les principaux services d’IA générative coûte des millions de dollars (on y compte les ressources de calcul, ainsi que l’électricité et l’eau nécessaires pour alimenter les centres de données à grande échelle qui les hébergent).
     

  • Déploiement des modèles et maintenance des applications d’IA : au fur et à mesure que la performance du modèle se dégrade, les applications qui l’appellent subissent également des problèmes de performance. Dans les déploiements edge, où les modèles doivent s’adapter aux circonstances locales, le risque d’oubli catastrophique peut augmenter.
     

  • Apprentissage autonome : les systèmes d’apprentissage expérientiel peuvent subir des oublis catastrophiques au fil du temps. La perte des connaissances acquises peut rendre ces systèmes moins adaptables, moins fiables et moins cohérents. Dans le cas de la robotique et des voitures autonomes, ces effets peuvent s’avérer particulièrement dangereux.

Faire face à l’oubli catastrophique

Les chercheurs et autres experts ont proposé toute une gamme de techniques pour lutter contre l’oubli catastrophique. Un article de référence publié en 2017 et signé, entre autres, par James Kirkpatrick et Andrei A. Rusi, explorait une méthode qui consiste à ralentir le taux d’apprentissage pour les pondérations concernant les tâches antérieures. En 2025, un autre groupe d’informaticiens s’est penché sur l’utilisation de la rétropropagation pour surmonter l’oubli catastrophique (NOTE DE BAS DE PAGE : https://arxiv.org/abs/2501.01045#).

Voici quelques autres techniques employées pour faire face à l’oubli catastrophique :

  • Régularisation
     

  • Solutions d’architecture
     

  • Méthodes d’ensemble
     

  • Techniques de répétition
     

  • Réseaux de neurones à mémoire augmentée (MANN)

Régularisation

La régularisation est un ensemble de techniques qui rendent les modèles plus généralisables au risque d’augmenter les biais : ils s’adaptent plus facilement aux nouvelles données. La consolidation élastique des poids (EWC) est l’une de ces techniques qui ajoute une pénalité à la fonction de perte pour les ajustements des poids du modèle qui sont importants pour les tâches anciennes.

L’intelligence synaptique fonctionne de la même manière, en dissuadant le modèle de modifier les paramètres importants. Ces deux techniques rendent le modèle moins susceptible de perdre les connaissances acquises.

Solutions d’architecture

L’architecture du modèle décrit la structure du réseau de neurones, notamment le nombre de couches qu’il comporte et la façon dont les nœuds sont connectés. Chaque couche est dédiée à une fonction différente au sein du workflow d’IA, comme la prédiction ou l’extraction de caractéristiques.

Les réseaux de neurones progressifs (PNN) ajoutent des réseaux pour réaliser de nouvelles tâches, tout en conservant les connexions dans les réseaux utilisés pour les rôles antérieurs. Le modèle combine les sorties de tous les réseaux, en s’appuyant sur ses anciennes connaissances même lorsqu’il réalise de nouvelles tâches.

D’autres réseaux emploient la moyenne pondérée dynamique (DWA) pendant l’apprentissage multitâche afin d’ajuster dynamiquement les poids du modèle pendant l’entraînement. La DWA permet aux modèles de s’adapter de manière flexible à différentes tâches.

Méthodes d’ensemble

Les méthodes d’ensemble combinent les sorties de plusieurs modèles pour fiabiliser les résultats. Les forêts d’apprentissage permanent sont des modèles de forêts aléatoires qui ajoutent de nouvelles forêts ou de nouveaux arbres de décision pour les nouvelles tâches, un peu comme les PNN ajoutent de nouveaux réseaux au fur et à mesure que leur workload augmente.

Par ailleurs, les architectures modulaires compartimentées peuvent empêcher les nouvelles données de contaminer le reste du réseau. Les modules spécifiques à une tâche s’activent selon les besoins, conservant les connaissances acquises lorsqu’elles ne sont pas utilisées.

Techniques de répétition

Les techniques de répétition consistent à exposer le modèle aux anciennes données lors de son entraînement à de nouvelles tâches, afin d’éviter qu’il n’oublie de manière catastrophique ce qu’il a appris précédemment. L’experience replay est une technique d’apprentissage par renforcement grâce à laquelle le modèle stocke les expériences antérieures dans un autre jeu de données, afin de puiser aléatoirement dans cette mémoire pendant l’entraînement.

Réseaux de neurones à mémoire augmentée (MANN)

Très prometteurs, les réseaux de neurones à mémoire augmentée associent réseaux de neurones et stockage externe. Lors du traitement des séquences d’entrée telles que les prompts, les MANN peuvent lire et écrire dans la mémoire. Beaucoup utilisent des mécanismes d’attention pour isoler les composants de mémoire les plus pertinents pour chaque tâche.

La mémoire épisodique graduelle (GEM) est un exemple de MANN qui permet aux modèles d’IA de stocker et de rappeler des expériences antérieures pour informer les nouvelles tâches et préserver les connaissances précédemment acquises.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page