Apprendre aux grands modèles de langage à « oublier » le contenu indésirable

Gros plan d’un travailleur utilisant l’IA, le deep learning et un ordinateur portable pour consulter des données

Alors que les grands modèles de langage (LLM) deviennent exceptionnellement performants pour apprendre à partir de grandes quantités de données, une nouvelle technique qui fait l’inverse suscite l’enthousiasme des entreprises technologiques : le désapprentissage automatique ou machine unlearning.

Cette approche relativement nouvelle apprend aux LLM à oublier ou à « désapprendre » des données sensibles, non fiables ou protégées par des droits d’auteur. Elle est plus rapide que le réentraînement des modèles à partir de zéro et supprime rétroactivement les données ou comportements spécifiques indésirables.

Il n’est donc pas surprenant que des géants de la technologie comme IBM, Google et Microsoft se empressent de préparer le machine learning pour la première fois. L'intérêt croissant pour le désapprentissage met toutefois en évidence certains problèmes liés à cette technique : des modèles qui oublient trop de choses et un manque d'outils à l'échelle du secteur pour évaluer l'efficacité du désapprentissage.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

De l’apprentissage au désapprentissage

Entraînés sur des téraoctets de données, les LLM « apprennent » à prendre des décisions et à faire des prédictions sans être explicitement programmés pour cela. Cette branche de l'IA, connue sous le nom d'apprentissage automatique, a gagné en popularité car les algorithmes d'apprentissage automatique imitent la façon dont les humains apprennent, améliorant progressivement la précision du contenu qu'ils génèrent.

Mais plus de données signifient aussi plus de problèmes. Ou, comme le dit Nathalie Baracaldo, scientifique de recherche senior chez IBM, « quelles que soient les données apprises, qu’elles soient bonnes ou mauvaises, elles seront conservées ».

Ainsi, des modèles toujours plus vastes peuvent également générer un langage plus toxique et haineux et contenir des données sensibles qui défient les normes de cybersécurité. Pourquoi ? Ces modèles sont formés sur des données non structurées et non fiables provenant de l'internet. Malgré des tentatives rigoureuses pour filtrer les données, aligner les modèles pour définir les questions auxquelles il ne faut pas répondre et quelles réponses fournir, et utiliser d'autres mesures de protection pour inspecter la sortie d'un modèle, des comportements indésirables, des logiciels malveillants, des contenus toxiques et protégés par des droits d'auteur s'insinuent malgré tout.

Le ré-entraînement de ces modèles pour éliminer les données indésirables prend des mois et coûte des millions de dollars. De plus, lorsque les modèles sont open source, toute vulnérabilité dans le modèle de base est transmise à de nombreux autres modèles et applications.

Les approches du désapprentissage visent à atténuer ces problèmes. En identifiant des cibles de désapprentissage, telles que des points de données spécifiques comme le contenu contenant un langage préjudiciable, contraire à l’éthique ou protégé par des droits d’auteur ou des prompts indésirables, les algorithmes de désapprentissage éliminent efficacement l’effet du contenu ciblé.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Oublier Harry Potter

Une équipe de chercheurs de Microsoft a utilisé cette approche de désapprentissage pour voir s’ils pouvaient faire oublier au modèle Llama2-7b de Meta le contenu protégé par le droit d’auteur de Harry Potter, sur lequel il avait été entraîné via Internet. Avant le désapprentissage, lorsque les chercheurs entraient un prompt tel que « Qui est Harry Potter ? », le modèle répondait : « Harry Potter est le protagoniste principal de la série de romans fantastiques de J.K. Rowling. »

Après avoir affiné le modèle pour qu’il « désapprenne » le contenu protégé par le droit d’auteur, le modèle répond au même prompt de la manière suivante : « Harry Potter est un acteur, scénariste et réalisateur britannique... ».

« En substance, chaque fois que le modèle rencontre un contexte lié aux données cibles, il “oublie” le contenu original », ont expliqué les chercheurs Ronen Elden et Mark Russinovich dans un article de blog. L’équipe a partagé son modèle sur Hugging Face afin que la communauté de l’IA puisse découvrir le désapprentissage et jouer avec.

Outre la suppression de contenus protégés par des droits d’auteur, la suppression de contenus sensibles pour protéger la vie privée des individus est un autre cas d’utilisation à fort enjeu. Une équipe dirigée par Radu Marculescu de l’université du Texas à Austin, en collaboration avec des spécialistes de l’IA de JP Morgan Chase, travaille sur le machine unlearning pour les modèles génératifs d’image à image. Dans un article récent, ils ont montré qu’ils étaient capables d’éliminer des éléments indésirables d’images (l’ensemble à oublier) sans dégrader les performances de l’ensemble des images.

Cette technique pourrait être utile dans des scénarios tels que les relevés par drone d’immobilier, par exemple, a déclaré le professeur Marculescu. « Si les visages des enfants étaient clairement visibles, on pouvait les masquer pour protéger leur vie privée. »

Google s’attaque également à la question du désapprentissage au sein de la communauté élargie des développeurs open source. En juin 2023, Google a lancé son premier défi de machine unlearning. Le concours présentait un prédicteur d’âge qui avait été entraîné sur des images de visages. Après la formation, un certain sous-ensemble des images de formation a dû être oublié pour protéger la vie privée ou les droits des personnes concernées.

Même s’il n’est pas parfait, les premiers résultats obtenus par différentes équipes sont prometteurs. En utilisant l’apprentissage automatique sur un modèle Llama, par exemple, l’équipe de Baracaldo chez IBM a réussi à réduire le score de toxicité de 15,4 % à 4,8 % sans affecter la précision des autres tâches effectuées par le LLM. Et au lieu de prendre des mois pour entraîner à nouveau un modèle, sans parler du coût, le processus de désapprentissage a pris 224 secondes.

Ralentisseurs

Alors pourquoi le machine learning n’est-il pas largement utilisé ?

« Les méthodes pour désapprendre en sont encore à leurs débuts et elles ne s’adaptent pas encore bien », explique Baracaldo.

Le premier défi majeur qui se profile est celui de « l’oubli catastrophique », c’est-à-dire qu’un modèle oublie plus que ce que les chercheurs souhaitaient, de sorte qu’il ne remplit plus les tâches clés pour lesquelles il a été conçu.

L’équipe IBM a développé un nouveau cadre des exigences pour améliorer le fonctionnement des modèles après l’entraînement. En utilisant une approche qu’ils décrivent comme split-unlearn-then-merge ou SPUNGE , ils ont pu désapprendre des comportements indésirables tels que la toxicité et des connaissances dangereuses telles que la biosécurité ou les risques de cybersécurité, tout en préservant les capacités générales des modèles.

Selon les chercheurs, le développement d’outils d’évaluation complets et fiables pour mesurer l’efficacité des efforts de désapprentissage reste un problème à résoudre.

L’avenir du machine unlearning

Si le désapprentissage n’a pas encore trouvé sa place, les chercheurs redoublent d’efforts, car il existe un large éventail d’applications, de secteurs et de zones géographiques potentiels où il pourrait s’avérer utile.

En Europe par exemple, le règlement général sur la protection des données de l'UE protège le « droit à l'oubli » des individus. Si une personne choisit de supprimer ses données, le désapprentissage automatique pourrait aider les entreprises à respecter cette législation et à supprimer les données critiques. Au-delà de la sécurité et de la confidentialité, le machine learning peut également être utile dans toutes les situations où des données doivent être ajoutées ou supprimées lorsque des licences expirent ou que des clients, par exemple, quittent une grande institution financière ou un consortium hospitalier.

« Ce que j’aime dans le désapprentissage », explique M. Baracaldo, « c’est que nous pouvons continuer à utiliser toutes nos autres lignes de défense, comme le filtrage des données. Mais nous pouvons aussi « corriger » ou modifier le modèle chaque fois que nous constatons un problème afin de supprimer tout ce qui est indésirable. »

 

Auteur

Aili McConnon

Staff Writer

IBM

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct