La société s'appuie de plus en plus sur les technologies de l'IA pour orienter ses choix. Cependant, cette dépendance croissante s'accompagne de risques : les modèles IA peuvent générer des résultats biaisés, dommageables et erronés, qui ne correspondent pas aux objectifs et à l'intention originelle des créateurs du système.
L'alignement permet de limiter ces conséquences négatives, en s'assurant que les systèmes d'IA fonctionnent comme prévu et respectent les valeurs et objectifs des humains. À titre d'exemple, si vous interrogez un chatbot d'IA générative sur la fabrication d'une arme, il peut fournir des instructions ou refuser de divulguer des informations dangereuses. La réponse du modèle dépend de l'alignement défini par ses créateurs.
L'alignement se fait souvent lors de la phase d'ajustement du modèle. Cela peut comprendre l'apprentissage par renforcement à partir des retours humains (RLHF), des approches de données synthétiques et du red teaming.
Toutefois, à mesure que les modèles d'IA deviennent plus complexes et sophistiqués, il devient de plus en plus difficile de prévoir et de maîtriser leurs résultats. Ce défi est parfois qualifié de « problème d'alignement de l'IA ». Plus précisément, il y a une certaine inquiétude autour de la création de superintelligence artificielle (ASI), un système d'IA hypothétique dont les capacités intellectuelles surpassent celles de l'homme. La crainte que l'ASI dépasse le contrôle humain a conduit à la création d'une branche de l'alignement de l'IA, nommée superalignement.
Les chercheurs ont identifié quatre principes clés de l’alignement des IA : la robustesse, l’interprétabilité, la contrôlabilité et l’éthique (RICE).1
Les humains ont tendance à attribuer des caractéristiques humaines aux systèmes d'IA. Nous associons des notions humaines à leurs actions, comme « apprendre » et « penser ». Par exemple, on pourrait dire : « ChatGPT ne comprend pas ma requête » lorsque l'algorithme de traitement de NLP (traitement automatique du langage naturel) du chatbot échoue à fournir le résultat souhaité.
Des notions comme « compréhension » nous permettent de mieux appréhender le fonctionnement des systèmes d'IA complexes. Cependant, ces idées peuvent aussi nous induire en erreur sur les véritables potentialités de l'IA. En attribuant des concepts humains aux systèmes d'IA, il est naturel que nous supposions qu'ils possèdent aussi des valeurs et des motivations humaines.
Mais cette déduction est fondamentalement erronée. L'intelligence artificielle n'est pas humaine et ne peut donc pas, par nature, se soucier de la raison, de la loyauté, de la sécurité, des enjeux environnementaux ou du bien commun. L'objectif fondamental d'un « esprit » artificiel est de mener à bien la mission pour laquelle il a été programmé.
Il incombe donc aux développeurs d'IA d'intégrer les valeurs et objectifs humains. Sinon, dans leur volonté de mener à bien la tâche, les systèmes d'IA peuvent se désaligner des objectifs des programmeurs et engendrer des dégâts, parfois catastrophiques. Cette réflexion est importante, car l'automatisation devient de plus en plus présente dans des secteurs stratégiques comme la santé, les ressources humaines, la finance, les opérations militaires et les transports.
Par exemple, les voitures autonomes pourraient être conçues pour accomplir leur mission principale, à savoir se rendre du point A au point B aussi rapidement que possible. Si ces véhicules autonomes ignorent les règles de sécurité pour arriver à leurs fins, ils pourraient causer de graves accidents, en blessant ou tuant des piétons et d'autres conducteurs.
Simon Zhuang et Dylan Hadfield-Menell, chercheurs à l'Université de Californie à Berkeley, établissent une analogie entre l'alignement de l'IA et le mythe grec du roi Midas. En résumé, le roi Midas se voit accorder un vœu et demande que tout ce qu'il touche se transforme en or. Il finit par mourir parce que la nourriture qu'il touche se transforme aussi en or, et devient alors immangeable.
Le roi Midas a connu une fin tragique, car son vœu (de l'or à l'infini) ne correspondait pas à ce qu'il voulait réellement (la richesse et le pouvoir). Les chercheurs expliquent que les concepteurs d'IA se trouvent souvent dans une situation comparable, et que « l'écart entre ce que nous pouvons programmer et ce que nous voulons a déjà entraîné des dommages importants. »2
Voici quelques risques liés au mauvais alignement des IA :
Les biais de l'IA sont le produit des préjugés humains présents dans les données d'entraînement ou les algorithmes initiaux d'un système d'IA. En l'absence d'alignement, ces systèmes d'IA ne peuvent éviter des résultats biaisés, injustes, discriminatoires ou préjudiciables. Ils perpétuent ainsi les biais humains présents dans leurs données d'entrée et leurs algorithmes.
Prenons l'exemple d'un outil d'IA de recrutement formé sur des données provenant d'une main-d'œuvre homogène et masculine. Cet outil pourrait favoriser les candidats masculins tout en désavantageant les candidates féminines qualifiées. Ce modèle ne respecte pas la valeur humaine de l'égalité des sexes et pourrait aboutir à une discrimination à l'embauche.
Dans l'apprentissage par renforcement, les systèmes d'IA apprennent à agir au sein d'un environnement pour atteindre un objectif défini en se basant sur un système de récompenses et de punitions. Le détournement des récompenses désigne la situation où le système d'IA trouve une astuce pour déclencher la fonction de récompense sans pour autant accomplir l'objectif véritablement visé par les développeurs.
Par exemple, OpenAI a entraîné l’un de ses agents d’IA à un jeu de course de bateaux appelé CoastRunners. L’objectif humain du jeu est de gagner la course nautique. Cependant, les joueurs peuvent également gagner des points en atteignant des marques tout au long du parcours. L’agent d’IA a trouvé un moyen d’accumuler des points en atteignant les marques successivement tout en étant isolé dans un lagon. Bien que l’agent d’IA n’ait pas gagné la course (l’objectif humain), il a « remporté » le jeu avec son propre objectif émergent d’obtenir le meilleur score.3
Des systèmes d’IA mal alignés peuvent contribuer à la désinformation et à la polarisation politique. Par exemple, les moteurs de recommandation de contenu sur les réseaux sociaux sont entraînés dans le but d’optimiser l’engagement des utilisateurs. Par conséquent, ils classent en priorité les publications, vidéos et articles qui suscitent le plus d’engagement, comme les fausses informations politiques qui attirent l’attention. Ce résultat ne sert pas les meilleurs intérêts ou le bien-être des utilisateurs des réseaux sociaux, ni des valeurs telles que la véracité et du temps bien employé.4
Aussi farfelu que cela puisse paraître, une superintelligence artificielle (ASI) non alignée avec les valeurs et les objectifs humains pourrait avoir le potentiel de menacer toute vie sur Terre. Un exemple classique de ce risque existentiel est le scénario du « maximiseur de trombones » du philosophe Nick Bostrom. Dans cette expérience, un modèle d'IAS est programmé avec pour objectif principal la fabrication de trombones. Pour réaliser cet objectif, le modèle finit par transformer la terre entière, puis des espaces cosmiques de plus en plus étendus, en usines de fabrication de trombones.5
Ce scénario est hypothétique, et le risque existentiel posé par l'IA exige d'abord l'avènement de l'intelligence artificielle générale (IAG). Cependant, cela met en évidence la nécessité d'un alignement pour accompagner l'évolution du domaine de l'IA.
L’alignement des IA pose deux défis majeurs : la subjectivité de l’éthique et des valeurs humaines, et le « problème de l’alignement ».
Il n'y a pas de code moral qui soit universellement applicable. Les valeurs humaines évoluent et peuvent varier d'une entreprise à l'autre, d'une culture à l'autre et d'un continent à l'autre. On peut observer des divergences de valeurs au sein d'une même famille. Alors, lorsqu'il s'agit d'aligner des systèmes d'IA susceptibles d'affecter la vie de millions de personnes, qui décide ? Quels objectifs et quelles valeurs doivent être privilégiés ?
L'écrivain américain Brian Christian aborde le problème sous un autre angle dans son ouvrage « The Alignment Problem: Machine Learning and Human Values ». Il pose la question suivante : et si l'algorithme comprenait mal nos valeurs ? Que se passe-t-il si l'IA apprend les valeurs humaines en se fondant sur des exemples passés qui reflètent nos actes mais pas nos aspirations ?6
Le nombre considérable de valeurs et de considérations humaines constitue un autre défi. Des chercheurs de l'Université de Californie à Berkeley le décrivent de la manière suivante : « L'homme se soucie de nombreux attributs du monde, et, en raison de contraintes d'ingénierie et cognitives, il est impossible d'énumérer cet ensemble complet pour le robot. »7
Le défi le plus connu est celui de l’alignement. Les modèles d’IA sont déjà souvent considérés comme des boîtes noires impossibles à interpréter. Le problème de l’alignement est l’idée selon laquelle, à mesure que les systèmes d’IA gagnent en complexité et en puissance, il devient de plus en plus difficile d’anticiper et d’aligner leurs résultats sur les objectifs humains. Les discussions autour du problème de l’alignement portent souvent sur les risques liés au développement anticipé de la superintelligence artificielle (ASI).
L'une des préoccupations concernant l'avenir de l'IA est l'émergence possible de systèmes au comportement imprévisible et incontrôlable. La capacité de ces systèmes à apprendre et à s'adapter rapidement pourrait rendre difficile la prévision de leurs actions et la prévention des risques. Cette inquiétude a suscité l'émergence d'une branche de l'alignement de l'IA appelée superalignement.
Des organisations de recherche sur la sécurité de l’IA s’efforcent déjà de résoudre le problème de l’alignement. Par exemple, l’Alignment Research Center est une organisation à but non lucratif de recherche sur l’IA qui « cherche à aligner les futurs systèmes de machine learning sur les intérêts humains en approfondissant la recherche théorique ». L’organisation a été fondée par Paul Christiano, qui dirigeait auparavant l’équipe d’alignement des modèles de langage chez OpenAI et qui est actuellement responsable de la sécurité de l’IA à l’US AI Safety Institute.
Google DeepMind, une équipe réunissant scientifiques, ingénieurs, éthiciens et autres experts, travaille à la mise au point de la prochaine génération de systèmes d'IA de manière sûre et responsable. En mai 2024, l'équipe a dévoilé le Frontier Safety Framework. Ce cadre « constitue un ensemble de protocoles visant à traiter les risques graves pouvant découler des capacités puissantes des futurs modèles de fondation ».8
Il existe plusieurs méthodologies qui peuvent aider à aligner les systèmes d’IA sur les valeurs et les objectifs humains. Ces méthodologies d’alignement comprennent l’apprentissage par renforcement à partir des commentaires humains (RLHF), les données synthétiques, le red teaming, la gouvernance de l’IA et les comités d’éthique de l’IA d’entreprise.
L’apprentissage par renforcement consiste pour les développeurs à enseigner aux modèles d’IA « comment se comporter » en donnant des exemples de « bon comportement ».
Le processus d'alignement de l'IA se déroule généralement en deux étapes lors du réglage fin du modèle. Une première étape peut consister en une phase de réglage fin par instructions, visant à améliorer les performances du modèle sur des tâches spécifiques et sa capacité à suivre des instructions en général. La deuxième phase peut impliquer l'apprentissage par renforcement basé sur les commentaires humains (RLHF). La méthode RLHF est une technique de machine learning dans laquelle un « modèle de récompense » est entraîné à partir de commentaires humains directs, puis utilisé pour optimiser la performance d'un agent d'intelligence artificielle grâce à l'apprentissage par renforcement. Son objectif est d'aider le modèle à mieux intégrer des qualités abstraites comme l'utilité et la sincérité.
La méthode RLHF a été la technique d'alignement privilégiée par OpenAI pour ses modèles GPT-3 et GPT-4. L'organisation américaine de recherche en IA souligne cependant que la RLHF ne sera probablement pas suffisant pour aligner les futurs modèles d'intelligence artificielle générale (IAG), compte tenu de ses limitations significatives.9 Par exemple, sa dépendance à des annotations humaines de haute qualité rend difficile son application et son mise à l'échelle pour des tâches uniques ou complexes. Il est complexe d'obtenir des « démonstrations de réponses cohérentes et des préférences de réponse intra-distribution ».10
Il s'agit de données synthétiques, c'est-à-dire de données créées artificiellement au moyen de simulations informatiques ou générées par des algorithmes. Les données synthétiques se substituent aux données du monde réel lorsque celles-ci font défaut et peuvent être personnalisées en fonction de tâches et de valeurs spécifiques. On peut utiliser les données synthétiques dans le cadre de différents efforts d'alignement.
Par exemple, l'entraînement fin par contraste (CFT) montre aux modèles IA ce qu'ils ne doivent pas faire. Le CFT implique l'entraînement d'un deuxième modèle, dit « persona négative », chargé de générer des réponses « mauvaises » et non alignées. Le modèle original reçoit ensuite ces deux types de réponses, à la fois non alignées et alignées. Une étude d'IBM a constaté que, lorsqu'on évalue leur utilité et leur innocuité, les grands modèles de langage (LLM) entraînés sur des exemples contrastés surpassent les modèles ajustés exclusivement sur de bons exemples. Le CFT offre aux développeurs la possibilité d'aligner les modèles avant même de collecter les données de préférence humaines, c'est-à-dire des données soigneusement sélectionnées et conformes aux critères d'alignement définis, ce qui est coûteux et prend du temps.
Une autre méthode d'alignement par données synthétiques est SALMON (Self-ALignMent with principle fOllowiNg reward models). Cette approche d'IBM Research utilise des données synthétiques pour permettre à un LLM de s'auto-aligner. Dans un premier temps, un LLM génère des réponses à un ensemble de requêtes. Ces réponses sont alors envoyées à un modèle de récompense qui a été entraîné sur des données de préférence synthétiques alignées sur des principes définis par l'humain. Le modèle de récompense attribue une note aux réponses du LLM original en fonction de ces principes. Les réponses ainsi évaluées sont ensuite réinjectées dans le LLM original.
Avec cette méthode, les développeurs ont un contrôle presque total sur les préférences du modèle de récompense. Cette approche permet aux organisations d'ajuster les principes en fonction de leurs besoins, éliminant ainsi la nécessité de collecter de grandes quantités de données de préférence humaine.11
Le red teaming peut être considéré comme une extension de l’alignement qui se produit lors du réglage fin du modèle. Il consiste à concevoir des invites pour contourner les contrôles de sécurité du modèle en cours de réglage fin. Une fois les vulnérabilités détectées, les modèles cibles peuvent être réalignés. Si les humains peuvent encore concevoir ces « invites de jailbreak », les LLM « red team » peuvent produire une variété beaucoup plus large d'« invites » et ce, en quantités illimitées. IBM Research qualifie les LLM « red team » de véritables « trolls toxiques » : leur rôle est de pousser les autres LLM dans leurs retranchements et de révéler leurs failles.
On entend par gouvernance de l'IA l'ensemble des processus, normes et garde-fous destinés à garantir la sécurité et l'éthique des systèmes et outils d'IA. Au-delà des autres mécanismes de gouvernance, elle vise à mettre en place la surveillance nécessaire pour aligner les comportements de l'IA sur les normes éthiques et les attentes de la société. Grâce à des pratiques de gouvernance telles que la surveillance automatisée, l'audit systématique et les alertes de performance, les organisations peuvent veiller à ce que leurs outils d'IA – comme les assistants IA et les agents conversationnels – soient en phase avec leurs valeurs et leurs objectifs.
La création de comités ou de conseils d'éthique peut être envisagée par les organisations pour superviser les initiatives en matière d'IA. Le conseil d'éthique de l'IA d'IBM, par exemple, examine les nouveaux produits et services d'IA et contribue à garantir leur conformité aux principes d'IA d'IBM. Ces conseils mettent souvent à contribution des équipes transversales issues de milieux juridiques, informatiques et politiques.
Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.
Découvrez comment la gouvernance de l’IA peut contribuer à renforcer la confiance de vos employés dans l’IA, à accélérer l’adoption et l’innovation, et à améliorer la confiance des clients.
Préparez-vous à la loi européenne sur l’IA et adoptez une approche responsable de la gouvernance de l’IA avec IBM Consulting.
1 « AI Alignment: A Comprehensive Survey », arXiv, 1 er mai 2024.
2, 7 « Consequences of Misaligned AI », NeurIPS Proceedings, 2020.
3 « Faulty Reward Functions in the Wild », OpenAI, 21 décembre 2016.
4 « Modelling the Recommender Alignment Problem », arXiv, 25 août 2022.
5 « Ethical Issues in Advanced Artificial Intelligence », Nick Bostrom, n.d.
6 « ‘The Alignment Problem’ Review: When Machines Miss the Point », The Wall Street Journal, 25 octobre 2020.
8 « Introducing the Frontier Safety Framework », Google DeepMind, 17 mai 2024.
9 « Our Approach to Alignment Research », OpenAI, 24 août 2022.
10, 11 « SALMON: Self-Alignment with Instructable Reward Models », arXiv, 9 avril 2024.