La superintelligence artificielle (ASI) reste un concept hypothétique. Par conséquent, les efforts actuels d’alignement des IA se concentrent en grande partie sur le fait de rendre les modèles d’IA actuels à la fois utiles, sûrs et fiables. Par exemple, l’alignement permet de s’assurer que les chatbots d’IA tels que ChatGPT ne perpétuent pas les biais humains ou ne puissent être exploités par des personnes malveillantes.
Mais à mesure que l’IA se complexifie et se perfectionne, ses productions deviennent plus difficiles à anticiper et à aligner sur les intentions humaines. C’est ce que l’on appelle communément le « problème de l’alignement ». Certaines personnes craignent que les systèmes d’IA superintelligents n’atteignent un jour un point de non-retour et n’échappent totalement au contrôle humain. Des experts estiment par ailleurs que les risques actuels liés à l’IA pourraient s’aggraver de manière exponentielle au fur et à mesure que la technologie progresse.
Ces préoccupations, entre autres, ont inspiré une branche émergente d’alignement avancé : le superalignement.
Pour comprendre la superintelligence artificielle (ASI), il faut la considérer au regard des autres types d’IA : l’intelligence artificielle étroite (ANI) et l’intelligence artificielle générale (AGI). Il est possible de classer ces trois types d’intelligence artificielle en fonction de leurs capacités :
Le domaine de l’IA fait des progrès technologiques spectaculaires. Par exemple, AlphaFold 3 de DeepMind parvient à prédire la structure et l’interaction des molécules avec une précision extraordinaire. Et GPT-4o d’OpenAI est capable de raisonner en temps réel.
Malgré ces avancées, l’IA n’est toujours pas humaine. Elle ne se soucie pas intrinsèquement de la raison, de la loyauté ou de la sûreté. Son seul objectif est d’accomplir la tâche pour laquelle elle a été programmée.
Il incombe donc aux développeurs d’IA d’y intégrer des valeurs et des objectifs humains. Autrement, un désalignement se produit et les systèmes d’IA peuvent produire des résultats préjudiciables qui conduisent à des biais, à la discrimination et à la désinformation.
Les efforts d’alignement actuels visent à maintenir les systèmes d’IA faibles en phase avec les valeurs et les objectifs humains. Mais les systèmes d’IAG et de SIA peuvent s’avérer exponentiellement plus à risque, plus difficiles à comprendre et à contrôler. Les techniques actuelles d’alignement de l’IA, qui reposent sur l’intelligence humaine, sont très probablement inadéquates pour aligner des systèmes d’IA plus intelligents que l’être humain.
Par exemple, l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est une technique de machine learning dans laquelle un « modèle de récompense » est entraîné à l’aide de commentaires humains. La méthode RLHF a été la technique d’alignement privilégiée par OpenAI pour ses modèles GPT-3 et GPT-4 à la base de ChatGPT, tous considérés comme des modèles d’IA faible. Des techniques d’alignement nettement plus avancées seront nécessaires pour faire en sorte que les systèmes d’IA superintelligents présentent des niveaux similaires de robustesse, d’interprétabilité, de contrôlabilité et d’éthique.
En l’absence de superalignement, les systèmes d’IA avancés pourraient présenter les risques suivants :
Si la complexité et le désalignement des systèmes d’IA avancés deviennent tels qu’une supervision humaine est impossible, leurs résultats pourraient être imprévisibles et incontrôlables. La plupart des experts jugent improbable un scénario de prise de contrôle par un robot humanoïde. Cependant, un système d’AGI ou d’ASI qui s’éloignerait trop de ses objectifs initiaux pourrait avoir des conséquences catastrophiques dans des domaines à haut risque, tels que les infrastructures critiques ou la défense nationale.
Une IA superintelligente pourrait poursuivre des objectifs qui seraient préjudiciables à notre existence. Un exemple couramment cité est l’expérience de pensée du maximiseur de trombones du philosophe Nick Bostrom, dans laquelle un modèle ASI est programmé pour fabriquer des trombones. Grâce à une puissance de calcul surhumaine, le modèle finit par tout transformer, même certaines parties de l’espace, en usines de fabrication de trombones afin d’atteindre son objectif1.
Bien qu’il existe plusieurs méthodes fiables pour atténuer les biais dans les systèmes d’IA, le risque subsiste pour les IA futures. En effet, les systèmes d’IA avancés pourraient perpétuer les biais humains en produisant des résultats injustes ou discriminatoires. En raison de la complexité de ces systèmes, il pourrait être difficile d’identifier et d’atténuer ces résultats biaisés. Or, ces biais sont particulièrement préoccupants lorsqu’ils sont constatés dans des domaines tels que la santé, l’application de la loi et les ressources humaines.
Les malfaiteurs pourraient exploiter l’IA superintelligente à des fins néfastes telles que le contrôle social ou le piratage financier à grande échelle. Toutefois, des perturbations sociétales et économiques seraient également possibles si les secteurs d’activité adoptaient l’IA avancée sans les cadres juridiques ou réglementaires nécessaires.
Par exemple, les agents d’IA financière sont de plus en plus utilisés dans le trading ou la gestion des actifs, mais la responsabilité de leurs actes est souvent confuse. À qui incombe la responsabilité si un agent d’IA enfreint les réglementations en vigueur ? À mesure que la technologie mûrit, ce manque de responsabilité pourrait susciter méfiance et instabilité2.
Certaines conversations autour de l’ASI soulèvent la question de la dépendance excessive des humains à l’égard des systèmes d’IA avancés. Dans ces conditions, nous pourrions perdre nos capacités cognitives et décisionnelles. De même, dépendre trop fortement de l’IA dans des domaines tels que la cybersécurité pourrait conduire à une certaine suffisance de la part des équipes humaines. L’IA n’est pas infaillible et la supervision humaine reste nécessaire pour garantir l’atténuation de toutes les menaces.
Il existe actuellement plusieurs techniques d’alignement des IA, notamment l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF), les approches basées sur les données synthétiques et les tests contradictoires. Ces méthodes semblent toutefois inadaptées à l’alignement des modèles d’IA superintelligente. Et, à l’heure où nous écrivons ces lignes, ni l’AGI ni l’ASI n’existent et aucune méthode n’a été établie pour l’alignement de ces systèmes d’IA plus complexes.
Néanmoins, il existe plusieurs idées de superalignement dont les résultats de recherche sont prometteurs :
En tant qu’humains, nous ne sommes pas en mesure d’assurer une supervision fiable des systèmes d’IA qui sont plus intelligents que nous. La surveillance évolutive est une méthode d’entraînement évolutive qui permettrait aux humains d’utiliser les systèmes d’IA faible pour aligner les systèmes d’IA plus complexes.
La recherche visant à tester et à développer cette technique est limitée, car les systèmes d’IA superintelligents n’existent pas encore. Cependant, les chercheurs d’Anthropic (une société de sécurité et de recherche en IA) ont mené une expérience de preuve de concept.
Dans cette expérience, des participants humains ont été invités à répondre à des questions avec l’aide d’un LLM. Ces personnes assistées par l’IA ont obtenu des résultats supérieurs à ceux du modèle seul et des personnes non assistées en ce qui concerne la précision. Dans leurs conclusions, les chercheurs ont déclaré que ces résultats étaient encourageants et confirmaient l’idée que les LLM « peuvent aider les humains à accomplir des tâches difficiles dans des conditions propices à la supervision évolutive3 ».
La généralisation est la capacité des systèmes d’IA à faire des prédictions fiables à partir de données sur lesquelles ils n’ont pas été entraînés. La généralisation faible à forte est une technique qui consiste à utiliser des modèles d’IA faibles pour entraîner des modèles plus forts à atteindre une meilleure performance sur de nouvelles données, améliorant ainsi la généralisation.
L’équipe de superalignement d’OpenAI, codirigée par Ilya Sutskever (cofondateur d’OpenAI et ancien scientifique en chef) et Jan Leike (ancien responsable de l’alignement), a abordé la question de la généralisation faible à forte dans son premier article de recherche. L’expérience a utilisé un modèle « faible » de niveau GPT-2 pour affiner un modèle de niveau GPT-4. En utilisant cette méthode, l’équipe a constaté que les performances du modèle résultant se situaient entre un modèle de niveau GPT-3 et GPT-3.5. Elle en a conclu qu’avec les méthodes « faible à fort », il est possible d’améliorer la généralisation de manière significative.
En ce qui concerne le superalignement, cette preuve de concept montre qu’une amélioration substantielle de la généralisation faible à forte est possible. Toujours selon l’article de recherche, l’équipe affirme : « il est possible de faire des progrès empiriques aujourd’hui sur le défi fondamental de l’alignement des modèles surhumains4. » Et une étude complémentaire de l’université Jiaotong de Pékin a montré que la généralisation faible à forte peut être améliorée en utilisant la supervision évolutive5.
Pourtant, l’équipe de superalignement d’OpenAI a été dissoute en mai 2024 en raison de changements de priorités au sein de l’entreprise. Dans un message publié sur les réseaux sociaux, le PDG Sam Altman a remercié l’équipe et déclaré qu’OpenAI avait « [mis] en place les fondations nécessaires au déploiement sûr de systèmes de plus en plus performants6 ».
Plus loin dans le pipeline d’alignement se trouve la recherche sur l’alignement automatisé. Dans cette technique de superalignement, on fait appel à des systèmes d’IA surhumains déjà alignés pour effectuer un travail de recherche sur l’alignement. Ces « chercheurs en IA » seraient plus rapides et plus intelligents que les chercheurs humains. Ainsi, ils pourraient éventuellement mettre au point de nouvelles techniques de superalignement. Au lieu de développer et de mettre en œuvre directement la recherche technique sur l’alignement, les chercheurs humains en examineraient plutôt les résultats.
Leopold Aschenbrenner, investisseur dans le domaine de l’AGI et ancien membre de l’équipe de superalignement d’OpenAI, décrit l’énorme potentiel de cette technique : « Si nous parvenons à aligner des systèmes passablement surhumains au point de leur faire confiance, nous serons alors dans une position incroyable : nous aurons à notre disposition des millions de chercheurs en IA automatisés, plus intelligents que les meilleurs chercheurs en IA7. »
Le superalignement est confronté à de nombreux défis. Par exemple, qui définit les critères de référence en matière de valeurs, d’objectifs et d’éthique ? Mais l’un d’entre eux relègue les autres au second plan, à savoir qu’il est extrêmement difficile de concevoir des techniques d’alignement fiables pour des systèmes d’IA puissants qui non seulement sont plus intelligents que nous, mais qui n’existent qu’en théorie.
Les experts du secteur sont également confrontés à des désaccords philosophiques concernant le superalignement. Par exemple, certains laboratoires d’IA estiment que le fait de concentrer les efforts de développement de l’IA sur l’alignement des futurs systèmes d’IA pourrait entraver les priorités actuelles ainsi que les nouvelles recherches. De l’autre côté, les partisans de la sûreté de l’IA soutiennent que les risques de la superintelligence sont trop graves pour être ignorés et qu’ils l’emportent sur les avantages potentiels.
C’est ce dernier point de vue qui a incité Ilya Sutskever, ancien scientifique en chef d’OpenAI, à s’associer à l’investisseur Daniel Gross et à l’ancien chercheur d’OpenAI Daniel Levy dans le but de créer la société Safe Superintelligence Inc. L’objectif unique de la startup est de « mettre au point une superintelligence sûre » sans se laisser « distraire par les frais généraux de gestion ou les cycles de production » et de progresser « à l’abri des pressions commerciales à court terme8 ».
Les liens sont externes à ibm.com.
1 « Ethical Issues in Advanced Artificial Intelligence », Nick Bostrom, n.d.
2 « Will Financial AI Agents Destroy The Economy ? », The Tech Buzz, 25 octobre 2024.
3 « Measure Progress on Scalable Oversight for Large Language Models », Anthropic, 4 novembre 2022.
4 « Weak-to-strong generalization », OpenAI, 14 décembre 2023.
5 « Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning », arXiv, 1er février 2024.
6 Publication X, Greg Brockman, 18 mai 2024.
7 « Superalignment », Situational Awareness : The Decade Ahead, juin 2024.
8 « Superintelligence is within reach », Safe Superintelligence Inc., 19 juin 2024.
Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.
Découvrez comment la gouvernance de l’IA peut contribuer à renforcer la confiance de vos employés dans l’IA, à accélérer l’adoption et l’innovation, et à améliorer la confiance des clients.
Préparez-vous à la loi européenne sur l’IA et adoptez une approche responsable de la gouvernance de l’IA avec IBM Consulting.