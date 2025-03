Le domaine de l’IA fait des progrès technologiques spectaculaires. Par exemple, AlphaFold 3 de DeepMind parvient à prédire la structure et l’interaction des molécules avec une précision extraordinaire. Et GPT-4o d’OpenAI est capable de raisonner en temps réel.

Malgré ces avancées, l’IA n’est toujours pas humaine. Elle ne se soucie pas intrinsèquement de la raison, de la loyauté ou de la sûreté. Son seul objectif est d’accomplir la tâche pour laquelle elle a été programmée.

Il incombe donc aux développeurs d’IA d’y intégrer des valeurs et des objectifs humains. Autrement, un désalignement se produit et les systèmes d’IA peuvent produire des résultats préjudiciables qui conduisent à des biais, à la discrimination et à la désinformation.

Les efforts d’alignement actuels visent à maintenir les systèmes d’IA faibles en phase avec les valeurs et les objectifs humains. Mais les systèmes d’IAG et de SIA peuvent s’avérer exponentiellement plus à risque, plus difficiles à comprendre et à contrôler. Les techniques actuelles d’alignement de l’IA, qui reposent sur l’intelligence humaine, sont très probablement inadéquates pour aligner des systèmes d’IA plus intelligents que l’être humain.

Par exemple, l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est une technique de machine learning dans laquelle un « modèle de récompense » est entraîné à l’aide de commentaires humains. La méthode RLHF a été la technique d’alignement privilégiée par OpenAI pour ses modèles GPT-3 et GPT-4 à la base de ChatGPT, tous considérés comme des modèles d’IA faible. Des techniques d’alignement nettement plus avancées seront nécessaires pour faire en sorte que les systèmes d’IA superintelligents présentent des niveaux similaires de robustesse, d’interprétabilité, de contrôlabilité et d’éthique.