Alors que l’intelligence artificielle façonne de plus en plus notre monde, l’un de ses pères fondateurs met en garde contre le battage médiatique et la peur.
Andrew Barto, récemment honoré à l’occasion de la remise du prix Turing, la plus haute distinction dans le domaine de l’informatique, a passé des décennies à développer l’apprentissage par renforcement, la technologie qui alimente désormais tout, des champions d’IA dans les jeux vidéo aux systèmes de découverte de médicaments, en passant par les capacités de raisonnement des grands modèles linguistiques actuels. Dans un entretien accordé à IBM Think, M. Barto propose une évaluation mesurée des progrès, du potentiel et des limites de l’IA, qui met fin à l’optimisme technologique et aux scénarios apocalyptiques.
L’apprentissage par renforcement, l’approche informatique de l’apprentissage par l’interaction que M. Barto a contribué à développer, est devenue omniprésente dans l’environnement actuel de l’IA. Alors que beaucoup l’associent à des exploits qui font la une des journaux, comme la victoire sur des champions du monde dans des jeux complexes, M. Barto voit ses applications les plus significatives dans des domaines plus pratiques.
« Il est déjà utilisé dans de nombreux domaines, notamment en robotique », explique-t-il. « Il existe de grandes possibilités pour les robots d’utiliser l’apprentissage par renforcement afin de leur permettre d’effectuer des mouvements très détaillés et utiles qui pourraient aider les personnes à domicile ou les personnes handicapées ».
M. Barto met en avant des applications médicales où l’apprentissage par renforcement optimise les protocoles de traitement sur de longues périodes, précisément le type de problèmes de prise de décision séquentielle où la technologie excelle.
« L’une des caractéristiques de l’apprentissage par renforcement est qu’il peut traiter des problèmes de décision séquentiels où un certain nombre de décisions sont prises au fil du temps, et dans chaque cas, l’état du système dépend de la décision précédente », dit-il. Cette capacité à gérer les récompenses différées, des conséquences qui ne se matérialisent qu’après une séquence d’actions, représente un défi fondamental que les algorithmes d’apprentissage par renforcement résolvent.
Matt Riemer, ingénieur de recherche en apprentissage profond au laboratoire IBM IA Foundations, évoque des applications encore plus récentes.
« Les chercheurs ont appliqué avec succès des approches basées sur l’apprentissage par renforcement au problème de la découverte de médicaments, où ils commencent à obtenir des résultats très prometteurs », a-t-il confié à Think lors d’un entretien. « Il a récemment réussi à résoudre des problèmes importants tels que l’optimisation et l’automatisation du processus de traitement de l’eau. »
Derrière les capacités impressionnantes des chatbots d’aujourd’hui se cache l’apprentissage par renforcement. M. Riemer explique : « Avec le succès récent des LLM, nous avons vu des cas d’utilisation très médiatisés de RL améliorant leurs capacités. » La première application s’appelle RLHF (apprentissage par renforcement à partir des commentaires humains), qui aide ces systèmes à produire des réponses qui correspondent mieux à ce que les gens attendent.
Si les grands modèles de langage ont attiré l’attention du public grâce à leur capacité à générer des textes semblables à ceux des humains, leur développement doit beaucoup à l’apprentissage par renforcement. Comme l’explique M. Riemer, « plus récemment, nous avons vu le RL émerger comme l’approche la plus importante pour former des modèles dits "de réflexion" qui apprennent une un processus de chaîne de pensée qui améliore les capacités de raisonnement des LLM. »
Les problèmes mathématiques constituent des terrains d’entraînement idéaux pour ces systèmes. « Pour des problèmes tels que le raisonnement mathématique, il est facile de créer des récompenses vérifiables, par exemple "L’agent a-t-il répondu correctement au problème ou non ?", explique M. Riemer. Ces réponses claires, bonnes ou mauvaises, créent ce qu’il appelle un « pseudo-environnement de simulation » où l’IA peut apprendre grâce à une pratique répétée.
L’impact de l’apprentissage par renforcement dépasse la recherche universitaire ou les applications spécialisées. Son influence se fait de plus en plus sentir dans les technologies qui interagissent avec les utilisateurs au quotidien. « Encore une fois, ce n’est certainement que le début, car nous allons probablement voir le RL jouer un rôle encore plus important à mesure que le domaine commence à développer des agents IA qui interagissent avec les navigateurs Web et d’autres outils pour mieux aider les utilisateurs » , prédit-il.
M. Barto conserve l’optimisme prudent d’un scientifique qui a assisté à de nombreux cycles d’engouement autour des technologies. Il reconnaît le défi lorsqu’on l’interroge sur la sécurité et l’alignement de l’IA, c’est-à-dire sur le fait de s’assurer que les systèmes d’IA agissent en fonction des valeurs humaines.
« La question de l’alignement n’est pas anecdotique », explique-t-il. « On peut espérer qu’un système RL puisse demander à une IA d’intégrer les valeurs des humains qui l’utilisent. Espérons que cela arrive. Je n’ai pas d’ordonnance pour ça. »
Pour trouver l’inspiration concernant les récompenses offertes par l’IA, Barto se tourne vers notre cerveau. « Nos mécanismes de récompense proviennent de mécanismes qui ont évolué depuis des millions d’années », explique-t-il. Contrairement aux simples récompenses informatiques, la motivation humaine découle de pressions évolutives complexes qui ont permis à nos ancêtres de survivre et de se reproduire.
Cette perspective évolutionniste nourrit sa réflexion sur l’apprentissage par renforcement multicritères, où les systèmes répondent à plusieurs signaux de récompense plutôt qu’à un seul, reflétant potentiellement la façon dont les différentes parties du cerveau humain traitent les diverses formes de commentaires.
« Je pense que l’apprentissage par renforcement multicritères est vraiment important », remarque M. Barto. « Au lieu d’une seule fonction de récompense, il peut y en avoir plusieurs, et différentes parties du cerveau, par exemple, ont probablement reçu des signaux différents. »
L’apprentissage par renforcement excelle dans les jeux vidéo et les simulations, mais peine dans le monde réel. Pour quelle raison ? Ces systèmes apprennent en découvrant différentes actions, une force dans les environnements virtuels mais un risque majeur dans la réalité. « L’exploration est à la fois le principal argument de vente du RL et son principal facteur limitant pour une utilisation dans le monde réel », explique M. Riemer, soulignant pourquoi les deux chercheurs considèrent cette transition comme un défi critique.
« Dans le monde réel, en dehors de la simulation, l’exploration peut amener l’agent à faire des choses imprévisibles, ce qui constitue une préoccupation majeure pour la sécurité de l’IA », explique-t-il.. « De plus, même pour les cas d’utilisation où nous pouvons tolérer l’exploration, l’efficacité de l’échantillonnage du RL pose problème. On a souvent l’impression qu’il a besoin de découvrir bien plus que ce que ferait un humain dans la même situation ».
M. Barto constate des difficultés similaires : « Cela prendra beaucoup plus de temps parce que les simulations peuvent fonctionner beaucoup, beaucoup plus vite que l’expérience physique dans le monde. » « Si c’est un robot, il apprend par essais et erreurs, et si une erreur entraîne une chute ou quelque chose qui endommage la machine, alors c’est là le problème ».
Cette approche prudente du déploiement réel découle à la fois de considérations pratiques et de sécurité. M. Barto souligne la nécessité de spécifier avec soin les fonctions de récompense « afin que le système ne propose pas quelque chose de vraiment inattendu et susceptible de poser problème ».
Le défi va bien au-delà de la simple mise en œuvre. Comme le souligne M. Riemer, les systèmes d’apprentissage par renforcement doivent également s’adapter à l’évolution des environnements : « Le RL continu étudie la question de savoir comment les agents RL peuvent s’adapter à la nature changeante des environnements du monde réel, c’est-à-dire lorsque le monde est différent de ce qu’il était avant l’entraînement ou lors de l’entraînement sur simulateur. »
Cette adaptabilité pose ce que M? Riemer appelle « le problème classique du ’dilemme stabilité-plasticité’ où l’agent doit décider comment donner la priorité à la performance sur ses nouvelles expériences et à la performance sur ses anciennes expériences. » Cet exercice d’équilibre entre la conservation des connaissances antérieures et l’adaptation à de nouvelles conditions représente un défi permanent dans ce domaine.
Malgré ces obstacles, les chercheurs trouvent des solutions prometteuses en combinant l’apprentissage par renforcement avec d’autres approches d’IA. M. Riemer estime que l’intégration avec de grands modèles de langage est particulièrement prometteuse : « Ce qui manquait vraiment au RL, c’était une capacité à comprendre suffisamment le monde pour pouvoir structurer son exploration de manière plus logique. Nous commençons à voir des preuves que les LLM peuvent être utilisés comme une base solide de connaissance du monde pour construire une formation RL, ce qui est très excitant du point de vue de la réalisation de cas d’utilisation du RL dans le monde réel ».
L’intégration entre l’apprentissage par renforcement et d’autres techniques d’IA évolue rapidement. « La principale tendance que nous observons est la manière dont d’autres méthodes peuvent aider le RL à créer une représentation du monde qu’il pourra utiliser pour l’explorer plus efficacement », explique M. Riemer. « Par exemple, dans les domaines linguistiques, le RL est devenu un outil très efficace utilisé en plus des LLM pré-entraînés. »
Cette relation complémentaire fonctionne dans les deux sens : l’apprentissage par renforcement améliore les modèles de langage, tandis que les modèles offrent aux systèmes d’apprentissage par renforcement une meilleure représentation du monde. « Nous commençons à voir des choses similaires pour des cas d’utilisation comme la robotique ou la création d’agents IA, où le RL devient plus efficace lorsqu’il est associé aux connaissances intégrées dans les VLM qui disposent également de capacités de vision », explique M. Riemer.
Lorsque la conversation porte sur l’intelligence artificielle générale (AGI), c’est-à-dire les systèmes dotés de capacités cognitives humaines dans tous les domaines, M. Barto exprime son scepticisme quant à la probabilité et à l’opportunité en tant qu’objectif de recherche.
« Je ne vois pas l’intérêt de faire de l’intelligence humaine un objectif », déclare-t-il de manière honnête. « L’objectif de comprendre comment fonctionne l’intelligence humaine est différent de celui de créer des machines qui atteignent le niveau humain. »
Une frontière particulièrement intrigante identifiée par M. Barto est celle des systèmes d’apprentissage par renforcement multi-agents, dans lesquels plusieurs agents d’apprentissage interagissent, potentiellement avec des objectifs différents. Cette approche a non seulement des implications pour le développement de l’IA, mais elle pourrait également mettre en lumière le fonctionnement de notre propre cerveau.
« L’hypothèse selon laquelle les neurones sont des agents d’apprentissage par renforcement et le cerveau est une société d’agents interagissant qui pourraient avoir des objectifs différents » reste une « hypothèse originale », reconnaît-il, mais elle a des implications potentielles pour les neurosciences.
Pour M. Barto, les contributions les plus précieuses de l’apprentissage par renforcement ne résident peut-être pas dans la création d’une intelligence semblable à celle de l’humain, mais dans la résolution de problèmes spécifiques qui améliorent la vie humaine, un héritage peut-être plus significatif que le prix Turing lui-même.
