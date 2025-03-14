L’apprentissage par renforcement excelle dans les jeux vidéo et les simulations, mais peine dans le monde réel. Pour quelle raison ? Ces systèmes apprennent en découvrant différentes actions, une force dans les environnements virtuels mais un risque majeur dans la réalité. « L’exploration est à la fois le principal argument de vente du RL et son principal facteur limitant pour une utilisation dans le monde réel », explique M. Riemer, soulignant pourquoi les deux chercheurs considèrent cette transition comme un défi critique.

« Dans le monde réel, en dehors de la simulation, l’exploration peut amener l’agent à faire des choses imprévisibles, ce qui constitue une préoccupation majeure pour la sécurité de l’IA », explique-t-il.. « De plus, même pour les cas d’utilisation où nous pouvons tolérer l’exploration, l’efficacité de l’échantillonnage du RL pose problème. On a souvent l’impression qu’il a besoin de découvrir bien plus que ce que ferait un humain dans la même situation ».

M. Barto constate des difficultés similaires : « Cela prendra beaucoup plus de temps parce que les simulations peuvent fonctionner beaucoup, beaucoup plus vite que l’expérience physique dans le monde. » « Si c’est un robot, il apprend par essais et erreurs, et si une erreur entraîne une chute ou quelque chose qui endommage la machine, alors c’est là le problème ».

Cette approche prudente du déploiement réel découle à la fois de considérations pratiques et de sécurité. M. Barto souligne la nécessité de spécifier avec soin les fonctions de récompense « afin que le système ne propose pas quelque chose de vraiment inattendu et susceptible de poser problème ».

Le défi va bien au-delà de la simple mise en œuvre. Comme le souligne M. Riemer, les systèmes d’apprentissage par renforcement doivent également s’adapter à l’évolution des environnements : « Le RL continu étudie la question de savoir comment les agents RL peuvent s’adapter à la nature changeante des environnements du monde réel, c’est-à-dire lorsque le monde est différent de ce qu’il était avant l’entraînement ou lors de l’entraînement sur simulateur. »

Cette adaptabilité pose ce que M? Riemer appelle « le problème classique du ’dilemme stabilité-plasticité’ où l’agent doit décider comment donner la priorité à la performance sur ses nouvelles expériences et à la performance sur ses anciennes expériences. » Cet exercice d’équilibre entre la conservation des connaissances antérieures et l’adaptation à de nouvelles conditions représente un défi permanent dans ce domaine.

Malgré ces obstacles, les chercheurs trouvent des solutions prometteuses en combinant l’apprentissage par renforcement avec d’autres approches d’IA. M. Riemer estime que l’intégration avec de grands modèles de langage est particulièrement prometteuse : « Ce qui manquait vraiment au RL, c’était une capacité à comprendre suffisamment le monde pour pouvoir structurer son exploration de manière plus logique. Nous commençons à voir des preuves que les LLM peuvent être utilisés comme une base solide de connaissance du monde pour construire une formation RL, ce qui est très excitant du point de vue de la réalisation de cas d’utilisation du RL dans le monde réel ».

L’intégration entre l’apprentissage par renforcement et d’autres techniques d’IA évolue rapidement. « La principale tendance que nous observons est la manière dont d’autres méthodes peuvent aider le RL à créer une représentation du monde qu’il pourra utiliser pour l’explorer plus efficacement », explique M. Riemer. « Par exemple, dans les domaines linguistiques, le RL est devenu un outil très efficace utilisé en plus des LLM pré-entraînés. »

Cette relation complémentaire fonctionne dans les deux sens : l’apprentissage par renforcement améliore les modèles de langage, tandis que les modèles offrent aux systèmes d’apprentissage par renforcement une meilleure représentation du monde. « Nous commençons à voir des choses similaires pour des cas d’utilisation comme la robotique ou la création d’agents IA, où le RL devient plus efficace lorsqu’il est associé aux connaissances intégrées dans les VLM qui disposent également de capacités de vision », explique M. Riemer.

Lorsque la conversation porte sur l’intelligence artificielle générale (AGI), c’est-à-dire les systèmes dotés de capacités cognitives humaines dans tous les domaines, M. Barto exprime son scepticisme quant à la probabilité et à l’opportunité en tant qu’objectif de recherche.

« Je ne vois pas l’intérêt de faire de l’intelligence humaine un objectif », déclare-t-il de manière honnête. « L’objectif de comprendre comment fonctionne l’intelligence humaine est différent de celui de créer des machines qui atteignent le niveau humain. »

Une frontière particulièrement intrigante identifiée par M. Barto est celle des systèmes d’apprentissage par renforcement multi-agents, dans lesquels plusieurs agents d’apprentissage interagissent, potentiellement avec des objectifs différents. Cette approche a non seulement des implications pour le développement de l’IA, mais elle pourrait également mettre en lumière le fonctionnement de notre propre cerveau.

« L’hypothèse selon laquelle les neurones sont des agents d’apprentissage par renforcement et le cerveau est une société d’agents interagissant qui pourraient avoir des objectifs différents » reste une « hypothèse originale », reconnaît-il, mais elle a des implications potentielles pour les neurosciences.

Pour M. Barto, les contributions les plus précieuses de l’apprentissage par renforcement ne résident peut-être pas dans la création d’une intelligence semblable à celle de l’humain, mais dans la résolution de problèmes spécifiques qui améliorent la vie humaine, un héritage peut-être plus significatif que le prix Turing lui-même.