Au-delà du triptyque agent-environnement-objectif, quatre sous-éléments principaux caractérisent les problèmes d’apprentissage par renforcement.
- Politique. Le comportement de l’agent RL est défini en établissant une correspondance entre les états perçus de l’environnement et les actions que l’agent doit entreprendre lorsqu’il se trouve dans ces états. Il peut s’agir d’une fonction rudimentaire ou d’un processus informatique plus complexe. Par exemple, la politique guidant un véhicule autonome peut associer la détection des piétons à l’action d’arrêt.
- Signal de récompense. Il s’agit de l’objectif du problème RL. Chaque action de l’agent RL reçoit ou non une récompense de la part de son environnement. Le seul objectif de l’agent est de maximiser ses récompenses cumulées dans cet environnement. Pour les véhicules autonomes, le signal de récompense peut prendre diverses formes : réduire le temps de trajet ou le nombre de collisions, rester sur la route et sur la bonne voie, éviter les accélérations et décélérations extrêmes, etc. Cet exemple montre que le RL peut intégrer plusieurs signaux de récompense pour guider un agent.
- Fonction de valeur. Contrairement au signal de récompense, qui représente un avantage immédiat, la fonction de valeur est un avantage à long terme. La valeur désigne l’attrait d’un état par rapport à tous ceux qui sont susceptibles de suivre (avec les récompenses associées). Pour réduire le temps de trajet, un véhicule autonome peut quitter sa voie, rouler sur le trottoir et accélérer brusquement, mais ces trois actions peuvent réduire sa fonction de valeur globale. Ainsi, en tant qu’agent RL, le véhicule optera pour un temps de trajet légèrement plus long pour augmenter sa récompense dans ces trois domaines.
– Modèle. Il s’agit d’un élément facultatif des systèmes d’apprentissage par renforcement. Les modèles permettent aux agents de prédire le comportement de l’environnement selon les actions possibles. Les agents s’appuient ensuite sur les prédictions du modèle pour déterminer les actions possibles en fonction des résultats potentiels. Il peut s’agir du modèle qui guide le véhicule autonome et qui l’aide à prédire les meilleurs itinéraires, à savoir ce que l’on peut attendre des véhicules environnants, compte tenu de leur position et de leur vitesse, etc.7 Certaines approches axées sur les modèles utilisent une rétroaction humaine directe lors de l’apprentissage initial, avant de passer à l’apprentissage autonome.