Les progrès de l’optimisation basée sur l’apprentissage par renforcement (RL), qui comprennent à la fois le RL basé sur des règles et le RL basé sur l’apprentissage profond (« deep RL »), ont été au cœur de l’essor des LLM dans des contextes de ce type. Alors que l’apprentissage supervisé et auto-supervisé nécessite des tâches d’entraînement statiques bien définies, le RL est bien adapté aux types de tâches dynamiques, ouvertes et complexes pour lesquelles le raisonnement en plusieurs étapes est le plus utile.
L’utilisation du RL pour affiner les LLM d’une manière qui confère des qualités abstraites n’est pas propre aux modèles de raisonnement. Par exemple, le pipeline d’entraînement standard d’un LLM à utiliser dans des environnements de chatbot est le suivant :
- Le pré-entraînement auto-supervisé, dans lequel le modèle apprend les schémas linguistiques et les connaissances de base à appliquer aux tâches en aval.
- Le réglage fin supervisé (SFT), dans lequel le modèle apprend à correctement mettre en forme ses réponses aux entrées de l’utilisateur.
- Le réglage des instructions, dans lequel le modèle apprend à suivre des instructions et à effectuer des tâches spécifiques.
- L’apprentissage par renforcement à partir des commentaires humains (RLHF), dans lequel le modèle est affiné sur des données de préférences humaines pour transmettre des qualités subjectives telles que l’utilité, l’innocuité, la sincérité et le ton idéal.
Les LLM de raisonnement passent généralement par les mêmes phases d’entraînement, avec l’ajout (à un moment donné) d’une phase d’apprentissage par renforcement qui inculque un processus de raisonnement productif basé sur le CoT. Pour ce faire, on définit les objectifs de ce processus de raisonnement, c’est-à-dire les comportements spécifiques du modèle à « récompenser », comme la génération de traces de raisonnement CoT avant une sortie finale, puis en optimisant les poids du modèle de manière à optimiser la récompense.
Parce qu’il est difficile, voire impossible, de concevoir une fonction de récompense explicite pour une tâche aussi abstraite et complexe qu’un processus de raisonnement qui sera efficace pour toute résolution de problèmes complexes, ce signal de récompense provient souvent d’un modèle de récompense distinct utilisé pendant l’entraînement. Dans le cadre du RLHF, ce modèle de récompense est lui-même entraîné sur le commentaire humain et apprend à prédire un score numérique indiquant dans quelle mesure un humain préférerait une réponse donnée.
Dans le contexte du RL pour les modèles de raisonnement, les signaux de récompense peuvent être divisés en 3 catégories : les modèles de récompense des résultats (ORM), les modèles de récompense des processus (PRM) et les systèmes de récompense basés sur des règles.