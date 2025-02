La littérature spécialisée oppose souvent l’apprentissage par renforcement à l’apprentissage supervisé et non supervisé. L’apprentissage supervisé s’appuie sur des données étiquetées manuellement pour faire des prédictions ou des classifications. L’apprentissage non supervisé vise à découvrir et à apprendre les schémas cachés dans les données non étiquetées. Contrairement à l’apprentissage supervisé, l’apprentissage par renforcement n’utilise pas d’exemples étiquetés de comportements corrects ou incorrects. Autre différence, l’apprentissage par renforcement s’appuie sur la méthode essai-erreur et sur la fonction de récompense, au lieu d’extraire des informations à partir des schémas cachés.2

Avec les méthodes d’apprentissage supervisé et non supervisé, on part du principe que chaque enregistrement de données d’entrée est indépendant des autres au sein du jeu de données, mais que chaque enregistrement actualise un modèle de distribution des données sous-jacent commun. Les modèles apprennent à prédire, et leur performance est mesurée selon la maximisation de la précision des prédictions.

Avec l’apprentissage par renforcement, en revanche, l’agent apprend à agir. Les données d’entrée sont considérées comme étant des tuples interdépendants, c’est-à-dire des séquences ordonnées de données, organisées en état-action-récompense. De nombreuses applications d’algorithmes d’apprentissage par renforcement visent à imiter les méthodes d’apprentissage du monde réel grâce au renforcement positif.

Notez que, si les deux sont rarement comparés dans la littérature spécialisée, l’apprentissage par renforcement est également distinct de l’apprentissage auto-supervisé. Ce dernier est une forme d’apprentissage non supervisé qui utilise des pseudo-étiquettes produites à partir de données d’entraînement non étiquetées comme « vérité terrain » pour mesurer la précision du modèle. L’apprentissage par renforcement, quant à lui, ne produit pas de pseudo-étiquettes. Il ne s’appuie pas non plus sur la vérité terrain, puisqu’il ne s’agit pas d’une méthode de classification, mais d’un apprentissage par l’action. Associés, les deux donnent toutefois des résultats prometteurs.3