Qu’est-ce qu’un agent d’IA apprenant ?

Auteurs

Cole Stryker

Staff Editor, AI Models

IBM Think

Comment les agents d’IA apprennent-ils et s’adaptent-ils au fil du temps ?

L’apprentissage d’un agent d’IA fait référence au processus par lequel un agent d’intelligence artificielle (IA) améliore ses performances au fil du temps en interagissant avec son environnement, en traitant les données et en optimisant sa prise de décision. Ce processus d’apprentissage permet aux agents autonomes de s’adapter, d’améliorer l’efficacité et de gérer des tâches complexes dans des environnements dynamiques. L’apprentissage est un composant fondamental de nombreux systèmes d’IA agentique.

Les types d’agents d’IA ne sont pas tous capables d’apprendre. Certains sont de simples agents réflexes qui enregistrent passivement des données et, dépourvus de capacités d’apprentissage, exécutent des actions programmées de manière réactive en réponse à ces données.

Certains agents réflexes basés sur des modèles peuvent raisonner sur leur environnement, d’autres proactifs basés sur des objectifs peuvent poursuivre des buts spécifiques, mais ces agents n’apprennent pas. Les agents basés sur l’utilité, qui utilisent une fonction utilitaire pour évaluer et sélectionner les actions qui maximisent le bénéfice global, ne le peuvent pas non plus.

Un agent apprenant améliore ses performances au fil du temps en s’adaptant aux nouvelles expériences et données. D'autres agents d’IA travaillent avec des règles ou des modèles prédéfinis, tandis que les agents apprenants mettent continuellement à jour leur comportement en fonction des retours d’information de l’environnement.

Cela leur permet d’améliorer leurs capacités de prise de décision et d’être plus performants dans des situations dynamiques et incertaines. Les agents apprenants représentent tout le potentiel des outils d’IA pour gérer des workloads de résolution de problèmes à plusieurs étapes avec une intervention humaine minimale.

Les agents apprenants se composent généralement de quatre éléments principaux :

  1. Élément de performance : prend des décisions éclairées à partir d’une base de connaissances.

  2. Élément d’apprentissage : ajuste et améliore les connaissances de l’agent en fonction des retours d’information et de l’expérience acquise.

  3. Critique : évalue les actions de l’agent et fournit un retour d’information, souvent sous forme de récompenses ou de sanctions.

  4. Générateur de problèmes : suggère des actions exploratoires pour aider l’agent à découvrir de nouvelles stratégies et à améliorer son apprentissage.

Les dernières actualités technologiques, étayées par des avis d’expert

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Types d’agents d’IA apprenants

Le machine learning (ML) constitue l’épine dorsale des différents types d’agents d’IA apprenants. Il permet aux agents d’identifier des schémas, de faire des prédictions et d’améliorer les performances en fonction des données.

Les trois principales techniques de machine learning utilisées par les agents d’IA sont l’apprentissage supervisé, l’apprentissage non supervisé et l’apprentissage par renforcement. Plus précisément, il s’agit de techniques d’apprentissage profond qui utilisent des réseaux neuronaux complexes comportant de nombreuses couches pour traiter d’énormes quantités de données et apprendre des modèles complexes.

Apprentissage supervisé

L’apprentissage supervisé consiste à entraîner des algorithmes de machine learning sur des ensembles de données étiquetés, où chaque entrée correspond à une sortie connue. L’agent utilise ces informations pour créer des modèles prédictifs.

Par exemple, les chatbots d’IA peuvent être entraînés sur les conversations de service client et les résolutions correspondantes pour fournir des réponses prédites. Cette approche est largement appliquée dans la reconnaissance d’images, le traitement Speech to Text et les diagnostics médicaux.

L’apprentissage par transfert permet aux agents d’IA d’utiliser les connaissances acquises pendant une tâche et de les appliquer à une autre. Par exemple, un grand modèle de langage (LLM) entraîné sur un ensemble de données généraliste peut être adapté à un domaine spécifique, tel que le traitement de textes juridiques ou médicaux.

Apprentissage non supervisé

En revanche, l’apprentissage non supervisé permet aux agents d’IA d’analyser les données non étiquetées afin de détecter des schémas et des structures sans supervision humaine.

Cette méthode est utile dans des tâches comme le partitionnement des comportements client pour améliorer les stratégies marketing, la détection des anomalies dans la cybersécurité et les systèmes de recommandation tels que ceux utilisés par les services de streaming.

L’apprentissage auto-supervisé utilise l’apprentissage non supervisé pour des tâches qui, habituellement, nécessitent un apprentissage supervisé. Au lieu de s’appuyer sur des ensembles de données étiquetés pour les signaux de supervision, les modèles d’IA auto-supervisés génèrent des étiquettes implicites à partir de données non structurées.

L’apprentissage auto-supervisé est utile dans des domaines tels que la vision par ordinateur et le traitement automatique du langage naturel (NLP), qui nécessitent de grandes quantités de données d’entraînement étiquetées.

Apprentissage par renforcement

L’apprentissage par renforcement est un processus de machine learning axé sur les workflows décisionnels dans les agents autonomes. Il traite les processus décisionnels séquentiels dans les environnements incertains.

Contrairement à l’apprentissage supervisé, l’apprentissage par renforcement n’utilise pas d’exemples étiquetés de comportements corrects ou incorrects. Cependant, l’apprentissage par renforcement diffère également de l’apprentissage non supervisé en ce sens qu’il s’appuie sur la méthode essai-erreur et sur la fonction de récompense, plutôt que d’extraire des informations à partir de schémas cachés.

L’apprentissage par renforcement se distingue également de l’apprentissage auto-supervisé car il ne produit pas de pseudo-étiquettes ni de mesures par rapport à la vérité terrain. Il ne s’agit pas d’une méthode de classification, mais d’un apprentissage par l’action.

Les agents d’IA utilisant l’apprentissage par renforcement fonctionnent selon un processus d’essais et d’erreurs, où ils prennent des mesures dans un environnement, observent les résultats et ajustent leurs stratégies en conséquence. Le processus d’apprentissage consiste à définir une politique qui associe les états aux actions, en optimisant les récompenses cumulées à long terme plutôt que les gains immédiats.

Au fil du temps, l’agent affine ses capacités de prise de décision grâce à des interactions répétées, améliorant progressivement sa capacité à effectuer efficacement des tâches complexes. Cette approche est bénéfique dans les environnements dynamiques où les règles prédéfinies ne suffisent pas toujours à garantir une performance optimale.

L’apprentissage par renforcement est utilisé dans les véhicules autonomes pour apprendre les comportements de conduite optimaux. Par essais et erreurs, l’IA améliore sa capacité à circuler sur les routes, à éviter les obstacles et à prendre des décisions de conduite en temps réel. Les chatbots alimentés par l’IA améliorent leurs capacités conversationnelles en apprenant des interactions avec les utilisateurs et en optimisant les réponses pour renforcer l’engagement.

Apprentissage continu

L’apprentissage continu des agents d’IA fait référence à la capacité d’un système d’intelligence artificielle à apprendre et à s’adapter au fil du temps, en intégrant de nouvelles données et expériences sans oublier les connaissances antérieures.

Contrairement au machine learning conventionnel qui implique généralement un entraînement sur un ensemble de données fixe, l’apprentissage continu permet à l’IA de mettre à jour ses modèles en permanence au fur et à mesure qu’elle rencontre de nouvelles informations ou des changements dans son environnement. Cela permet à l’agent d’améliorer ses performances en temps réel, en s’adaptant à de nouveaux modèles, à l’évolution des situations et aux conditions dynamiques.

L’apprentissage continu est important dans les applications réelles où les données évoluent constamment et où l’IA doit rester à jour avec de nouvelles entrées pour rester efficace. Il permet d’éviter l’« oubli catastrophique » dans lequel le modèle oublie les anciennes connaissances lors de l’apprentissage de nouvelles informations, et contribue à s’assurer que le système peut gérer un ensemble de tâches et de défis en constante évolution.

Apprentissage et collaboration multiagents

L’un des avantages des agents d’IA est qu’ils peuvent travailler ensemble. Dans les architectures multiagents, les agents d’IA apprennent grâce à la collaboration et à la compétition. Dans l’apprentissage coopératif, les agents partagent leurs connaissances pour atteindre un objectif commun, comme observé dans la robotique Swarm.

Cependant, l’apprentissage compétitif se produit lorsque les agents affinent leurs stratégies en se faisant concurrence dans des environnements antagonistes, tels que l’IA de trading financier.

Imaginez un réseau d’agents d’IA travaillant à améliorer les soins prodigués aux patients, à rationaliser les workflows, à promouvoir le respect des considérations éthiques et à optimiser l’allocation des ressources au sein d’un réseau hospitalier.

Dans ces frameworks multiagents, un agent d’apprentissage plus avancé équipé d’une IA générative supervise parfois des agents réflexifs ou basés sur des objectifs plus simples. Dans ce cas d’utilisation, chaque agent pourrait représenter un rôle ou une tâche différent au sein du système de santé, et ils collaboreraient et partageraient des informations afin d’améliorer les résultats pour les patients et l’efficacité opérationnelle.

Agents d'AI

5 types d’agents d’IA : fonctions autonomes et applications du monde réel

Découvrez comment l’IA axée sur les objectifs et la fonctionnalité s’adapte aux workflows et aux environnements complexes.

Mécanismes de rétroaction

Grâce aux mécanismes de rétroaction, un système d’IA reçoit des informations sur les résultats de ses actions ou de ses prédictions, ce qui lui permet d’évaluer la précision et l’efficacité de son comportement.

Ces retours d’information, qui peuvent être positifs (renforçant un comportement correct) ou négatifs (pénalisant un comportement incorrect), sont essentiels pour guider les décisions du système et améliorer ses performances. Si les retours sont un élément essentiel de l’apprentissage en IA, ils ne constituent pas la totalité du processus d’apprentissage.

Les retours d’information en temps réel sont cruciaux pour les agents d’IA opérant dans les environnements dynamiques. Les systèmes autonomes, tels que les voitures autonomes et l’automatisation robotisée des processus (RPA), collectent en permanence des données sur les capteurs et ajustent leur comportement en fonction des retours d’information immédiats. Cela leur permet de s’adapter aux conditions changeantes et d’améliorer leur prise de décision en temps réel.

Rétroaction dans l’apprentissage non supervisé

Dans l’apprentissage non supervisé, les retours d’information ne sont pas explicitement fournis sous la forme de données étiquetées ou de supervision directe. À la place, l’agent d’IA recherche des schémas, des structures ou des relations au sein des données elles-mêmes.

Par exemple, dans les tâches de partitionnement ou de réduction de la dimensionnalité, la rétroaction existe de façon implicite lorsque l’agent ajuste son modèle pour représenter au mieux la structure sous‑jacente des données.

Le modèle affine sa compréhension des données grâce à des indicateurs tels que la minimisation des erreurs, par exemple, la réduction de l’erreur de reconstruction dans les auto-encodeurs ou l’optimisation d’un critère spécifique comme la maximisation de la similarité des données dans le cluster.

Dans un système de gestion de la chaîne d’approvisionnement qui doit prédire la demande de produits et optimiser les niveaux de stock dans plusieurs entrepôts et magasins, un agent d’IA pourrait utiliser des techniques d’apprentissage non supervisées, telles que le partitionnement ou la détection d’anomalies, pour analyser de grands volumes de données historiques sur les ventes, sans avoir besoin d’étiquettes explicites ou de catégories prédéfinies.

Rétroaction dans l’apprentissage supervisé

Dans l’apprentissage supervisé, les retours sont explicites et se présentent sous la forme de données étiquetées. L’agent d’IA est entraîné à l’aide de paires d’entrée/sortie (par exemple, une image avec une étiquette correspondante). Une fois que l’agent a effectué ses prédictions, le retour d’information est assuré en comparant sa sortie à l’étiquette correcte (vérité terrain).

La différence entre la sortie prédite et la sortie réelle (erreur) est calculée, souvent à l’aide d’une fonction de perte. Ces retours sont ensuite utilisés pour ajuster les paramètres du modèle afin que celui-ci puisse améliorer ses prévisions au fil du temps.

Les agents d’IA peuvent utiliser l’apprentissage supervisé pour prédire les produits ou services susceptibles d’intéresser un client en fonction de son comportement passé, de son historique d’achat ou de ses préférences utilisateur.

Par exemple, une solution d’IA pour une plateforme de commerce électronique peut utiliser des données historiques telles que les achats précédents et les évaluations comme exemples étiquetés pour entraîner un modèle qui prédit les produits qu’un client pourrait vouloir acheter ensuite, améliorant ainsi l’expérience client.

L’apprentissage supervisé est considéré comme un apprentissage de type « human-in-the-loop » (HITL), car les agents d’IA intègrent les retours d’information pour affiner leurs modèles, améliorer la prise de décision et s’adapter aux nouvelles situations.

Cette méthode combine l’apprentissage automatisé avec l’expertise humaine, permettant à l’IA de gérer des tâches complexes plus efficacement tout en minimisant les erreurs et les biais. Le HITL peut également être intégré en tant que mécanisme de rétroaction dans d’autres types d’apprentissage, mais il ne fait partie intégrante que du processus d’apprentissage auto-supervisé.

Rétroaction dans l’apprentissage par renforcement

Dans l’apprentissage par renforcement (RL), les retours d’information sont fournis sous la forme de récompenses ou de pénalités. Un agent RL interagit avec un environnement, effectuant des actions qui mènent à des résultats différents. Après chaque action, l’agent reçoit une appréciation sous la forme d’une récompense ou d’une pénalité évolutive qui indique si le résultat était bon ou mauvais par rapport à l’objectif.

L’agent utilise ces retours pour ajuster sa politique ou sa stratégie décisionnelle, afin de maximiser les récompenses accumulées au fil du temps. Cette boucle de rétroaction permet à l’agent d’apprendre des actions ou des stratégies optimales par essais et erreurs, affinant son comportement au fur et à mesure qu’il découvre l’environnement.

Rétroaction dans l’apprentissage auto-supervisé

Dans l’apprentissage auto-supervisé, l’agent génère ses propres étiquettes à partir des données, créant ainsi une forme de rétroaction à partir de la structure au sein des données elles-mêmes. Le modèle utilise certaines parties des données pour en prédire d’autres, comme prédire les mots manquants dans une phrase ou prédire les images futures dans une vidéo.

Les retours d’information proviennent de la comparaison des prédictions du modèle avec les données manquantes ou futures réelles. L’agent apprend en minimisant l’erreur de prédiction, affinant ses représentations internes sur la base de ces appréciations auto-générées.

Solutions connexes
Agents d’IA pour les entreprises

Créez, déployez et gérez de puissants assistants et agents IA qui automatisent les workflows et les processus grâce à l’IA générative.

    Explorez watsonx Orchestrate
    Solutions d’agents d’IA IBM

    Construisez l’avenir de votre entreprise avec des solutions d’IA en lesquelles vous pouvez avoir confiance.

    Découvrir les solutions d’agents d’IA
    Services d’IA IBM Consulting

    IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

    Découvrez les services d’intelligence artificielle
    Passez à l’étape suivante

    Que vous choisissiez de personnaliser des applications et des compétences prédéfinies ou de créer et de déployer des services agentiques personnalisés à l’aide d’un studio d’IA, la plateforme IBM watsonx est là pour vous.

    Explorez watsonx Orchestrate Découvrir watsonx.ai