Qu’est-ce que la perception des agents d’IA ?

Auteurs

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que la perception des agents d’IA ?

La perception des agents IA désigne la capacité d’un agent d’intelligence artificielle (IA) à collecter, interpréter et traiter des données provenant de son environnement afin de prendre des décisions éclairées. Cela implique l’utilisation de capteurs, de données ou de sources externes pour comprendre l’état actuel du système dans lequel il opère.

Le processus de perception permet à un agent alimenté par l’IA de réagir aux changements du monde réel, de s’adapter à des environnements dynamiques et de gérer efficacement des tâches complexes.

Les agents perçoivent d’abord leur environnement, puis ils traitent les données collectées afin de prendre une décision. Un agent IA sans perception serait un système basé sur des règles ou un programme logique qui fonctionne uniquement à partir d’entrées prédéfinies et d’états internes, plutôt que d’interagir de manière dynamique avec l’environnement.

En d’autres termes, ce ne serait pas un agent. La perception est un élément essentiel qui rend les agents IA véritablement intelligents et utiles dans les applications du monde réel.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Types de perception des agents d’IA

En fonction de leur objectif et des capteurs disponibles, les systèmes d’IA peuvent percevoir le monde à travers la vision, le son, le texte, les facteurs environnementaux et l’analyse prédictive.

Ces différents types de perception permettent aux agents IA d’interagir avec le monde qui les entoure, d’optimiser les workflows, d’améliorer l’automatisation et bien plus encore.

Perception visuelle

La perception visuelle permet aux agents d’interpréter et de réagir au monde à travers des images, des vidéos et d’autres données visuelles. Cette capacité imite la vue humaine, permettant à l’IA de reconnaître des objets et de comprendre les environnements.

Les progrès réalisés dans le domaine de la vision par ordinateur et de l’apprentissage profond ont amélioré la perception visuelle de l’IA, ce qui a conduit à des avancées majeures dans de nombreux domaines, tels que les véhicules autonomes, les soins de santé et la robotique.

À mesure que les modèles IA deviendront plus sophistiqués, les agents IA présenteront de plus en plus une compréhension visuelle similaire à celle des humains, ce qui leur permettra de fonctionner de manière autonome et sûre dans des scénarios complexes du monde réel.

Perception auditive

La perception auditive permet aux agents de traiter et de comprendre les sons. Grâce à cette capacité, l’IA interprète la parole, reconnaît les bruits environnementaux et interagit avec les utilisateurs par le biais de la communication vocale.

Les progrès réalisés dans le domaine du traitement automatique du langage naturel (NLP) et de l’apprentissage profond ont considérablement amélioré la perception auditive de l’IA, ce qui a conduit à une large diffusion des applications de l’IA dans les assistants virtuels, les outils d’accessibilité et les systèmes de surveillance.

La reconnaissance vocale automatique (ASR) est l’une des principales technologies à l’origine de la perception auditive de l’IA. Les systèmes ASR convertissent le langage parlé en texte, permettant ainsi aux assistants vocaux tels que Siri, Alexa et Google Assistant de comprendre et de répondre aux commandes des utilisateurs.

Ces systèmes s’appuient sur des réseaux de neurones et de vastes jeux de données pour améliorer leur précision, même dans des environnements bruyants ou avec des accents différents.

Au-delà de la parole, l’IA peut analyser d’autres sons, par exemple pour diagnostiquer des troubles médicaux grâce à l’analyse des sons respiratoires ou détecter des anomalies dans les équipements industriels.

Perception textuelle

La perception textuelle permet aux agents de traiter, d’interpréter et de générer du texte. Les agents utilisent le NLP pour extraire le sens du texte et faciliter la communication dans diverses applications, telles que les chatbots, les moteurs de recherche et les outils de résumé automatique. Les progrès réalisés dans les grands modèles de langage (LLM) basés sur des transformeurs, tels que GPT-4, ont amélioré la capacité de l’IA à comprendre et à raisonner à partir de textes.

La compréhension sémantique est l’un des éléments clés de la perception textuelle. Elle permet à l’IA d’aller au-delà de la simple reconnaissance des mots et d’en saisir le sens dans un contexte spécifique. Elle est essentielle pour des cas d’utilisation tels que la traduction automatique, l’analyse des sentiments et l’analyse de documents juridiques ou médicaux.

De plus, la reconnaissance des entités nommées (NER) permet à l’IA d’identifier des personnes, des lieux et des organisations spécifiques, ce qui améliore sa capacité à extraire des informations précieuses à partir de grands jeux de données, une fonctionnalité précieuse dans des domaines tels que le marketing et l’expérience client.

Perception environnementale

La perception environnementale des agents IA se distingue de la perception auditive et visuelle, car elle implique une compréhension multimodale plus large de l’environnement, intégrant des données provenant de divers capteurs au-delà de la vue et de l’ouïe.

Les progrès de la vision par ordinateur, de la fusion des capteurs et du machine learning ont considérablement amélioré la capacité de l’IA à percevoir et à interagir avec le monde physique.

Contrairement à la vision ou à l’ouïe seules, la perception environnementale fusionne plusieurs entrées sensorielles (vision, son, LiDAR, toucher) pour créer une compréhension holistique d’un environnement. Les agents IA peuvent ainsi mapper et naviguer dans leur environnement à l’aide de la physique du monde réel, tandis que la perception visuelle et auditive se concentre davantage sur la reconnaissance passive.

Si la vision et l’ouïe imitent les capacités des agents humains, la perception environnementale va au-delà en intégrant des radars, des capteurs de température et de pression, permettant ainsi à l’IA de percevoir ce que les humains ne peuvent pas détecter.

Perception prédictive

La perception prédictive permet aux agents d’anticiper des événements futurs à partir de données observées. Contrairement à la perception traditionnelle, qui se focalise sur l’interprétation de l’environnement présent, la perception prédictive permet à l’IA de prévoir des changements, de déduire des intentions et d’adapter son comportement de manière proactive.

Les capacités prédictives de l’IA relèvent souvent davantage de l’analyse, de la prévision ou de l’inférence que de la perception au sens traditionnel du terme. Cependant, la perception prédictive peut être considérée comme une catégorie distincte dans laquelle l’IA ne se contente pas de percevoir l’environnement, mais anticipe également son évolution, en intégrant la perception à un raisonnement prospectif.

Les modèles de machine learning (ML), l’apprentissage profond, la modélisation probabiliste et l’apprentissage par renforcement sont au cœur de la perception prédictive. Les systèmes d’IA analysent des données historiques et en temps réel pour identifier des tendances et formuler des prédictions.

Alors que l’analyse prédictive s’appuie sur des données historiques et des modèles statistiques, la perception prédictive implique une détection en temps réel associée au forecasting, ce qui la rend plus dynamique et plus réactive à l’environnement immédiat. Bien qu’il s’agisse d’un concept hybride, la perception prédictive comble le fossé entre la détection et la prévision, permettant aux agents IA non seulement de comprendre le présent, mais aussi de se préparer à l’avenir en temps réel.

Agents d'AI

5 types d’agents d’IA : fonctions autonomes et applications du monde réel

Découvrez comment l’IA axée sur les objectifs et la fonctionnalité s’adapte aux workflows et aux environnements complexes.

Fonctionnement de la perception des agents

Les agents IA évoluent au sein d’un écosystème composé d’autres outils, applications et cadres. Ils se connectent via des interfaces de programmation des applications (API), qui leur permettent de s’intégrer à des bases de connaissances et à des systèmes externes. Dans des scénarios tels que le développement logiciel, les agents IA contribuent à optimiser le code, à réduire la latence et à automatiser des tâches spécifiques.
Dans le domaine de l’IA générative, ils peuvent créer des résultats tels que du texte, des images ou de la musique à partir des données qu’ils perçoivent, en s’appuyant sur des modèles d’apprentissage profond entraînés sur de vastes volumes de données.

Cependant, les agents doivent d’abord être capables de percevoir. Bien que les processus diffèrent selon la conception et le type d’agent, voici les étapes principales de la perception agentique :

1. Collecte des données sensorielles

Les agents IA collectent des données brutes provenant de diverses sources, telles que des caméras (pour la vision), des microphones (pour le son), des radars LiDAR (pour la perception spatiale) et des capteurs de pression ou de température (pour la détection environnementale). Ces informations sensorielles sont au cœur de la perception.

2. Traitement des données et extraction des caractéristiques

Une fois collectées, les données sont prétraitées afin d’éliminer le bruit et de mettre en évidence les caractéristiques importantes. Ainsi, en vision par ordinateur, les réseaux de neurones convolutifs (CNN) analysent les images pour détecter des objets, des visages ou des mouvements. En reconnaissance vocale, les modèles d’apprentissage profond transforment les ondes audio en texte.

3. Reconnaissance et interprétation des modèles

À l’aide d’algorithmes de machine learning, l’IA détecte des modèles, des relations et des indices contextuels. Les modèles de NLP, tels que les transformeurs, aident l’IA à comprendre et à générer le langage humain, tandis que l’apprentissage par renforcement permet aux robots de percevoir leur environnement et de s’y adapter de manière dynamique.

4. Prise de décision et réponse

La perception engendre l’action. Les agents IA s’appuient sur des modèles d’inférence pour décider comment réagir en fonction des données perçues. Un véhicule autonome, par exemple, identifie les piétons et les panneaux de signalisation, puis adapte sa conduite en temps réel.

Comment les différents types d’agents perçoivent-ils ?

Le fonctionnement et la perception des agents peuvent varier considérablement selon leur type, leur objectif et les technologies sur lesquelles ils reposent. Ils peuvent aller de simples agents réflexes qui réagissent à des stimuli immédiats à des agents complexes capables d’apprendre, qui s’adaptent et améliorent leur perception au fil du temps.

Agents réflexes simples

Les agents réflexes réactifs perçoivent l’environnement à l’aide de capteurs et réagissent directement, souvent à l’aide d’actionneurs, sur la base de règles prédéfinies, sans conserver aucune mémoire des événements passés. Leur perception se limite souvent aux entrées sensorielles actuelles.

Agents réflexes basés sur des modèles

Les agents réflexes équipés de modèles améliorent les agents simples en conservant un modèle interne du monde. Ils perçoivent l’environnement à l’aide de capteurs, mais ils se servent également d’états internes pour suivre les changements du monde au fil du temps.

Agents basés sur des objectifs

Les agents axés sur les objectifs perçoivent l’environnement afin de poursuivre des objectifs spécifiques. Ils ont recours à des capteurs pour recueillir des informations et évaluer dans quelle mesure les états actuels correspondent à leurs objectifs.

Agents basés sur l’utilité

Les agents basés sur l’utilité ne se contentent pas de poursuivre des objectifs, ils évaluent également les différentes actions possibles à l’aide d’une fonction d’utilité qui détermine la mesure dans laquelle chaque action permet d’atteindre les objectifs. Ces agents s’appuient sur leur perception pour analyser l’environnement, puis choisissent les actions qui maximisent leur satisfaction ou leur performance globale.

Agents apprenants

Les agents apprenants perçoivent l’environnement et prennent des décisions basées à la fois sur les entrées des capteurs et sur leurs expériences passées. Ils disposent d’un composant, tel qu’un algorithme d’apprentissage, qui leur permet d’améliorer leurs performances au fil du temps en apprenant de leurs interactions. Ces agents adaptent leurs processus de perception et de prise de décision en fonction du retour d’information.

Systèmes multi-agents

Les systèmes multi-agents (MAS) abordent la perception en permettant à plusieurs agents autonomes de partager des informations, de collaborer et d’interpréter collectivement leur environnement.

Plutôt que de s’appuyer sur les données sensorielles d’un seul agent, les systèmes multi-agents adoptent une approche distribuée, parfois hiérarchique, de la perception, dans laquelle chaque agent peut percevoir différents aspects de l’environnement et apporter des informations à une compréhension commune.

Cette perception collective améliore la capacité globale du système à gérer des environnements complexes et dynamiques.

En outre, les techniques de fusion de capteurs sont fréquemment utilisées dans les systèmes multi-agents afin d’associer les données sensorielles provenant de divers agents et de créer une perception plus précise et plus holistique de l’environnement.

Cette approche peut également inclure des techniques telles que le raisonnement distribué, où les agents partagent leurs observations, mettent à jour leurs modèles internes sur la base des données partagées et collaborent pour prendre des décisions collectives, comme dans le cas des missions de recherche et de sauvetage ou des systèmes de surveillance distribués.

Les architectures multi-agents recourent également à l’apprentissage collaboratif. Au fur et à mesure que les agents interagissent et échangent des informations, ils peuvent apprendre les uns des autres, améliorant ainsi la perception collective et la prise de décision du système. Cette perception distribuée permet aux systèmes multi-agents d’être plus adaptatifs, évolutifs et capables de résoudre des problèmes complexes avec une intervention humaine minimale.

Solutions connexes
Agents d’IA pour les entreprises

Créez, déployez et gérez de puissants assistants et agents IA qui automatisent les workflows et les processus grâce à l’IA générative.

    Explorez watsonx Orchestrate
    Solutions d’agents d’IA IBM

    Construisez l’avenir de votre entreprise avec des solutions d’IA en lesquelles vous pouvez avoir confiance.

    Découvrir les solutions d’agents d’IA
    Services d’IA IBM Consulting

    IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

    Découvrez les services d’intelligence artificielle
    Passez à l’étape suivante

    Que vous choisissiez de personnaliser des applications et des compétences prédéfinies ou de créer et de déployer des services agentiques personnalisés à l’aide d’un studio d’IA, la plateforme IBM watsonx est là pour vous.

    Explorez watsonx Orchestrate Découvrir watsonx.ai