Les agents IA sont tout autour de nous. Ces systèmes exécutent des tâches de manière autonome, avec une intervention humaine limitée, souvent d’une manière que nous remarquons à peine.
Prenons l’exemple des véhicules autonomes : ils ressentent leur environnement, évaluent le contexte et prennent des décisions en une fraction de seconde en temps réel. Ils naviguent non pas parce que quelqu’un a codé en dur tous les scénarios possibles, mais parce qu’ils interprètent les signaux en permanence et s’adaptent à l’évolution de l’environnement.
Imaginez maintenant que vous apportiez ce même niveau d’intelligence à un programme de données d’entreprise. Des milliers de jeux de données. Des millions d’enregistrements. Des milliards de décisions fondées sur les données sont prises.
La gestion agentique des données (ADM) rend possible ce niveau d’orchestration. Grâce aux capacités de prise de décision des agents alimentés par l’IA, les entreprises commencent à réinventer la manière dont elles traitent, gouvernent et utilisent leurs données.
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
La gestion des données utilise des agents IA pour coordonner et optimiser l’ensemble du programme des données d’entreprise.1 En voici quelques exemples :
Au lieu de s’appuyer sur des workflows rigides, l’ADM utilise des agents spécialisés pour apporter des informations à chaque étape du cycle de vie des données. Le système peut interpréter les intentions, déterminer les données et les politiques concernées et adapter automatiquement les opérations en fonction de l’évolution des conditions.
Nombre de ces capacités sont rendues possibles par de grands modèles de langage (LLM), qui fournissent la couche de raisonnement à l’intérieur des agents. Les LLM utilisent le traitement automatique du langage naturel pour interpréter l’intention et la traduire en une stratégie de données coordonnée, similaire à la façon dont des outils comme ChatGPT ou Google Gemini interprètent les prompts. Ils s’appuient sur des métadonnées, la traçabilité des données, le machine learning et des règles métier pour déterminer quelles données sont pertinentes, comment elles doivent être validées et gouvernées et comment elles doivent être préparées pour l’analytique en aval.
Ensuite, le système agentique décrit les étapes nécessaires à la réalisation de la tâche de données. Il peut s’agir d’accéder à des sources, d’appliquer des politiques, d’optimiser les workloads, de gérer les comportements de stockage et de produire des résultats fiables.
Ce qui distingue la gestion agentique des données de la gestion des données traditionnelle, c’est qu’elle s’adapte d’elle-même et qu’elle évolue en fonction du contexte. Elle apprend en permanence des signaux et s’ajuste en fonction de l’évolution des conditions au lieu de traiter les workflows comme des artefacts fixes.
Par exemple, un responsable de la chaîne d’approvisionnement peut donner l’instruction « surveillez les flux entrants et résolvez les doublons au fur et à mesure qu’ils apparaissent ». Lorsque de nouvelles commandes arrivent, le système piloté par l’IA interprète l’intention et adapte son plan en temps réel, en fusionnant les dossiers, en signalant les incohérences et en déléguant des tâches aux agents en fonction de l’évolution des conditions.
Bien qu’il s’agisse encore d’une approche émergente, les entreprises utilisent déjà l’ADM pour améliorer la fiabilité de leurs données et leur efficacité opérationnelle dans de nombreux domaines :
Les entreprises génèrent plus de données sur plus de systèmes que jamais auparavant. Mais à mesure que les volumes augmentent et que les architectures deviennent de plus en plus hybrides et distribuées, de nombreuses entreprises peinent encore à transformer ces données complexes en informations fiables et en temps réel. D’ailleurs, 76 % des entreprises admettent avoir pris des décisions sans consulter les données, parce qu’elles étaient trop difficiles d’accès.
Les approches traditionnelles de gestion des données reposent largement sur l’intervention manuelle et humaine, ce qui les rend lentes à s’adapter lorsque les schémas changent, les indicateurs évoluent ou la logique opérationnelle avance. La gestion agentique des données gagne du terrain car elle répond à plusieurs pressions systémiques que les approches traditionnelles ne parviennent pas à gérer :
Le cloud hybride, le multicloud et les entrepôts de données distribués créent des chaînes de dépendances difficiles à maintenir. Les processus manuels ont du mal à évoluer lorsque les jeux de données et les interfaces de programmation d’application (API) évoluent quotidiennement.
La qualité des données a un coût : des KPI erronés, des prévisions mal alignées et des données clients obsolètes qui ont un impact sur les systèmes en aval. Les risques s’accumulent, en particulier dans des secteurs fortement réglementés comme les services financiers et la santé.
Les entreprises d’aujourd’hui fonctionnent avec des systèmes d’analytique en temps réel et d’IA, qui nécessitent des données précises et en temps réel pour répondre aux attentes. Lorsque les pipelines bloquent ou tombent en panne sans prévenir, la latence s’accumule, la prise de décision ralentit et l’efficacité opérationnelle en souffre.
Alors que la demande de données explose, les équipes centralisées chargées des données, qui dépendent toujours d’une intégration et d’une livraison manuelles, peinent à suivre le rythme, ce qui ralentit de plus en plus la prise de décision dans l’ensemble de l’entreprise.
Lorsque la surveillance des données est essentiellement manuelle, les problèmes ont tendance à n’apparaître qu’une fois que les processus en aval sont affectés, ce qui oblige les équipes chargées des données à consacrer un temps disproportionné au débogage réactif au lieu de se consacrer à des tâches à plus forte valeur ajoutée.
Les programmes de données modernes font également face à des défis structurels que les approches manuelles ne peuvent pas résoudre. Plus de 50 % des entreprises s’appuient sur trois outils d’intégration de données ou plus, conduisant à des workflows fragmentés et une logique incohérente entre les équipes. Cette fragmentation entraîne des problèmes plus vastes : les contrôles de qualité sont trop tardifs, les règles de gouvernance dérivent d’un système à l’autre, les ruptures de traçabilité ne sont pas détectées et les définitions sémantiques ne sont pas synchronisées. En réalité, 77 % des entreprises manquent de talents pour gérer une telle complexité.
Ces pressions ont un impact direct sur les équipes de données. Les ingénieurs passent 10 à 30 % de leur temps à découvrir des problèmes de données et 10 à 30 % à les résoudre, soit plus de 770 heures par an et par ingénieur, ou plus de 40 000 dollars de travail gaspillé. Pendant ce temps, les analystes et les utilisateurs métier attendent en moyenne entre 1 et 4 semaines pour obtenir les données dont ils ont besoin, car les tâches d’intégration sont isolées ou bloquées.
La gestion agentique des données représente un changement dans la manière dont les entreprises garantissent l’exactitude, la qualité et l’intégrité des données à l’échelle. Plutôt que de scripter chaque transformation ou de maintenir des règles rigides, les entreprises peuvent introduire des agents IA pour dimensionner la création de pipelines, rationaliser les opérations de données, réduire les goulots d’étranglement et maintenir des données de haute qualité avec beaucoup moins d’interventions manuelles. Avec des opérations plus efficaces et des données fiables tout au long du cycle de vie, les équipes de données peuvent se concentrer sur la stratégie plutôt que sur les tâches de modification.
La gestion agentique des données rassemble quatre composantes essentielles, chacune étant rendue possible par une couche coordonnée de modèles d’IA, d’agents et de technologies sémantiques :
Lorsqu’un utilisateur rédige un prompt ou une demande, un agent utilise ses capacités de raisonnement pour interpréter l’intention. Il élabore un plan qui définit les actifs de données requis, les règles de gouvernance, les considérations sémantiques, les validations et les étapes opérationnelles. D’autres agents évaluent ensuite ce plan à partir de leurs domaines respectifs, confirmant les modèles nécessaires, les règles métier, la traçabilité, les dépendances et les métadonnées de catalogue avant toute action.
Cette orchestration réduit considérablement la nécessité pour les équipes d’assembler manuellement les processus tout au long du cycle de vie des données, ce qui raccourcit le délai d’obtention des données pour l’analytique et aligne les opérations de données sur les objectifs de l’entreprise. Les agents peuvent également lever les ambiguïtés et valider les hypothèses, en intégrant la stratégie des données et les politiques de gouvernance directement dans le plan proposé.
Ensuite, les agents IA réalisent la tâche définie par le plan. Ils accèdent aux données de l’ensemble des systèmes et les interprètent, appliquent des contrôles de gouvernance et de qualité, gèrent le comportement de stockage, exécutent les étapes de traitement des données et préparent les sorties pour une consommation en aval. Les agents peuvent également optimiser les coûts ou la latence, adapter les opérations en cas de défaillance des systèmes et cartographier les dépendances au sein de l’écosystème de données.
Avec autant d’éléments en mouvement, les agents IA aident à garantir que les opérations de données restent fiables lorsque les schémas évoluent ou que les workloads changent. Ils réduisent les tâches répétitives et chronophages tout au long du cycle de vie des données et améliorent l’évolutivité des initiatives de données d’entreprise.
Les systèmes traditionnels de métadonnées décrivent la structure en capturant les champs, les formats et les définitions de schéma. En revanche, les bases de données vectorielles peuvent fonctionner comme une couche sémantique, capturant le sens en représentant la façon dont les éléments de données sont liés et le contexte dans lequel ils sont utilisés. L’un décrit la forme, l’autre révèle sa texture.
Les bases de données vectorielles stockent des embeddings représentant des métriques, des ensembles de données et des termes métier sous forme de vecteurs mathématiques. Cela permet aux systèmes agentiques de mesurer la similarité, de découvrir les relations sémantiques et de détecter les changements de sens, même lorsque le schéma reste le même.
La couche sémantique permet :
Une gouvernance efficace est fondamentale pour la gestion agentique des données. Au lieu de s’appuyer sur des avis, ces systèmes appliquent continuellement des contrôles de politique, de qualité et de sécurité au fil du cycle de vie des données. Des règles de validation et des garanties d’intégrité sont appliquées lors de l’exécution afin de garantir que les résultats restent précis et fiables dans l’ensemble de l’écosystème des données d’entreprise.
Certaines entreprises déploient même des agents « gardiens » légers, de petits agents de surveillance qui surveillent le comportement et la santé des pipelines en temps réel afin de maintenir l’observabilité et de détecter les problèmes avant qu’ils ne compromettent les workflows en aval. Cette supervision supplémentaire permet de maintenir la rapidité et la fiabilité des pipelines automatisés et de les aligner sur les normes de gestion des données d’entreprise.
Ces composants font partie d’un workflow en boucle fermée qui associe intention humaine, planification basée sur les LLM, exécution orchestrée par l’IA et validation continue. Voici un exemple classique d’interaction :
Bien qu’elle soit souvent présentée comme une approche concurrente, la gestion agentique des données améliore la gestion des données de référence (MDM) en la rendant plus dynamique.
La MDM définit les entités de l’entreprise, établit des règles de gouvernance et maintient la cohérence entre les systèmes d’enregistrement. Elle aide à créer un « golden record », une source d’information unique qui intègre des données provenant de diverses sources afin que toute l’entreprise travaille avec les mêmes informations.
L’ADM opérationnalise ces bases en les validant au fur et à mesure que les données se déplacent, en les appliquant à l’ensemble du programme de données et en s’adaptant à l’évolution des conditions.
Les deux approches diffèrent sur plusieurs points importants :
La MDM met à jour les définitions via des processus gouvernés et des cycles de gestion périodiques. L’ADM, elle, détecte les variations au fur et à mesure, telles que les mises à jour de schéma et la redéfinition des indicateurs, et recalibre pour maintenir l’alignement des systèmes en aval.
La MDM établit des enregistrements faisant autorité dans des domaines sélectionnés tels que les clients, les fournisseurs et les produits. De son côté, l’ADM étend cette responsabilité à l’ensemble de l’écosystème des données, en veillant à ce que ces définitions restent cohérentes entre les systèmes opérationnels, les applications et les environnements analytiques.
La MDM gère les données au repos, en optimisant les enregistrements par la mise en correspondance, le nettoyage et la normalisation. L’ADM gère les données en mouvement, en appliquant des garde-fous, en vérifiant leur traçabilité et en validant les données sémantiques à mesure que les données circulent dans l’entreprise.
La MDM repose sur des règles et une supervision humaine : les responsables des données rédigent des cartographies, évaluent les exceptions et mettent à jour les processus. L’ADM utilise une orchestration axée sur l’intention : des agents intelligents interprètent les objectifs commerciaux, élaborent un plan, exécutent et valident les workflows de manière autonome.
La MDM s’adapte au rythme du processus, ne reflétant les changements qu’une fois les workflows de gouvernance achevés. L’ADM s’adapte au rythme du changement, en ajustant la logique et le comportement du pipeline de manière dynamique en fonction de l’évolution des définitions, des jeux de données et des conditions commerciales.
À l’ère d’un commerce fluide et en temps réel, la gestion des données évolue, passant de workflows rigides basés sur des règles à un comportement adaptatif et axé sur l’intention. Les recherches d’IBM sur l’IA, la préparation des données et les modèles d’exploitation mettent en évidence trois changements majeurs qui façonnent ce nouvel environnement de gestion des données.
L’IA agentique déplace les workflows au-delà des scripts statiques, vers un comportement adaptatif et contextuel. Les pipelines répondront à l’évolution des métadonnées, des règles métier, de la charge opérationnelle et des contraintes de gouvernance en modifiant leur trajectoire d’exécution au lieu de les interrompre lorsque les conditions changent.
Dans ces architectures agentiques, les systèmes multi-agents remplacent les plateformes monolithiques : des agents spécialisés s’occupent de l’ingestion, de la qualité, de la traçabilité ou de l’optimisation, tandis qu’un agent superviseur maintient l’alignement avec l’intention et la politique.
Les données adaptées à l’IA dépendent non seulement de l’exactitude des schémas, mais aussi de la cohérence sémantique. Les problèmes de qualité des données d’aujourd’hui sont souvent liés à la dérive des schémas, mais ceux de demain proviendront de la dérive sémantique : des significations commerciales qui évoluent sans changements structurels. Alors que les segments de clientèle ou les hiérarchies de produits évoluent, les systèmes agentiques devront détecter les incohérences de sens, et pas seulement de format.
La mémoire sémantique, la compréhension vectorielle et la validation contextuelle deviennent essentielles pour préserver la fiabilité et l’adaptation à l’IA des données.
Au fur et à mesure que les modèles d’exploitation agentique mûrissent, les ingénieurs des données passent du codage manuel des transformations à la supervision de systèmes autonomes. Cela implique de concevoir des garde-fous, de vérifier les décisions des agents et de résoudre les nouveaux cas edge au fur et à mesure qu’ils se présentent.
Cette évolution place l’explicabilité au cœur du modèle : les traces de raisonnement, les journaux vérifiables et les points de contrôle supervisés par l’humain deviennent nécessaires à la confiance et au respect des règles.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
1 « Can AI Autonomously Build, Operate and Use the Entire Data Stack? » recherche IBM, 8 décembre 2025