Vue aérienne d’un chantier de construction

Gestion agentique des données : la prochaine évolution des écosystèmes de données d’entreprise

Les agents IA sont tout autour de nous. Ces systèmes exécutent des tâches de manière autonome, avec une intervention humaine limitée, souvent d’une manière que nous remarquons à peine.

Prenons l’exemple des véhicules autonomes : ils ressentent leur environnement, évaluent le contexte et prennent des décisions en une fraction de seconde en temps réel. Ils naviguent non pas parce que quelqu’un a codé en dur tous les scénarios possibles, mais parce qu’ils interprètent les signaux en permanence et s’adaptent à l’évolution de l’environnement.

Imaginez maintenant que vous apportiez ce même niveau d’intelligence à un programme de données d’entreprise. Des milliers de jeux de données. Des millions d’enregistrements. Des milliards de décisions fondées sur les données sont prises.

La gestion agentique des données (ADM) rend possible ce niveau d’orchestration. Grâce aux capacités de prise de décision des agents alimentés par l’IA, les entreprises commencent à réinventer la manière dont elles traitent, gouvernent et utilisent leurs données.

Qu’est-ce que la gestion agentique des données ?

La gestion des données utilise des agents IA pour coordonner et optimiser l’ensemble du programme des données d’entreprise.1 En voici quelques exemples :

Au lieu de s’appuyer sur des workflows rigides, l’ADM utilise des agents spécialisés pour apporter des informations à chaque étape du cycle de vie des données. Le système peut interpréter les intentions, déterminer les données et les politiques concernées et adapter automatiquement les opérations en fonction de l’évolution des conditions.

Nombre de ces capacités sont rendues possibles par de grands modèles de langage (LLM), qui fournissent la couche de raisonnement à l’intérieur des agents. Les LLM utilisent le traitement automatique du langage naturel pour interpréter l’intention et la traduire en une stratégie de données coordonnée, similaire à la façon dont des outils comme ChatGPT ou Google Gemini interprètent les prompts. Ils s’appuient sur des métadonnées, la traçabilité des données, le machine learning et des règles métier pour déterminer quelles données sont pertinentes, comment elles doivent être validées et gouvernées et comment elles doivent être préparées pour l’analytique en aval.

Ensuite, le système agentique décrit les étapes nécessaires à la réalisation de la tâche de données. Il peut s’agir d’accéder à des sources, d’appliquer des politiques, d’optimiser les workloads, de gérer les comportements de stockage et de produire des résultats fiables.

Ce qui distingue la gestion agentique des données de la gestion des données traditionnelle, c’est qu’elle s’adapte d’elle-même et qu’elle évolue en fonction du contexte. Elle apprend en permanence des signaux et s’ajuste en fonction de l’évolution des conditions au lieu de traiter les workflows comme des artefacts fixes.

Par exemple, un responsable de la chaîne d’approvisionnement peut donner l’instruction « surveillez les flux entrants et résolvez les doublons au fur et à mesure qu’ils apparaissent ». Lorsque de nouvelles commandes arrivent, le système piloté par l’IA interprète l’intention et adapte son plan en temps réel, en fusionnant les dossiers, en signalant les incohérences et en déléguant des tâches aux agents en fonction de l’évolution des conditions.

Bien qu’il s’agisse encore d’une approche émergente, les entreprises utilisent déjà l’ADM pour améliorer la fiabilité de leurs données et leur efficacité opérationnelle dans de nombreux domaines :

  • Automatisation de la qualité des données et de la validation : détecter les dérives, les incohérences et les changements inattendus au fur et à mesure que les données se déplacent au sein de l’entreprise.
  • Intégration de données en libre-service : transformer les demandes d’intégration en langage naturel en pipelines gouvernés et prêts à l’emploi.
  • Conformité pour les données en mouvement : s’assurer que les données restent conformes lorsqu’elles se déplacent, en utilisant des mesures d’observabilité continue pour faire respecter les exigences de qualité, de traçabilité et réglementaires.
  • Enrichissement en fonction du contexte : mettre à jour des classifications et des attributs au fur et à mesure de l’évolution de la logique d’entreprise.
  • Optimisation de l’orchestration : ajuster des chemins d’exécution en fonction des coûts, des performances ou des conditions du système.

Pourquoi la gestion agentique des données est-elle importante ?

Les entreprises génèrent plus de données sur plus de systèmes que jamais auparavant. Mais à mesure que les volumes augmentent et que les architectures deviennent de plus en plus hybrides et distribuées, de nombreuses entreprises peinent encore à transformer ces données complexes en informations fiables et en temps réel. D’ailleurs, 76 % des entreprises admettent avoir pris des décisions sans consulter les données, parce qu’elles étaient trop difficiles d’accès.

Les approches traditionnelles de gestion des données reposent largement sur l’intervention manuelle et humaine, ce qui les rend lentes à s’adapter lorsque les schémas changent, les indicateurs évoluent ou la logique opérationnelle avance. La gestion agentique des données gagne du terrain car elle répond à plusieurs pressions systémiques que les approches traditionnelles ne parviennent pas à gérer :

Complexité croissante et architectures fragmentées

Le cloud hybride, le multicloud et les entrepôts de données distribués créent des chaînes de dépendances difficiles à maintenir. Les processus manuels ont du mal à évoluer lorsque les jeux de données et les interfaces de programmation d’application (API) évoluent quotidiennement.

Coût élevé des données de mauvaise qualité

La qualité des données a un coût : des KPI erronés, des prévisions mal alignées et des données clients obsolètes qui ont un impact sur les systèmes en aval. Les risques s’accumulent, en particulier dans des secteurs fortement réglementés comme les services financiers et la santé.

Demande pour la prise de décision en temps réel

Les entreprises d’aujourd’hui fonctionnent avec des systèmes d’analytique en temps réel et d’IA, qui nécessitent des données précises et en temps réel pour répondre aux attentes. Lorsque les pipelines bloquent ou tombent en panne sans prévenir, la latence s’accumule, la prise de décision ralentit et l’efficacité opérationnelle en souffre.

Contraintes de capacité pour les équipes de données

Alors que la demande de données explose, les équipes centralisées chargées des données, qui dépendent toujours d’une intégration et d’une livraison manuelles, peinent à suivre le rythme, ce qui ralentit de plus en plus la prise de décision dans l’ensemble de l’entreprise.

Le fardeau de la surveillance réactive

Lorsque la surveillance des données est essentiellement manuelle, les problèmes ont tendance à n’apparaître qu’une fois que les processus en aval sont affectés, ce qui oblige les équipes chargées des données à consacrer un temps disproportionné au débogage réactif au lieu de se consacrer à des tâches à plus forte valeur ajoutée.

Les programmes de données modernes font également face à des défis structurels que les approches manuelles ne peuvent pas résoudre. Plus de 50 % des entreprises s’appuient sur trois outils d’intégration de données ou plus, conduisant à des workflows fragmentés et une logique incohérente entre les équipes. Cette fragmentation entraîne des problèmes plus vastes : les contrôles de qualité sont trop tardifs, les règles de gouvernance dérivent d’un système à l’autre, les ruptures de traçabilité ne sont pas détectées et les définitions sémantiques ne sont pas synchronisées. En réalité, 77 % des entreprises manquent de talents pour gérer une telle complexité.

Ces pressions ont un impact direct sur les équipes de données. Les ingénieurs passent 10 à 30 % de leur temps à découvrir des problèmes de données et 10 à 30 % à les résoudre, soit plus de 770 heures par an et par ingénieur, ou plus de 40 000 dollars de travail gaspillé. Pendant ce temps, les analystes et les utilisateurs métier attendent en moyenne entre 1 et 4 semaines pour obtenir les données dont ils ont besoin, car les tâches d’intégration sont isolées ou bloquées.

La gestion agentique des données représente un changement dans la manière dont les entreprises garantissent l’exactitude, la qualité et l’intégrité des données à l’échelle. Plutôt que de scripter chaque transformation ou de maintenir des règles rigides, les entreprises peuvent introduire des agents IA pour dimensionner la création de pipelines, rationaliser les opérations de données, réduire les goulots d’étranglement et maintenir des données de haute qualité avec beaucoup moins d’interventions manuelles. Avec des opérations plus efficaces et des données fiables tout au long du cycle de vie, les équipes de données peuvent se concentrer sur la stratégie plutôt que sur les tâches de modification.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Composantes clés de la gestion agentique des données

La gestion agentique des données rassemble quatre composantes essentielles, chacune étant rendue possible par une couche coordonnée de modèles d’IA, d’agents et de technologies sémantiques :

  • Interpréter l’intention
  • Exécuter des plans
  • Appliquer un contexte sémantique
  • Appliquer la gouvernance

Interpréter l’intention

Lorsqu’un utilisateur rédige un prompt ou une demande, un agent utilise ses capacités de raisonnement pour interpréter l’intention. Il élabore un plan qui définit les actifs de données requis, les règles de gouvernance, les considérations sémantiques, les validations et les étapes opérationnelles. D’autres agents évaluent ensuite ce plan à partir de leurs domaines respectifs, confirmant les modèles nécessaires, les règles métier, la traçabilité, les dépendances et les métadonnées de catalogue avant toute action.

Cette orchestration réduit considérablement la nécessité pour les équipes d’assembler manuellement les processus tout au long du cycle de vie des données, ce qui raccourcit le délai d’obtention des données pour l’analytique et aligne les opérations de données sur les objectifs de l’entreprise. Les agents peuvent également lever les ambiguïtés et valider les hypothèses, en intégrant la stratégie des données et les politiques de gouvernance directement dans le plan proposé.

Exécuter des plans

Ensuite, les agents IA réalisent la tâche définie par le plan. Ils accèdent aux données de l’ensemble des systèmes et les interprètent, appliquent des contrôles de gouvernance et de qualité, gèrent le comportement de stockage, exécutent les étapes de traitement des données et préparent les sorties pour une consommation en aval. Les agents peuvent également optimiser les coûts ou la latence, adapter les opérations en cas de défaillance des systèmes et cartographier les dépendances au sein de l’écosystème de données.

Avec autant d’éléments en mouvement, les agents IA aident à garantir que les opérations de données restent fiables lorsque les schémas évoluent ou que les workloads changent. Ils réduisent les tâches répétitives et chronophages tout au long du cycle de vie des données et améliorent l’évolutivité des initiatives de données d’entreprise.

Appliquer un contexte sémantique

Les systèmes traditionnels de métadonnées décrivent la structure en capturant les champs, les formats et les définitions de schéma. En revanche, les bases de données vectorielles peuvent fonctionner comme une couche sémantique, capturant le sens en représentant la façon dont les éléments de données sont liés et le contexte dans lequel ils sont utilisés. L’un décrit la forme, l’autre révèle sa texture.

Les bases de données vectorielles stockent des embeddings représentant des métriques, des ensembles de données et des termes métier sous forme de vecteurs mathématiques. Cela permet aux systèmes agentiques de mesurer la similarité, de découvrir les relations sémantiques et de détecter les changements de sens, même lorsque le schéma reste le même.

La couche sémantique permet :

Mettre en œuvre la gouvernance

Une gouvernance efficace est fondamentale pour la gestion agentique des données. Au lieu de s’appuyer sur des avis, ces systèmes appliquent continuellement des contrôles de politique, de qualité et de sécurité au fil du cycle de vie des données. Des règles de validation et des garanties d’intégrité sont appliquées lors de l’exécution afin de garantir que les résultats restent précis et fiables dans l’ensemble de l’écosystème des données d’entreprise.

Certaines entreprises déploient même des agents « gardiens » légers, de petits agents de surveillance qui surveillent le comportement et la santé des pipelines en temps réel afin de maintenir l’observabilité et de détecter les problèmes avant qu’ils ne compromettent les workflows en aval. Cette supervision supplémentaire permet de maintenir la rapidité et la fiabilité des pipelines automatisés et de les aligner sur les normes de gestion des données d’entreprise.

La gestion agentique des données en action

Ces composants font partie d’un workflow en boucle fermée qui associe intention humaine, planification basée sur les LLM, exécution orchestrée par l’IA et validation continue. Voici un exemple classique d’interaction :

  1. Un utilisateur exprime son intention : il fournit une instruction en langage naturel telle que « Combine les données de CRM et de la chaîne d’approvisionnement et détecte les anomalies ».
  2. Un plan est élaboré : un agent de planification alimenté par un LLM analyse l’instruction, identifie les jeux de données pertinents et élabore une stratégie alignée sur les politiques de gouvernance et la stratégie de données.
  3. Le plan est exécuté : des agents dédiés se connectent aux systèmes, extraient les données des entrepôts et des API, harmonisent les schémas, appliquent des transformations, valident les résultats et enrichissent les attributs, le tout, en temps réel.
  4. Le système met en place des garde-fous au fur et à mesure de son exécution : les politiques de gouvernance des données et les contrôles sémantiques sont appliqués automatiquement à chaque étape. La logique de supervision (la couche agent qui évalue et applique les garde-fous) surveille l’activité en temps réel et bloque les actions qui vont à l’encontre des normes.
  5. Le workflow s’adapte aux changements : si un schéma change, qu’une dépendance est rompue ou qu’une définition d’entreprise évolue, le système planifie à nouveau les étapes et adapte le modèle d’orchestration.

Gestion agentique des données et gestion des données de référence

Bien qu’elle soit souvent présentée comme une approche concurrente, la gestion agentique des données améliore la gestion des données de référence (MDM) en la rendant plus dynamique.

La MDM définit les entités de l’entreprise, établit des règles de gouvernance et maintient la cohérence entre les systèmes d’enregistrement. Elle aide à créer un « golden record », une source d’information unique qui intègre des données provenant de diverses sources afin que toute l’entreprise travaille avec les mêmes informations.

L’ADM opérationnalise ces bases en les validant au fur et à mesure que les données se déplacent, en les appliquant à l’ensemble du programme de données et en s’adaptant à l’évolution des conditions.

Les deux approches diffèrent sur plusieurs points importants :

Gestion des changements

La MDM met à jour les définitions via des processus gouvernés et des cycles de gestion périodiques. L’ADM, elle, détecte les variations au fur et à mesure, telles que les mises à jour de schéma et la redéfinition des indicateurs, et recalibre pour maintenir l’alignement des systèmes en aval.

Étendue des responsabilités

La MDM établit des enregistrements faisant autorité dans des domaines sélectionnés tels que les clients, les fournisseurs et les produits. De son côté, l’ADM étend cette responsabilité à l’ensemble de l’écosystème des données, en veillant à ce que ces définitions restent cohérentes entre les systèmes opérationnels, les applications et les environnements analytiques.

Orientation opérationnelle

La MDM gère les données au repos, en optimisant les enregistrements par la mise en correspondance, le nettoyage et la normalisation. L’ADM gère les données en mouvement, en appliquant des garde-fous, en vérifiant leur traçabilité et en validant les données sémantiques à mesure que les données circulent dans l’entreprise.

Modèle d’exécution

La MDM repose sur des règles et une supervision humaine : les responsables des données rédigent des cartographies, évaluent les exceptions et mettent à jour les processus. L’ADM utilise une orchestration axée sur l’intention : des agents intelligents interprètent les objectifs commerciaux, élaborent un plan, exécutent et valident les workflows de manière autonome.

Capacité d’adaptation

La MDM s’adapte au rythme du processus, ne reflétant les changements qu’une fois les workflows de gouvernance achevés. L’ADM s’adapte au rythme du changement, en ajustant la logique et le comportement du pipeline de manière dynamique en fonction de l’évolution des définitions, des jeux de données et des conditions commerciales.

Préparer l’avenir de la gestion des données

À l’ère d’un commerce fluide et en temps réel, la gestion des données évolue, passant de workflows rigides basés sur des règles à un comportement adaptatif et axé sur l’intention. Les recherches d’IBM sur l’IA, la préparation des données et les modèles d’exploitation mettent en évidence trois changements majeurs qui façonnent ce nouvel environnement de gestion des données.

Les pipelines se comporteront plutôt qu’ils ne s’exécuteront

L’IA agentique déplace les workflows au-delà des scripts statiques, vers un comportement adaptatif et contextuel. Les pipelines répondront à l’évolution des métadonnées, des règles métier, de la charge opérationnelle et des contraintes de gouvernance en modifiant leur trajectoire d’exécution au lieu de les interrompre lorsque les conditions changent.

Dans ces architectures agentiques, les systèmes multi-agents remplacent les plateformes monolithiques : des agents spécialisés s’occupent de l’ingestion, de la qualité, de la traçabilité ou de l’optimisation, tandis qu’un agent superviseur maintient l’alignement avec l’intention et la politique.

La sémantique compte autant que la structure

Les données adaptées à l’IA dépendent non seulement de l’exactitude des schémas, mais aussi de la cohérence sémantique. Les problèmes de qualité des données d’aujourd’hui sont souvent liés à la dérive des schémas, mais ceux de demain proviendront de la dérive sémantique : des significations commerciales qui évoluent sans changements structurels. Alors que les segments de clientèle ou les hiérarchies de produits évoluent, les systèmes agentiques devront détecter les incohérences de sens, et pas seulement de format.

La mémoire sémantique, la compréhension vectorielle et la validation contextuelle deviennent essentielles pour préserver la fiabilité et l’adaptation à l’IA des données.

Les équipes chargées des données passeront du statut de constructeurs à celui de superviseurs

Au fur et à mesure que les modèles d’exploitation agentique mûrissent, les ingénieurs des données passent du codage manuel des transformations à la supervision de systèmes autonomes. Cela implique de concevoir des garde-fous, de vérifier les décisions des agents et de résoudre les nouveaux cas edge au fur et à mesure qu’ils se présentent.

Cette évolution place l’explicabilité au cœur du modèle : les traces de raisonnement, les journaux vérifiables et les points de contrôle supervisés par l’humain deviennent nécessaires à la confiance et au respect des règles.

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

  1. Découvrir les solutions de gestion des données
  2. Découvrir watsonx.data
Notes de bas de page

1 « Can AI Autonomously Build, Operate and Use the Entire Data Stack? » recherche IBM, 8 décembre 2025