Qu’est-ce que l’ingénierie des données d’IA agentique ?

By Alice Gomstyn , Alexandra Jonker

Ingénierie des données d'IA agentique, définition

L'ingénierie des données en IA agente est le déploiement d'agents IA pour l'amélioration et l'accélération de la création et de la maintenance des systèmes qui agrègent et analysent les données.

Comme son nom l'indique, l'ingénierie des données de l'IA agentique est la fusion de l'ingénierie des données et de l'IA agentique. La première est la pratique qui consiste à développer et à maintenir l'infrastructure de données et lespipelines de données qui font partie intégrante de la gestion des données.

Ce dernier fait référence à des systèmes d’ intelligence artificielle capables d’accomplir des objectifs spécifiques avec une supervision humaine limitée. Dans le cadre d'un système multi-agents, les sous-tâches exécutées par plusieurs agents IA - des modèlesd'apprentissage machine qui imitent la prise de décision humaine - sont coordonnées par l'orchestration de l'IA

En ingénierie des données, les agents d’IA peuvent réaliser des processus de résolution de problèmes en plusieurs étapes, essentiels pour garantir la disponibilité de données de haute qualité pour les cas d’usage en entreprise. Ces processus incluent la conception de pipelines de données et l’exécution de tâches critiques de traitement de données, telles que la réalisation de transformations des données et la détection de problèmes de données.

Également connue sous le nom d'ingénierie des données agentiques, l'ingénierie des données basée sur l'IA agentique peut réduire de manière significative la charge de travail des équipes d'ingénierie des données tout en optimisant les performances des pipelines de données. De plus, l'ingénierie des données de l'IA agentique peut permettre aux utilisateurs professionnels d'accéder aux données de l'entreprise et d'en tirer des informations, même s'ils n'ont pas de compétences techniques.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Pourquoi l'IA agentique est-elle importante pour l'ingénierie des données ?

Pour comprendre pourquoi les systèmes d'IA agentique sont adoptés pour l'ingénierie des données, il est utile d'examiner de plus près la nature de l'ingénierie des données moderne.

L’ingénierie des données est essentielle pour les entreprises cherchant à débloquer de la valeur dans des écosystèmes de données de plus en plus vastes et complexes. Les ingénieurs de données contribuent à la structure et au bon fonctionnement des workflows, qui convertissent les données brutes en sorties apportant une valeur ajoutée à l’entreprise. Lorsqu’elle est mise en œuvre avec succès, l’ingénierie des données permet de fournir des jeux de données propres, précis et opportuns qui peuvent être analysés pour générer des informations exploitables ou utilisés pour alimenter des initiatives d’IA.

Alors que les organisations s'appuient de plus en plus sur la prise de décision basée sur les données, y compris la prise de décision sensible au temps basée sur les données en temps réel, la nécessité de disposer de pipelines de données fiables n'a jamais été aussi grande. Mais les défis liés à la maintenance de tels pipelines n’ont jamais été aussi grands — les ingénieurs de données sont désormais chargés de superviser des piles de données et des processus d’orchestration de plus en plus complexes.

Cela signifie inévitablement que les équipes chargées des données consacrent une grande partie de leur temps à la gestion des urgences. En d'autres termes, ils se concentrent sur la maintenance et le dépannage pour adresse les problèmes liés au pipeline de données et, pire encore, les défaillances de ce dernier.

« Lorsque les équipes d'ingénierie des données créent des pipelines, les ingénieurs s'appuient souvent sur une combinaison de tâches planifiées, de procédures stockées, de scripts complexes et d'une logique de transformation. Et chacun de ces éléments fonctionne ensemble afin de maintenir la circulation du flux de données. Parfois, lorsqu'un simple changement de schéma ou un renommage de colonne se produit sur un système source, cela peut entraîner des heures de débogage et de nouveaux tests », a expliqué Justin Yan, chef de produit senior pour IBM Data & IA, dans une vidéo d'IBM Technologie.

Heureusement, il est désormais possible de déployer des agents IA pour prendre en charge une grande partie de ce travail et éviter que les problèmes ne surviennent. Les agents intelligents peuvent « résoudre les problèmes d’intégration de données, en aidant à planifier et à surveiller les défis liés aux données puis à s’y adapter, afin que celles-ci soient acheminées là où elles sont nécessaires, avec la qualité et la ponctualité requises par vos workloads », explique M. Yan.

Technologies clés utilisées dans l’ingénierie des données d’IA agentique

Une combinaison de technologies soutient le déploiement de l'IA agentique pour l'ingénierie des données.

Agents IA

Un agent IA est un système qui exécute des tâches de manière autonome en concevant des workflows à l’aide des outils disponibles—y compris les workflows de données. Les agents utilisent les techniques de traitement automatique du langage naturel des grands modèles de langage pour comprendre et répondre aux entrées utilisateur, étape par étape, et déterminer quand utiliser des outils externes.

Traitement automatique du langage naturel

Le traitement automatique du langage naturel (NLP) est un sous-domaine de l’informatique et de l’ IA qui utilise le machine learning pour permettre aux ordinateurs de comprendre et de communiquer en langage humain. La PNL joue un rôle croissant dans les solutions d'entreprise qui permettent de rationaliser et d'automatiser les opérations commerciales.

Machine learning

Machine learning est le sous-ensemble de l'IA axé sur des algorithmes capables de « apprendre » les modèles des données d'entraînement. Ces algorithmes utilisent ensuite cette reconnaissance des formes pour faire des déductions précises sur les nouvelles données. Le machine learning constitue l’épine dorsale de la plupart des systèmes d’IA modernes, y compris les grands modèles de langage et autres outils d’IA générative.

Grands modèles de langage

Les grands modèles de langage (LLM) sont un type de modèle d'apprentissage profond capable de comprendre et de générer du langage naturel et d'autres types de contenu pour effectuer une multitude de tâches. Leurs capacités proviennent des techniques de traitement automatique du langage naturel et de l’entraînement sur d’énormes quantités de données, qui les aident à gérer le langage humain non structuré à l’échelle.

Comment fonctionne l'ingénierie des données d'IA agentic ?

Bien que l’utilisation d’agents autonomes pour l’ingénierie des données puisse varier selon le système de données et l’équipe d’ingénierie, voici un aperçu de la façon dont les systèmes alimentés par l’IA peuvent gérer différents processus et tâches d’ingénierie des données tout au long du cycle de vie des données.

Création de pipelines de données

L'ingénierie des données de l'IA agentique permet aux entreprises d'automatiser la création de pipelines de données. Les utilisateurs peuvent exprimer leur intention concernant les résultats d'un pipeline en langage naturel, sans définir les étapes nécessaires pour obtenir les résultats souhaités. C'est à l'agent d'IA de déterminer le fonctionnement du pipeline. C'est ce que l'on appelle la création déclarative de pipelines et c'est une alternative à l'approche plus pratique qui consiste à codage chaque étape du pipeline.

Après qu’un utilisateur a envoyé une requête en langage naturel, lesLLM analysent cette requête et comprennent l’intention de l’utilisateur. Ensuite, un agent IA conçoit et souvent met en œuvre un processus de bout en bout qui comprend :

Connexion et ingestion à partir des sources de données
Application des transformations de données
Transfert de nouvelles données vers un système cible

Les utilisateurs possédant des connaissances techniques plus approfondies peuvent choisir de spécifier la structure du pipeline de données demandé. Pour ce faire, ils peuvent s’appuyer sur un kit de développement logiciel (SDK) Python, qui permet aux LLM d’écrire et d’exécuter des scripts Python en fonction des requêtes utilisateur pour diverses tâches liées aux données (par exemple, sélectionner une source ou effectuer un nettoyage des données).

Exécution des tâches

Une fois le pipeline conçu, un système d'IA agentique peut exécuter les charges de travail. Les agents d'IA font appel à des outils pour interagir avec des outils externes, des interfaces de programmation d'applications (API) ou des systèmes nécessaires pour se connecter à des sources de données, comprendre les métadonnées et effectuer des transformations.

Les agents sélectionnent également le chemin d’exécution optimal pour les workflows de données dans des environnements hybrides. Cela inclut le choix dynamique des meilleures approches d’intégration (streaming entemps réel,ETL/ELT ou réplication par lots) et des environnements d’exécution (sur site, dans un environnement cloud ou via des moteurs pushdown et distants) pour chaque partie du travail.

L'apprentissage par renforcement peut aider les agents à améliorer les plans de pipeline au fil du temps en récompensant les parcours de pipeline correctement configurés et terminés.

Surveillance continue

Un système agentique peut favoriser l’observabilité en surveillant en permanence les pipelines. Les agents peuvent détecter les dérives de schéma, les anomalies de données et les problèmes de qualité des données. Ils peuvent également soutenir l’analyse de cause racine des problèmes de pipeline, recommander des étapes de résolution et exécuter ces étapes.

L'exécution autonome des correctifs de pipeline peut s'avérer particulièrement utile à des moments peu propices. « Que se passe-t-il si une tâche de nuit échoue ? Au lieu d'appeler quelqu'un, l'agent peut réessayer les exécutions, augmenter les moteurs et ajuster automatiquement la logique de flux », explique John Wen, chef de produit chez IBM, dans une vidéo Technologie d'IBM.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Quels sont les avantages de l'ingénierie des données de l'IA agentique ?

L'ingénierie des données par IA agentique offre de nombreux avantages aux organisations, à leurs équipes de données et à leurs utilisateurs professionnels. En voici quelques exemples :

Gestion de la complexité dans les environnements de données

L'un des principaux défis auxquels sont confrontés les ingénieurs de données aujourd'hui est de gérer les données dans des environnements complexes et cloisonnés : différents clouds, entrepôts de données, lacs de données, serveurs sur site, etc. Certaines données sont organisées dans des feuilles de calcul et des bases de données SQL, mais une grande partie est non structurée sous forme de documents, e-mails, transcriptions et images. Dans un système d’entreprise, les agents IA peuvent se connecter à une variété de sources de données et intégrer divers formats de données, créant ainsi des plateformes de données unifiées permettant des analyses plus riches et des prévisions plus précises.

Améliorer la qualité des données

Les agents IA peuvent automatiser le profilage des données, leur validation, la création de règles, la surveillance et la résolution. « Les agents sont en mesure de détecter les changements de colonnes ou les incohérences de types, et de proposer des correctifs avant l’échec des tâches. Des contrôles continus des anomalies, des remplissages automatiques et des réacheminements autour des sources de données défaillantes contribueront à préserver la fiabilité des données pour les utilisations en aval dans les systèmes d’IA », explique M. Yan.

Amélioration de l’efficacité

Les agents IA peuvent évaluer différentes stratégies d'exécution et identifier les obstacles et complications potentiels, tels que les dépendances cachées dans différentes piles d'applications. En intégrant ces informations dans la conception du pipeline, ils peuvent élaborer des plans qui minimisent la consommation de ressources et le temps opérationnel tout en atteignant les objectifs de données.

De plus, à mesure que l’infrastructure ou les schémas changent, les systèmes agents peuvent s’adapter et réutiliser les pipelines existants, aidant les entreprises à éviter l’accumulation de pipelines obsolètes et de dettes techniques.

Soutenir la conformité réglementaire

La conception des pipelines et la surveillance continue par des agents d'IA peuvent garantir que les données sensibles sont conformes aux lois sur la protection des données telles que la loi américaine HIPAA (Health Insurance Portability and Accountability Act de 1996) et le Règlement général sur la protection des données (RGPD) de l'Union européenne. De plus, le suivi de la lignée par les agents IA peut soutenir la transparence et l’auditabilité.

Fournir un service en libre-service pour les utilisateurs professionnels

Les utilisateurs professionnels ayant peu ou pas d'expertise technique n'ont plus à s'en remettre exclusivement à des professionnels des données pour les aider à répondre à leurs besoins en la matière. Ils peuvent demander la création ou la fourniture de jeux de données auprès d'agents IA, ce qui les aidera à obtenir des informations clés plus rapidement.

Favoriser une croissance évolutive

Les agents IA peuvent concevoir, construire et exécuter des pipelines de données entièrement fonctionnels en une fraction du temps qu’il faudrait aux équipes chargées des données pour coder manuellement de tels pipelines. Les agents IA peuvent également rendre ces pipelines adaptables et capables d’« auto-réparation », c’est-à-dire qu’ils peuvent surveiller et corriger les anomalies avant qu’elles ne perturbent les processus en aval. Dans l’ensemble, cela signifie que les entreprises peuvent continuer à ajouter des pipelines en toute confiance à mesure que leurs parcs de données et leurs besoins en données augmentent et évoluent.

Augmenter la bande passante pour les ingénieurs de données

En confiant les tâches de conception, maintenance et dépannage de pipelines aux systèmes d’IA agentiques, les data engineers peuvent améliorer leur productivité et gagner en bande passante pour poursuivre des tâches à forte valeur ajoutée et des tâches significatives, telles que la création et le pilotage de nouvelles capacités.

Considérations relatives à l'ingénierie des données d'IA agentique

Comme pour d'autres cas d'utilisation de l'IA, les entreprises doivent tenir compte de plusieurs défis potentiels lorsqu'elles cherchent à déployer l'IA agentique pour l'ingénierie des données.

La difficulté d’intégrer les agents IA avec des systèmes hérités plus anciens qui ne sont pas intrinsèquement compatibles avec la technologie IA.
Le risque que les agents exécutent de manière autonome des tâches inattendues— comme le retraitement d’énormes volumesde données pendant les heures de travail — qui perturbent les workflows.
Le risque que les agents contribuent à des violations de données, que ce soit parce qu'ils sont compromis par une cyberattaque ou simplement à cause d'une IA peu fiable.

Les solutions logicielles et les plateformes aident les entreprises à relever les défis liés à l’intégration de l’IA agentique, notamment les systèmes pilotés par l’IA pour l’ingénierie des données, dans les workflows quotidiens.

Des outils robustes de gouvernance de l’IA permettent d’intégrer des garde-fous afin de limiter les comportements indésirables des agents, ainsi que de déployer des indicateurs spécialisés pour évaluer leurs performances. Les solutions d’orchestration de l’IA peuvent aider à combler les écarts entre les technologies d’IA avancées et les anciens systèmes d’entreprise sans réorganisation prolongée.

Auteurs

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Consultez le guide du responsable des données pour découvrir comment préparer les données de votre organisation à l'IA.

Ressources

Rendu 3D de plusieurs icônes alignées, comme un microphone et une caméra

Les agents d’IA s'appuient sur des données. Les vôtres sont-elles prêtes ?

Vos données sont votre avantage concurrentiel. Découvrez comment les exploiter en toute sécurité et générer un ROI mesurable grâce à l’IA dans ce court webinaire.

La gestion des données expliquée

Techsplainers by IBM présente l’essentiel des données pour l’IA, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Rendu 3D de plusieurs icônes alignées comme un bouton de volume et un presse-papiers

Unifiez vos données pour dimensionner votre IA

Découvrez pourquoi la mise en place de données adaptées à l’IA commence souvent par un accès efficace aux données structurées et non structurées, ainsi que les défis auxquels peuvent être confrontés les responsables des données.

Des frais juridiques aux informations stratégiques

Découvrez comment un agent juridique alimenté par l’IA aide à accélérer la prise de décision, à réduire le travail manuel et à améliorer la conformité.

Deux hommes qui discutent dans un podcast

AI Academy : Élaborer une stratégie de données pour l’IA d’entreprise

Dans cet épisode, Cathy Reese explique pourquoi les entreprises doivent aujourd’hui se doter d’une stratégie de données adaptée à l’IA avancée, en s’appuyant sur leurs ressources de données les plus qualitatives.

Rendu 3D de plusieurs icônes alignées telles qu’un appareil photo et des avions en papier

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

Rapport sur le coût d’une violation de données 2025

Les coûts liés aux violations de données ont atteint un nouveau sommet. Obtenez des informations actualisées sur les menaces de cybersécurité et leur incidence financière sur les entreprises.

Rendu 3D de deux lignes de plusieurs icônes telles qu’un appareil photo, un bouton de volume et un presse-papiers.

Guide du responsable des données adaptées à l’IA

Comprenez les mesures concrètes que les responsables des données peuvent prendre pour surmonter les défis en matière de données, établir les bases d'un socle de données de confiance et préparer les données de votre entreprise pour l’IA.

Rendu 3D de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Comment la direction transforme les informations en impact

Découvrez les retours de 1 700 CDO dans ce rapport intersectoriel dédié aux responsables de données.

Solutions connexes

IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets

IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.