Comme son nom l'indique, l'ingénierie des données de l'IA agentique est la fusion de l'ingénierie des données et de l'IA agentique. La première est la pratique qui consiste à développer et à maintenir l'infrastructure de données et lespipelines de données qui font partie intégrante de la gestion des données.
Ce dernier fait référence à des systèmes d’ intelligence artificielle capables d’accomplir des objectifs spécifiques avec une supervision humaine limitée. Dans le cadre d'un système multi-agents, les sous-tâches exécutées par plusieurs agents IA - des modèlesd'apprentissage machine qui imitent la prise de décision humaine - sont coordonnées par l'orchestration de l'IA
En ingénierie des données, les agents d’IA peuvent réaliser des processus de résolution de problèmes en plusieurs étapes, essentiels pour garantir la disponibilité de données de haute qualité pour les cas d’usage en entreprise. Ces processus incluent la conception de pipelines de données et l’exécution de tâches critiques de traitement de données, telles que la réalisation de transformations des données et la détection de problèmes de données.
Également connue sous le nom d'ingénierie des données agentiques, l'ingénierie des données basée sur l'IA agentique peut réduire de manière significative la charge de travail des équipes d'ingénierie des données tout en optimisant les performances des pipelines de données. De plus, l'ingénierie des données de l'IA agentique peut permettre aux utilisateurs professionnels d'accéder aux données de l'entreprise et d'en tirer des informations, même s'ils n'ont pas de compétences techniques.
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Pour comprendre pourquoi les systèmes d'IA agentique sont adoptés pour l'ingénierie des données, il est utile d'examiner de plus près la nature de l'ingénierie des données moderne.
L’ingénierie des données est essentielle pour les entreprises cherchant à débloquer de la valeur dans des écosystèmes de données de plus en plus vastes et complexes. Les ingénieurs de données contribuent à la structure et au bon fonctionnement des workflows, qui convertissent les données brutes en sorties apportant une valeur ajoutée à l’entreprise. Lorsqu’elle est mise en œuvre avec succès, l’ingénierie des données permet de fournir des jeux de données propres, précis et opportuns qui peuvent être analysés pour générer des informations exploitables ou utilisés pour alimenter des initiatives d’IA.
Alors que les organisations s'appuient de plus en plus sur la prise de décision basée sur les données, y compris la prise de décision sensible au temps basée sur les données en temps réel, la nécessité de disposer de pipelines de données fiables n'a jamais été aussi grande. Mais les défis liés à la maintenance de tels pipelines n’ont jamais été aussi grands — les ingénieurs de données sont désormais chargés de superviser des piles de données et des processus d’orchestration de plus en plus complexes.
Cela signifie inévitablement que les équipes chargées des données consacrent une grande partie de leur temps à la gestion des urgences. En d'autres termes, ils se concentrent sur la maintenance et le dépannage pour adresse les problèmes liés au pipeline de données et, pire encore, les défaillances de ce dernier.
« Lorsque les équipes d'ingénierie des données créent des pipelines, les ingénieurs s'appuient souvent sur une combinaison de tâches planifiées, de procédures stockées, de scripts complexes et d'une logique de transformation. Et chacun de ces éléments fonctionne ensemble afin de maintenir la circulation du flux de données. Parfois, lorsqu'un simple changement de schéma ou un renommage de colonne se produit sur un système source, cela peut entraîner des heures de débogage et de nouveaux tests », a expliqué Justin Yan, chef de produit senior pour IBM Data & IA, dans une vidéo d'IBM Technologie.
Heureusement, il est désormais possible de déployer des agents IA pour prendre en charge une grande partie de ce travail et éviter que les problèmes ne surviennent. Les agents intelligents peuvent « résoudre les problèmes d’intégration de données, en aidant à planifier et à surveiller les défis liés aux données puis à s’y adapter, afin que celles-ci soient acheminées là où elles sont nécessaires, avec la qualité et la ponctualité requises par vos workloads », explique M. Yan.
Une combinaison de technologies soutient le déploiement de l'IA agentique pour l'ingénierie des données.
Un agent IA est un système qui exécute des tâches de manière autonome en concevant des workflows à l’aide des outils disponibles—y compris les workflows de données. Les agents utilisent les techniques de traitement automatique du langage naturel des grands modèles de langage pour comprendre et répondre aux entrées utilisateur, étape par étape, et déterminer quand utiliser des outils externes.
Le traitement automatique du langage naturel (NLP) est un sous-domaine de l’informatique et de l’ IA qui utilise le machine learning pour permettre aux ordinateurs de comprendre et de communiquer en langage humain. La PNL joue un rôle croissant dans les solutions d'entreprise qui permettent de rationaliser et d'automatiser les opérations commerciales.
Machine learning est le sous-ensemble de l'IA axé sur des algorithmes capables de « apprendre » les modèles des données d'entraînement. Ces algorithmes utilisent ensuite cette reconnaissance des formes pour faire des déductions précises sur les nouvelles données. Le machine learning constitue l’épine dorsale de la plupart des systèmes d’IA modernes, y compris les grands modèles de langage et autres outils d’IA générative.
Les grands modèles de langage (LLM) sont un type de modèle d'apprentissage profond capable de comprendre et de générer du langage naturel et d'autres types de contenu pour effectuer une multitude de tâches. Leurs capacités proviennent des techniques de traitement automatique du langage naturel et de l’entraînement sur d’énormes quantités de données, qui les aident à gérer le langage humain non structuré à l’échelle.
Bien que l’utilisation d’agents autonomes pour l’ingénierie des données puisse varier selon le système de données et l’équipe d’ingénierie, voici un aperçu de la façon dont les systèmes alimentés par l’IA peuvent gérer différents processus et tâches d’ingénierie des données tout au long du cycle de vie des données.
L'ingénierie des données de l'IA agentique permet aux entreprises d'automatiser la création de pipelines de données. Les utilisateurs peuvent exprimer leur intention concernant les résultats d'un pipeline en langage naturel, sans définir les étapes nécessaires pour obtenir les résultats souhaités. C'est à l'agent d'IA de déterminer le fonctionnement du pipeline. C'est ce que l'on appelle la création déclarative de pipelines et c'est une alternative à l'approche plus pratique qui consiste à codage chaque étape du pipeline.
Après qu’un utilisateur a envoyé une requête en langage naturel, lesLLM analysent cette requête et comprennent l’intention de l’utilisateur. Ensuite, un agent IA conçoit et souvent met en œuvre un processus de bout en bout qui comprend :
Les utilisateurs possédant des connaissances techniques plus approfondies peuvent choisir de spécifier la structure du pipeline de données demandé. Pour ce faire, ils peuvent s’appuyer sur un kit de développement logiciel (SDK) Python, qui permet aux LLM d’écrire et d’exécuter des scripts Python en fonction des requêtes utilisateur pour diverses tâches liées aux données (par exemple, sélectionner une source ou effectuer un nettoyage des données).
Une fois le pipeline conçu, un système d'IA agentique peut exécuter les charges de travail. Les agents d'IA font appel à des outils pour interagir avec des outils externes, des interfaces de programmation d'applications (API) ou des systèmes nécessaires pour se connecter à des sources de données, comprendre les métadonnées et effectuer des transformations.
Les agents sélectionnent également le chemin d’exécution optimal pour les workflows de données dans des environnements hybrides. Cela inclut le choix dynamique des meilleures approches d’intégration (streaming entemps réel,ETL/ELT ou réplication par lots) et des environnements d’exécution (sur site, dans un environnement cloud ou via des moteurs pushdown et distants) pour chaque partie du travail.
L'apprentissage par renforcement peut aider les agents à améliorer les plans de pipeline au fil du temps en récompensant les parcours de pipeline correctement configurés et terminés.
Un système agentique peut favoriser l’observabilité en surveillant en permanence les pipelines. Les agents peuvent détecter les dérives de schéma, les anomalies de données et les problèmes de qualité des données. Ils peuvent également soutenir l’analyse de cause racine des problèmes de pipeline, recommander des étapes de résolution et exécuter ces étapes.
L'exécution autonome des correctifs de pipeline peut s'avérer particulièrement utile à des moments peu propices. « Que se passe-t-il si une tâche de nuit échoue ? Au lieu d'appeler quelqu'un, l'agent peut réessayer les exécutions, augmenter les moteurs et ajuster automatiquement la logique de flux », explique John Wen, chef de produit chez IBM, dans une vidéo Technologie d'IBM.
L'ingénierie des données par IA agentique offre de nombreux avantages aux organisations, à leurs équipes de données et à leurs utilisateurs professionnels. En voici quelques exemples :
L'un des principaux défis auxquels sont confrontés les ingénieurs de données aujourd'hui est de gérer les données dans des environnements complexes et cloisonnés : différents clouds, entrepôts de données, lacs de données, serveurs sur site, etc. Certaines données sont organisées dans des feuilles de calcul et des bases de données SQL, mais une grande partie est non structurée sous forme de documents, e-mails, transcriptions et images. Dans un système d’entreprise, les agents IA peuvent se connecter à une variété de sources de données et intégrer divers formats de données, créant ainsi des plateformes de données unifiées permettant des analyses plus riches et des prévisions plus précises.
Les agents IA peuvent automatiser le profilage des données, leur validation, la création de règles, la surveillance et la résolution. « Les agents sont en mesure de détecter les changements de colonnes ou les incohérences de types, et de proposer des correctifs avant l’échec des tâches. Des contrôles continus des anomalies, des remplissages automatiques et des réacheminements autour des sources de données défaillantes contribueront à préserver la fiabilité des données pour les utilisations en aval dans les systèmes d’IA », explique M. Yan.
Les agents IA peuvent évaluer différentes stratégies d'exécution et identifier les obstacles et complications potentiels, tels que les dépendances cachées dans différentes piles d'applications. En intégrant ces informations dans la conception du pipeline, ils peuvent élaborer des plans qui minimisent la consommation de ressources et le temps opérationnel tout en atteignant les objectifs de données.
De plus, à mesure que l’infrastructure ou les schémas changent, les systèmes agents peuvent s’adapter et réutiliser les pipelines existants, aidant les entreprises à éviter l’accumulation de pipelines obsolètes et de dettes techniques.
La conception des pipelines et la surveillance continue par des agents d'IA peuvent garantir que les données sensibles sont conformes aux lois sur la protection des données telles que la loi américaine HIPAA (Health Insurance Portability and Accountability Act de 1996) et le Règlement général sur la protection des données (RGPD) de l'Union européenne. De plus, le suivi de la lignée par les agents IA peut soutenir la transparence et l’auditabilité.
Les utilisateurs professionnels ayant peu ou pas d'expertise technique n'ont plus à s'en remettre exclusivement à des professionnels des données pour les aider à répondre à leurs besoins en la matière. Ils peuvent demander la création ou la fourniture de jeux de données auprès d'agents IA, ce qui les aidera à obtenir des informations clés plus rapidement.
Les agents IA peuvent concevoir, construire et exécuter des pipelines de données entièrement fonctionnels en une fraction du temps qu’il faudrait aux équipes chargées des données pour coder manuellement de tels pipelines. Les agents IA peuvent également rendre ces pipelines adaptables et capables d’« auto-réparation », c’est-à-dire qu’ils peuvent surveiller et corriger les anomalies avant qu’elles ne perturbent les processus en aval. Dans l’ensemble, cela signifie que les entreprises peuvent continuer à ajouter des pipelines en toute confiance à mesure que leurs parcs de données et leurs besoins en données augmentent et évoluent.
En confiant les tâches de conception, maintenance et dépannage de pipelines aux systèmes d’IA agentiques, les data engineers peuvent améliorer leur productivité et gagner en bande passante pour poursuivre des tâches à forte valeur ajoutée et des tâches significatives, telles que la création et le pilotage de nouvelles capacités.
Comme pour d'autres cas d'utilisation de l'IA, les entreprises doivent tenir compte de plusieurs défis potentiels lorsqu'elles cherchent à déployer l'IA agentique pour l'ingénierie des données.
Les solutions logicielles et les plateformes aident les entreprises à relever les défis liés à l’intégration de l’IA agentique, notamment les systèmes pilotés par l’IA pour l’ingénierie des données, dans les workflows quotidiens.
Des outils robustes de gouvernance de l’IA permettent d’intégrer des garde-fous afin de limiter les comportements indésirables des agents, ainsi que de déployer des indicateurs spécialisés pour évaluer leurs performances. Les solutions d’orchestration de l’IA peuvent aider à combler les écarts entre les technologies d’IA avancées et les anciens systèmes d’entreprise sans réorganisation prolongée.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.