L'importance de l'ingestion et de l'intégration des données pour l'IA d'entreprise

Jeune femme et collègue notant des idées sur des Post-it

L’émergence de l’IA générative a incité plusieurs entreprises de premier plan à restreindre son utilisation en raison du mauvais traitement des données internes sensibles. Selon CNN, certaines entreprises ont imposé des interdictions internes sur les outils d’IA générative alors qu’elles cherchent à mieux comprendre la technologie et beaucoup ont également bloqué l’utilisation de ChatGPT interne.

Les entreprises acceptent encore souvent le risque lié à l’utilisation de données internes lorsqu’elles découvrent de grands modèles linguistiques (LLM), car ce sont ces données contextuelles qui permettent aux LLM de passer de connaissances générales à des connaissances spécifiques à un domaine. Dans le cycle de développement de l’IA générative ou de l’IA traditionnelle, l’ingestion de données constitue le point d’entrée. Dans ce cas, des données brutes adaptées aux besoins de l’entreprise peuvent être collectées, prétraitées, masquées et transformées dans un format adapté aux LLM ou à d’autres modèles. À l’heure actuelle, il n’existe aucun processus standardisé pour surmonter les défis de l’ingestion de données, mais la précision du modèle en dépend.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

4 risques liés à une mauvaise ingestion de données

  1. Génération de fausse information : lorsqu’un LLM est formé sur des données contaminées (données contenant des erreurs ou des inexactitudes), il peut générer des réponses incorrectes, ce qui peut entraîner des prises de décision erronées et des problèmes potentiels en cascade.
  2. Augmentation des écarts : l’écart permet de mesurer la cohérence. Des données insuffisantes peuvent conduire à des réponses variables au fil du temps, ou à des données aberrantes trompeuses, en particulier sur les petits ensembles de données. Une variance élevée dans un modèle peut indiquer que le modèle fonctionne avec les données d’entraînement, mais qu’il est inadéquat pour les cas d’utilisation dans les secteurs réels.
  3. Portée limitée des données et réponses non représentatives : lorsque les sources de données sont restrictives, homogènes ou contiennent des doublons erronés, des erreurs statistiques telles que le biais d’échantillonnage peuvent fausser tous les résultats. Cela peut amener le modèle à exclure des zones, des départements, des données démographiques, des secteurs ou des sources entières de la conversation.
  4. Difficultés liées à la correction des données biaisées : si les données sont biaisées dès le début, « la seule façon d’en supprimer une partie de façon rétroactive est de réentraîner l’algorithme à partir de zéro ». Il est difficile pour les modèles LLM d’apprendre les réponses dérivées de données non représentées ou contaminées lorsqu’elles ont été vectorisées. Ces modèles tendent à renforcer leur compréhension sur la base des réponses précédemment assimilées.

L’ingestion de données doit être effectuée correctement dès le départ, car une mauvaise gestion peut entraîner une multitude de nouveaux problèmes. Le travail de base des données d’entraînement dans un modèle IA est comparable au pilotage d’un avion. Si l’angle de décollage est d’un seul degré, vous risquez d’atterrir sur un tout nouveau continent.

L’ensemble du pipeline de l’IA générative dépend des pipelines de données qui l’alimentent, ce qui impose de prendre les bonnes précautions.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

4 composantes clés pour assurer une ingestion de données fiable

  1. Qualité et gouvernance des données : la qualité des données signifie assurer la sécurité des sources de données, maintenir des données holistiques et fournir des métadonnées claires. Cela peut également impliquer de travailler avec de nouvelles données par le biais de méthodes telles que le web scraping ou le chargement. La gouvernance des données est un processus permanent du cycle de vie des données qui vise à garantir la conformité aux lois et aux bonnes pratiques de l’entreprise.
  2. Intégration des données : ces outils permettent aux entreprises de combiner des sources de données disparates en un seul endroit sécurisé. Parlons d’une méthode populaire : l’ELT (extract, load, transform). Dans un système ELT, les ensembles de données sont sélectionnés dans des entrepôts cloisonnés, transformés, puis chargés dans des pools de données source ou cible. Les outils ELT tels qu’IBM DataStage facilitent les transformations rapides et sécurisées grâce à des moteurs de traitement parallèle. En 2023, l’entreprise moyenne reçoit des centaines de flux de données disparates, ce qui rend les transformations de données efficaces et précises cruciales pour le développement des modèles d’IA traditionnels et nouveaux.
  3. Nettoyage et prétraitement des données : il s’agit notamment de formater les données pour répondre à des besoins d’entraînement, des outils d’orchestration ou des types de données spécifiques aux LLM. Les données textuelles peuvent être fragmentées ou tokenisées tandis que les données d’imagerie peuvent être magasinées sous forme d’embeddings. Des transformations complètes peuvent être effectuées à l’aide d’outils d’intégration de données. En outre, il peut être nécessaire de manipuler directement les données brutes en supprimant les doublons ou en modifiant le type de données.
  4. Stockage de données : une fois les données nettoyées et traitées, le défi du stockage de données se pose. La plupart des données sont hébergées dans le cloud ou sur site, ce qui oblige les entreprises à décider de l’endroit où elles doivent stocker leurs données. Il est important d’éviter d’utiliser des LLM externes pour traiter des informations sensibles telles que des données personnelles, des documents internes ou des données sur les clients. Toutefois, les LLM jouent un rôle critique dans le réglage fin ou la mise en œuvre d’une approche basée sur la génération augmentée de récupération (RAG). Pour limiter les risques, il est important d’exécuter autant de processus d’intégration de données que possible sur des serveurs internes. Une solution potentielle consiste à utiliser des options d’exécution à distance.

Démarrez votre ingestion de données avec IBM

IBM DataStage simplifie l’intégration des données en combinant divers outils, vous permettant d’extraire, d’organiser, de transformer et de stocker sans effort les données nécessaires aux modèles d’entraînement à l’IA dans un environnement cloud hybride. Les spécialistes des données, quel que soit leur niveau de compétence, peuvent interagir avec l’outil à l’aide d’interfaces graphiques no-code ou accéder aux API avec un code personnalisé guidé.

La nouvelle option d’exécution à distance DataStage as a Service Anywhere offre une flexibilité d’exécution pour l’exécution des transformations de vos données. Elle vous permet d’utiliser le moteur parallèle où que vous soyez, vous donnant ainsi un contrôle sans précédent sur son emplacement. DataStage as a Service Anywhere se manifeste comme un conteneur léger, permettant d’exécuter toutes les capacités de transformation des données dans n’importe quel environnement. Cela vous permet d’éviter de nombreux pièges liés à une mauvaise ingestion de données lorsque vous effectuez l’intégration, le nettoyage et le prétraitement des données dans votre cloud privé virtuel. Avec DataStage, vous gardez un contrôle total sur la sécurité, la qualité des données et l’efficacité, en répondant à tous vos besoins en matière de données pour les initiatives d’IA générative.

Bien qu’il n’y ait pratiquement aucune limite à ce qui peut être réalisé avec l’IA générative, il y a des limites sur les données qu’un modèle utilise, et ces données peuvent également faire toute la différence.

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data