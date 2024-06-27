Balises
Réévaluer la gestion des données à l’ère générative de l’IA

Quatre collègues assis et debout autour d’un bureau dans un local professionnel doté de hautes fenêtres

Geoff Baird

L’IA générative a transformé le secteur de la technologie en introduisant de nouveaux risques liés aux données, tels que la fuite de données sensibles via les grands modèles de langage (LLM), et en entraînant un renforcement des exigences des organismes de réglementation et des gouvernements. Ainsi, les entreprises ont tout intérêt à se pencher de près sur les principes fondamentaux de la gestion des données. Elles doivent également s’assurer qu’elles utilisent une approche judicieuse pour enrichir les grands modèles de langage avec des données d’entreprise/non publiques.

Un bon point de départ consiste à repenser la manière dont les entreprises gèrent les données, en particulier en ce qui concerne leur utilisation dans les solutions d’IA générative. Par exemple :

  • Valider et créer des capacités de protection des données : les plateformes de données doivent être préparées pour des niveaux de protection et de surveillance plus élevés. Cela nécessite des capacités traditionnelles telles que le chiffrement, l’anonymisation et la tokenisation, mais aussi d’en créer de nouvelles pour classer automatiquement les données (sensibilité, alignement taxonomique) à l’aide du machine learning. Les outils de découverte et de catalogage des données peuvent s’avérer utiles, mais doivent être enrichis afin que la classification corresponde à la compréhension qu’a l’entreprise de ses propres données. De cette manière, les entreprises pourront appliquer efficacement de nouvelles politiques et combler le fossé entre la compréhension théorique des données et la mise en œuvre réelle des solutions de données.
  • Améliorer les contrôles, l’auditabilité et la surveillance : l’accès aux données, leur utilisation et les interactions de tiers avec les données d’entreprise nécessitent de nouvelles conceptions avec les solutions existantes. Par exemple, il est important de recueillir une partie des exigences nécessaires pour garantir que l’utilisation des données est autorisée. Cependant, les entreprises ont besoin de pistes d’audit et de systèmes de surveillance complets. Cela permet de suivre la manière dont les données sont utilisées, quand elles sont modifiées et si elles sont partagées par le biais d’interactions avec des tiers, tant pour les solutions d’IA générative que d’IA non générative. Il ne suffit plus de contrôler les données en en restreignant l’accès, il convient également de suivre les cas d’utilisation pour lesquels les données sont consultées et appliquées dans le cadre de solutions analytiques et opérationnelles. Des alertes et des rapports automatisés en cas d’accès et d’utilisation inappropriés (mesurés par l’analyse des requêtes, l’exfiltration des données et les mouvements sur le réseau) doivent être mis en place par les équipes chargées de l’infrastructure et de la gouvernance des données, puis régulièrement examinés afin de garantir la conformité de manière proactive.
  • Préparation des données pour l’IA générative : on constate un abandon des modèles et des compétences traditionnels en matière de gestion des données, ce qui nécessite une nouvelle discipline pour garantir la qualité, l’exactitude et la pertinence des données en vue d’entraîner et d’améliorer les modèles de langage destinés à l’IA. Les bases de données vectorielles devenant courantes dans le domaine de l’IA générative, la gouvernance des données doit être renforcée de manière à tenir compte des plateformes de gestion des données non traditionnelles. L’objectif est de garantir que les mêmes pratiques de gouvernance soient appliquées à ces nouveaux composants architecturaux. La traçabilité des données devient encore plus importante, car les organismes de réglementation exigent que les modèles soient « explicables ».

Les données d’entreprise sont souvent complexes, diverses et dispersées dans différents référentiels, ce qui rend leur intégration dans les solutions d’IA générative difficile. Cette complexité est aggravée par la nécessité de garantir la conformité réglementaire, d’atténuer les risques et de combler les lacunes en matière de compétences dans les schémas d’intégration des données et de génération augmentée de récupération (RAG). De plus, les données sont souvent considérées comme un élément secondaire dans la conception et le déploiement des solutions d’IA générative, ce qui entraîne des incohérences et un manque d’efficacité.

Libérer le plein potentiel des données d’entreprise pour l’IA générative

Chez IBM, nous avons mis au point une approche pour relever ces enjeux liés aux données. L’IBM gen AI data ingestion factory est un service géré conçu pour résoudre le « problème des données » lié à l’IA et libérer le plein potentiel des données d’entreprise pour l’IA générative. Notre architecture prédéfinie et nos plans de code, qui peuvent être déployés en tant que service géré, simplifient et accélèrent le processus d’intégration des données d’entreprise dans les solutions d’IA générative. Nous abordons ce problème en tenant compte de la gestion des données, en préparant dès le départ les données pour la gouvernance, les risques et la conformité. 

Nos principales capacités comprennent :

  • Ingestion de données évolutive : services réutilisables pour faire évoluer l’ingestion des données et la RAG dans les cas d’utilisation et les solutions d’IA générative, avec des schémas de segmentation et d’intégration optimisés.
  • Réglementation et conformité : les données sont préparées pour être utilisées par l’IA générative dans le respect des réglementations actuelles et futures, ce qui permet aux entreprises de se conformer aux exigences réglementaires du marché portant sur l’IA générative.
  • Gestion de la confidentialité des données : les textes longs peuvent être anonymisés dès leur découverte, ce qui réduit les risques et garantit la confidentialité des données.

Le service est indépendant, ce qui permet de le déployer n’importe où, et il offre une personnalisation en fonction des environnements et des cas d’utilisation des clients. En utilisant l’IBM gen AI data ingestion factory, les entreprises peuvent obtenir les résultats suivants :

  • Réduction du temps consacré à l’intégration des données : un service géré qui réduit le temps et les efforts nécessaires pour résoudre le « problème des données » lié à l’IA. Par exemple, l’utilisation d’un processus reproductible pour « segmenter » et « intégrer » les données afin d’éviter de répéter les mêmes opérations pour chaque nouveau cas d’utilisation de l’IA générative.
  • Utilisation conforme des données : aide à la mise en conformité avec les réglementations relatives à l’utilisation des données portant sur les applications d’IA générative déployées par l’entreprise. Par exemple, en veillant à ce que les données provenant de schémas RAG soient approuvées pour une utilisation en entreprise dans des solutions d’IA générative.
  • Atténuation des risques : réduction des risques associés aux données utilisées dans les solutions d’IA générative. Par exemple, l’obtention d’informations claires sur les données utilisées pour produire un résultat à partir d’un modèle réduit le risque lié au modèle et le temps passé à prouver aux organismes de réglementation comment les informations ont été obtenues.
  • Résultats cohérents et reproductibles : l’obtention de résultats cohérents et reproductibles à partir de LLM et de solutions d’IA générative. Par exemple, en recueillant les informations de traçabilité et en comparant les résultats (c’est-à-dire les données générées) au fil du temps afin de rendre compte de la cohérence à l’aide d’indicateurs standard tels que ROUGE et BLEU.

Pour faire face aux risques complexes liés aux données, il est nécessaire de disposer d’une expertise interfonctionnelle. L’équipe d’IBM Consulting, composée d’anciens employés d’organismes de réglementation, de leaders sectoriels et d’experts en technologie, est particulièrement bien placée pour répondre à ce besoin grâce à nos services et solutions de conseil. 

 

