Le succès récent des grands modèles de langage basés sur l’intelligence artificielle a poussé le marché à réfléchir à la manière dont l’IA pourrait transformer de nombreux processus métier. Cependant, les consommateurs et les régulateurs sont de plus en plus préoccupés par la sécurité de leurs données et par les modèles d’IA. Une adoption sûre et généralisée de l’IA nous obligera à adopter la gouvernance de l’IA tout au long du cycle de vie des données, afin de rassurer les consommateurs, les entreprises et les régulateurs. Mais à quoi cela ressemble-t-il concrètement ?
Dans la plupart des cas, les modèles d’intelligence artificielle sont assez simples : ils reçoivent des données et apprennent des schémas qu’elles contiennent pour générer une sortie. Les grands modèles de langage (LLM) complexes comme ChatGPT et Google Bard ne font pas exception à la règle. C’est pourquoi lorsque nous cherchons à gérer et à gouverner le déploiement des modèles d’IA, nous devons d’abord nous concentrer sur la gouvernance des données sur lesquelles les modèles d’IA sont entraînés. Cette gouvernance des données exige que nous comprenions l’origine, la sensibilité et le cycle de vie de chaque donnée que nous utilisons. C’est la base de toute pratique de gouvernance de l’IA, essentielle pour atténuer les divers risques pesant sur l’entreprise.
Les grands modèles de langage peuvent être entraînés sur des données propriétaires pour répondre à des cas d’utilisation spécifiques à l’entreprise. Par exemple, une entreprise peut utiliser ChatGPT pour créer un modèle privé, entraîné sur les données de vente provenant de son CRM. Ce modèle peut être déployé en tant que chatbot Slack pour aider les équipes commerciales à trouver réponses à des questions telles que « Combien d’opportunités le produit X a-t-il remportées au cours de l’année dernière ? » ou « Je souhaite connaître l’opportunité du produit Z avec l’entreprise Y ».
Vous pouvez facilement imaginer que ces LLM soient adaptés à un certain nombre de cas d’utilisation de service client, de RH ou de marketing. Nous pourrions même les voir compléter les conseils juridiques et médicaux, transformant les LLM en un outil de diagnostic de première ligne utilisé par les professionnels de santé. Le problème, c’est que ces cas d’utilisation nécessitent d’entraîner les LLM sur des données propriétaires sensibles, ce qui est intrinsèquement risqué. Voici quelques-uns de ces risques :
Les modèles IA apprennent à partir de données d’entraînement, mais qu’en est-il si ces données sont privées ou sensibles ? Une quantité considérable de données peut être utilisée directement ou indirectement pour identifier des individus spécifiques. Ainsi, si nous formons un LLM sur des données propriétaires concernant les clients d’une entreprise, nous pouvons nous retrouver dans des situations où l’utilisation de ce modèle pourrait être exploitée pour divulguer des informations sensibles.
De nombreux modèles IA simples comportent une phase d’entraînement, puis une phase de déploiement au cours de laquelle l’entraînement est interrompu. Les LLM sont un peu différents. Ils tiennent compte du contexte de votre conversation, en tirent des leçons, et réagissent en conséquence.
Cela rend la tâche de gouvernance des données d’entrée du modèle infiniment plus complexe, car nous ne devons pas seulement nous soucier des données d’entraînement initiales, mais également de chaque fois que le modèle est interrogé. Et si nous fournissions au modèle des informations sensibles pendant la conversation ? Pouvons-nous déterminer cette sensibilité et empêcher le modèle de l’utiliser dans d’autres contextes ?
Dans une certaine mesure, la sensibilité des données d’entraînement détermine la sensibilité du modèle. Bien que nous disposions de mécanismes bien établis pour contrôler l’accès aux données, surveiller qui accède à quelles données, puis masquer dynamiquement les données en fonction de la situation, la sécurité du déploiement de l’IA est encore en développement. Même si des solutions apparaissent dans cet espace, nous ne pouvons toujours pas contrôler totalement la sensibilité de la production du modèle en fonction du rôle de la personne qui l’utilise (par exemple, le modèle détermine qu’une production particulière pourrait être sensible et la modifie ensuite de manière fiable en fonction de la personne qui interroge le LLM). De ce fait, ces modèles peuvent facilement devenir des sources de fuite pour tout type d’informations sensibles liées à l’entraînement des modèles.
Que se passe-t-il lorsque nous entraînons un modèle sur toutes les chansons de Drake et que ce modèle commence à générer des plagiats de Drake ? Porte-t-il atteinte à Drake ? Pouvez-vous prouver que le modèle copie votre œuvre d’une manière ou d’une autre ?
Ce problème est encore à l’étude par les régulateurs, mais il pourrait facilement devenir un problème majeur pour toute forme d’IA générative qui apprend à partir de la propriété intellectuelle artistique. Nous nous attendons à ce que cela donne lieu à d’importantes poursuites judiciaires à l’avenir, ce qui fait qu’il faudra atténuer ce risque en contrôlant suffisamment la propriété intellectuelle de toutes les données utilisées lors de l’entraînement.
L’une des idées clés de la réglementation moderne en matière de confidentialité des données est le consentement. Les clients doivent consentir à l’utilisation de leurs données et pouvoir demander la suppression de leurs données. Cela pose un problème particulier en ce qui concerne l’utilisation de l’IA.
Si vous entraînez un modèle IA sur des données clients sensibles, ce modèle devient alors une potentielle source d’exposition à ces données sensibles. Si un client devait révoquer l’utilisation de ses données par l’entreprise (une exigence du RGPD) et si cette entreprise avait déjà entraîné un modèle sur les données, le modèle devrait en somme être mis hors service et réentraîné sans accéder aux données révoquées.
Pour que les LLM soient utiles en tant que logiciels d’entreprise, il faut régir les données d’entraînement afin que les entreprises puissent avoir confiance en la sécurité des données et disposer d’une piste d’audit concernant l’utilisation des données par le LLM.
La meilleure description de l’architecture de LLM que j’ai vue provient de cet article d’a16z. Elle est vraiment bien faite, mais comme je passe tout mon temps à travailler sur la gouvernance des données et la confidentialité, je peux dire qu’il manque un élément à la partie supérieure gauche « données contextuelles → pipelines de données » : la gouvernance des données.
Si vous ajoutez les solutions de gouvernance des données d’IBM, la partie supérieure gauche ressemblera un peu plus à cela :
La solution de gouvernance des données fondée sur IBM Knowledge Catalog offre plusieurs capacités pour faciliter le perfectionnement de la découverte de données et l’automatisation de la qualité et de la protection des données. Vous pouvez :
La dernière étape ci-dessus est souvent négligée : la mise en œuvre de la technique d’amélioration de la confidentialité. Comment supprimer les informations sensibles avant de les transmettre à l’IA ? Le processus peut se diviser en trois étapes :
Avec IBM watsonx, IBM a fait des progrès rapides pour placer la puissance de l’IA générative entre les mains des « générateurs d’IA ». IBM watsonx.ai est un studio prêt pour l’entreprise, qui associe le machine learning (ML) traditionnel à de nouvelles capacités d’IA générative alimentées par des modèles de fondation. Watsonx comprend également watsonx.data, un magasin de données adapté reposant sur une architecture de lakehouse ouverte. Il est pris en charge par les requêtes, la gouvernance et les formats de données ouverts pour accéder aux données et les partager à travers le cloud hybride.
Un socle de données solide est essentiel à la mise en œuvre réussie de l’IA. Grâce au data fabric d’IBM, nos clients peuvent mettre en place la bonne infrastructure de données pour l’IA en utilisant des capacités d’intégration et de gouvernance des données pour acquérir, préparer et organiser les données avant qu’elles ne soient facilement accessibles par les générateurs d’IA à l’aide de watsonx.ai et watsonx.data.
IBM propose une solution de data fabric composable dans le cadre d’un portefeuille ouvert et extensible de produits d’IA qui peuvent être déployés sur des clouds tiers. Cette solution comprend des fonctionnalités de gouvernance des données, d’intégration des données, d’observabilité des données, de traçabilité des données, de qualité des données, de résolution des entités et de gestion de la confidentialité des données.
Les modèles IA, en particulier les LLM, seront l’une des technologies les plus transformatrices de la prochaine décennie. Alors que les nouvelles réglementations en matière d’IA imposent des directives concernant l’utilisation de l’IA, il est primordial de gérer et de régir les modèles IA, mais aussi, tout aussi important, de régir les données introduites dans l’IA.
