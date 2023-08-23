Les grands modèles de langage peuvent être entraînés sur des données propriétaires pour répondre à des cas d’utilisation spécifiques à l’entreprise. Par exemple, une entreprise peut utiliser ChatGPT pour créer un modèle privé, entraîné sur les données de vente provenant de son CRM. Ce modèle peut être déployé en tant que chatbot Slack pour aider les équipes commerciales à trouver réponses à des questions telles que « Combien d’opportunités le produit X a-t-il remportées au cours de l’année dernière ? » ou « Je souhaite connaître l’opportunité du produit Z avec l’entreprise Y ».

Vous pouvez facilement imaginer que ces LLM soient adaptés à un certain nombre de cas d’utilisation de service client, de RH ou de marketing. Nous pourrions même les voir compléter les conseils juridiques et médicaux, transformant les LLM en un outil de diagnostic de première ligne utilisé par les professionnels de santé. Le problème, c’est que ces cas d’utilisation nécessitent d’entraîner les LLM sur des données propriétaires sensibles, ce qui est intrinsèquement risqué. Voici quelques-uns de ces risques :

1. Risque de confidentialité et de réidentification

Les modèles IA apprennent à partir de données d’entraînement, mais qu’en est-il si ces données sont privées ou sensibles ? Une quantité considérable de données peut être utilisée directement ou indirectement pour identifier des individus spécifiques. Ainsi, si nous formons un LLM sur des données propriétaires concernant les clients d’une entreprise, nous pouvons nous retrouver dans des situations où l’utilisation de ce modèle pourrait être exploitée pour divulguer des informations sensibles.

2. Données d’apprentissage intégrées au modèle

De nombreux modèles IA simples comportent une phase d’entraînement, puis une phase de déploiement au cours de laquelle l’entraînement est interrompu. Les LLM sont un peu différents. Ils tiennent compte du contexte de votre conversation, en tirent des leçons, et réagissent en conséquence.

Cela rend la tâche de gouvernance des données d’entrée du modèle infiniment plus complexe, car nous ne devons pas seulement nous soucier des données d’entraînement initiales, mais également de chaque fois que le modèle est interrogé. Et si nous fournissions au modèle des informations sensibles pendant la conversation ? Pouvons-nous déterminer cette sensibilité et empêcher le modèle de l’utiliser dans d’autres contextes ?

3. Risque de sécurité et d’accès

Dans une certaine mesure, la sensibilité des données d’entraînement détermine la sensibilité du modèle. Bien que nous disposions de mécanismes bien établis pour contrôler l’accès aux données, surveiller qui accède à quelles données, puis masquer dynamiquement les données en fonction de la situation, la sécurité du déploiement de l’IA est encore en développement. Même si des solutions apparaissent dans cet espace, nous ne pouvons toujours pas contrôler totalement la sensibilité de la production du modèle en fonction du rôle de la personne qui l’utilise (par exemple, le modèle détermine qu’une production particulière pourrait être sensible et la modifie ensuite de manière fiable en fonction de la personne qui interroge le LLM). De ce fait, ces modèles peuvent facilement devenir des sources de fuite pour tout type d’informations sensibles liées à l’entraînement des modèles.

4. Risques liés à la propriété intellectuelle

Que se passe-t-il lorsque nous entraînons un modèle sur toutes les chansons de Drake et que ce modèle commence à générer des plagiats de Drake ? Porte-t-il atteinte à Drake ? Pouvez-vous prouver que le modèle copie votre œuvre d’une manière ou d’une autre ?

Ce problème est encore à l’étude par les régulateurs, mais il pourrait facilement devenir un problème majeur pour toute forme d’IA générative qui apprend à partir de la propriété intellectuelle artistique. Nous nous attendons à ce que cela donne lieu à d’importantes poursuites judiciaires à l’avenir, ce qui fait qu’il faudra atténuer ce risque en contrôlant suffisamment la propriété intellectuelle de toutes les données utilisées lors de l’entraînement.

5. Risque lié au consentement et aux DSAR

L’une des idées clés de la réglementation moderne en matière de confidentialité des données est le consentement. Les clients doivent consentir à l’utilisation de leurs données et pouvoir demander la suppression de leurs données. Cela pose un problème particulier en ce qui concerne l’utilisation de l’IA.

Si vous entraînez un modèle IA sur des données clients sensibles, ce modèle devient alors une potentielle source d’exposition à ces données sensibles. Si un client devait révoquer l’utilisation de ses données par l’entreprise (une exigence du RGPD) et si cette entreprise avait déjà entraîné un modèle sur les données, le modèle devrait en somme être mis hors service et réentraîné sans accéder aux données révoquées.

Pour que les LLM soient utiles en tant que logiciels d’entreprise, il faut régir les données d’entraînement afin que les entreprises puissent avoir confiance en la sécurité des données et disposer d’une piste d’audit concernant l’utilisation des données par le LLM.