C’est l’une des dures réalités de l’innovation : plus la technologie progresse, plus les risques liés à son utilisation augmentent.
Par exemple, les outils qui optimisent la collecte et l’analyse des données augmentent également la probabilité que les données personnelles et les informations sensibles apparaissent là où elles n’ont pas leur place.
Ce risque d’atteinte à la confidentialité est prépondérant à l’ère de l’intelligence artificielle, car des informations sensibles sont collectées et utilisées pour créer et affiner les systèmes d’IA et de machine learning. De plus, l’empressement des décideurs politiques à réglementer l’utilisation de l’IA pour répondre aux préoccupations liées à la protection de la vie privée crée de nouveaux défis en matière de conformité pour les entreprises qui utilisent les technologies d’IA dans leur prise de décision.
Malgré les préoccupations en matière de confidentialité et de conformité, les entreprises continuent de déployer des modèles d’IA pour stimuler leur productivité et créer de la valeur. Découvrons ensemble les risques et les mesures en matière de confidentialité de l’IA qui affectent aujourd’hui la société et le commerce.
La confidentialité de l’IA consiste à protéger les informations personnelles ou sensibles collectées, utilisées, partagées ou stockées par l’IA.
La confidentialité de l’IA est étroitement liée à la confidentialité des données. La confidentialité des données, aussi connue sous le nom de confidentialité des informations, est le principe selon lequel une personne devrait avoir le contrôle sur ses données personnelles. Ce contrôle implique la possibilité de décider comment les organisations collectent, stockent et utilisent leurs données. La notion de confidentialité des données existait bien avant l'IA, mais la façon dont nous la percevons a évolué avec l'essor de l'IA.
« Il y a dix ans, la plupart des gens envisageaient la confidentialité des données essentiellement dans le contexte des achats en ligne. Ils se disaient : « Je ne suis pas certain que ça me dérange que ces entreprises sachent ce que j'achète et ce que je recherche, car ça s'avère souvent utile », explique Jennifer King, chercheuse à l'Institut d'intelligence artificielle centrée sur l'humain de l'Université de Stanford, dans une interview publiée sur le site Web de l'institut.1
« Mais aujourd'hui, nous assistons à un virage des entreprises vers cette collecte de données omniprésente qui entraîne les systèmes d'IA », déclare King, « ce qui peut avoir un impact majeur sur la société, en particulier sur nos droits civils. »
Les préoccupations en matière de confidentialité de l’IA concernent généralement la collecte de données, la cybersécurité, la conception de modèles et la gouvernance. Voici quelques exemples de risques associés :
L'un des facteurs expliquant pourquoi l'IA pose potentiellement un risque plus important pour la confidentialité des données que les précédentes avancées technologiques est le volume considérable d'informations en jeu. Des téraoctets, voire des pétaoctets, de texte, d'images ou de vidéos sont systématiquement intégrés dans les données d'entraînement, et inévitablement, une partie de ces données est sensible : informations médicales, données personnelles provenant de sites de réseaux sociaux, données financières personnelles, données biométriques utilisées pour la reconnaissance faciale, etc. Étant donné que l'on collecte, stocke et transmet aujourd'hui un volume de données sensibles sans précédent, les risques de voir certaines d'entre elles exposées ou utilisées de manière à porter atteinte aux droits à la vie privée sont plus élevés.
Des controverses peuvent naître lorsque des données sont collectées pour le développement de l'IA sans le consentement explicite ou la connaissance des personnes dont elles proviennent. Dans le cas des sites Web et des plateformes, les utilisateurs attendent de plus en plus à avoir plus d'autonomie sur leurs propres données et à avoir plus de transparence en matière de collecte de données. Ces attentes ont récemment été mises en lumière lorsque le réseau professionnel LinkedIn a fait face à une réaction négative après que certains utilisateurs aient constaté qu'ils étaient automatiquement inscrits pour autoriser l'utilisation de leurs données pour entraîner des modèles d'IA génératifs.2
Même lorsque les données sont collectées avec le consentement des individus, des risques pour la vie privée persistent si les données sont utilisées à des fins autres que celles initialement divulguées. « Nous constatons que des données telles qu'un CV ou une photographie que nous avons partagés ou publiés à une certaine fin sont réutilisées pour l'entraînement de systèmes d'IA, souvent à notre insu et sans notre consentement », explique King. En Californie, par exemple, une ancienne patiente chirurgicale aurait découvert que des photos liées à son traitement médical avaient été utilisées dans un jeu de données d’entraînement de l’IA. En Californie, par exemple, une ancienne patiente aurait découvert que des photos liées à son intervention chirurgicale avaient été utilisées pour entraîner un modèle d'IA.3
Les préoccupations concernant la vie privée liées à une surveillance généralisée et incontrôlée, que ce soit par le biais de caméras de sécurité dans les rues publiques ou de cookies de suivi sur les ordinateurs personnels, sont apparues bien avant l'essor de l'IA. Mais l'IA peut aggraver ces préoccupations en matière de vie privée, car les modèles d'IA sont utilisés pour analyser les données de surveillance. Parfois, les résultats de ces analyses peuvent être préjudiciables, en particulier lorsqu'ils révèlent des biais. Dans le domaine des forces de l’ordre, par exemple, un certain nombre d’arrestations inopportunes de personnes de couleur ont été liées à la prise de décision alimentée par l’IA.4
Les modèles d’IA contiennent une mine de données sensibles qui ne manquent pas d’attirer les pirates. « Ces [données] constituent une cible de choix dont quelqu’un va tenter de s’emparer », explique Jeff Crume, ingénieur émérite IBM Sécurité, dans une récente vidéo d’IBM Technology (lien externe à ibm.com). Les malfaiteurs appliquent diverses stratégies pour réaliser ce type d’exfiltration de données (vol de données) à partir d’applications d’IA. Par exemple, dans les attaques par injection de prompts, les pirates déguisent des entrées malveillantes en prompts légitimes et manipulent les systèmes d’IA générative pour exposer des données sensibles. Un pirate qui utilise un prompt adéquat peut ainsi amener un assistant virtuel basé sur LLM à transférer des documents privés.
La fuite de données désigne l'exposition accidentelle de données sensibles, et certains modèles d'IA se sont révélés vulnérables à de telles violations de données. Dans un incident qui a fait la une des journaux, ChatGPT, le grand modèle de langage (LLM) d'OpenAI, a affiché à certains utilisateurs les titres des historiques de conversation d'autres utilisateurs.5 Des risques existent également pour les petits modèles d'IA propriétaires. Prenons l'exemple d'une entreprise de soins de santé qui développe une application de diagnostic interne alimentée par l'IA à partir des données de ses clients. Cette application pourrait involontairement divulguer les informations privées des clients à d'autres clients qui utiliseraient une invite spécifique. Même un tel partage de données involontaire peut entraîner de graves atteintes à la vie privée.
Les efforts déployés par les responsables politiques pour empêcher les avancées technologiques de compromettre la vie privée des individus remontent au moins aux années 1970. Cependant, la croissance rapide de la collecte de données commercialisées et le déploiement de l’IA ont créé une nouvelle urgence de légiférer sur la confidentialité des données. Citons notamment :
Le RGPD établit plusieurs principes que les responsables du traitement et les sous-traitants doivent respecter lorsqu’ils traitent des données à caractère personnel. En vertu du principe de limitation de la finalité, les entreprises doivent avoir à l’esprit un objectif spécifique et légal pour toutes les données qu’elles collectent. Elles doivent informer les utilisateurs de cet objectif et collecter uniquement la quantité minimale de données requise à cette fin.
Les entreprises doivent également utiliser les données de manière équitable. Elles doivent tenir les utilisateurs informés du traitement des données à caractère personnel et respecter les règles de protection des données. En vertu du principe de limitation du stockage, une entreprise ne peut conserver les données à caractère personnel que jusqu’à ce que son objectif soit atteint. Les données doivent être supprimées dès qu’elles ne sont plus nécessaires.
Considérée comme le premier cadre réglementaire complet au monde pour l’IA, la loi sur l'IA de l'UE interdit certaines utilisations de l’IA et impose des exigences strictes en matière de gouvernance, de gestion des risques et de transparence pour d’autres.
Bien que la loi sur l'IA de l'UE ne comporte pas de pratiques interdites spécifiques en matière de confidentialité de l'IA, elle encadre l'utilisation des données. Parmi ces pratiques d'IA interdites :
Les systèmes d’IA à haut risque doivent répondre à des exigences telles que l’adoption de bonnes pratiques de gouvernance des données, afin de garantir que les données d’entraînement, de validation et de test répondent à des critères de qualité bien précis.
Des lois sur la protection des données sont entrées en vigueur dans plusieurs États américains ces dernières années. Citons notamment le California Consumer Privacy Act et la loi texane sur la protection des données. En mars 2024, l'Utah a promulgué la loi sur l'intelligence artificielle (Artificial Intelligence and Policy Act), considérée comme la première loi d'État majeure régissant spécifiquement l'utilisation de l'IA.
Au niveau fédéral, le gouvernement américain n'a pas encore adopté de nouvelles lois nationales sur l'IA et la protection des données. Cependant, en 2022, le Bureau de la politique scientifique et technologique de la Maison Blanche (OSTP) a publié son « Schéma directeur pour une Charte des droits de l'IA ». Ce cadre non contraignant énonce cinq principes pour guider le développement de l'IA, y compris une section consacrée à la protection des données encourageant les professionnels de l'IA à obtenir le consentement des individus pour l'utilisation de leurs données.
La Chine est l'un des premiers pays à avoir adopté des réglementations sur l'IA. En 2023, la Chine a publié ses « Mesures provisoires pour l'administration des services d'intelligence artificielle générative ». En vertu de cette loi, la fourniture et l'utilisation de services d'IA générative doivent « respecter les droits et intérêts légitimes d'autrui » et sont tenues de « ne pas mettre en danger la santé physique et mentale d'autrui, et ne pas porter atteinte aux droits à l'image, à la réputation, à l'honneur, à la vie privée et aux droits à la protection des données personnelles d'autrui ».6
Les entreprises peuvent élaborer des approches en matière de confidentialité de l’IA pour se conformer aux réglementations et gagner la confiance de leurs parties prenantes.7 Voici les recommandations de l’OSTP :
Les risques liés à la confidentialité doivent être évalués et traités tout au long du cycle de développement d’un système d’IA. Ces risques peuvent inclure des dommages potentiels pour ceux qui ne sont pas utilisateurs du système mais dont les informations personnelles pourraient être inférées au moyen d'une analyse avancée des données.
Les organisations devraient limiter la collecte de données d'entraînement à ce qui peut être collecté légalement et utilisé « conformément aux attentes des personnes dont les données sont collectées ». Outre cette minimisation des données, les entreprises devraient également établir des délais de conservation des données, dans le but de supprimer les données dans les meilleurs délais.
Les entreprises doivent fournir au public des mécanismes de « consentement, d’accès et de contrôle » sur ses données. Le consentement doit être à nouveau recueilli si le cas d’utilisation qui a motivé la collecte des données a changé.
Les entreprises qui utilisent l’IA doivent suivre les bonnes pratiques de sécurité pour éviter les fuites de données et de métadonnées. Il peut s’agir d’avoir recours à la cryptographie, à l’anonymisation et aux mécanismes de contrôle d’accès.
Les données provenant de certains domaines devraient faire l'objet d'une protection renforcée et ne être utilisées que dans des « contextes étroitement définis ». Ces « domaines sensibles » comprennent la santé, l'emploi, l'éducation, la justice pénale et les finances personnelles. Les données générées par ou concernant des enfants sont également considérées comme sensibles, même si elles ne relèvent pas de l'un des domaines mentionnés.
Les organisations devraient répondre aux demandes des individus souhaitant savoir quelles sont leurs données utilisées par un système d'IA. Les organisations devraient également fournir de manière proactive au public des rapports récapitulatifs généraux sur la manière dont les données des personnes sont utilisées, consultées et stockées. En ce qui concerne les données provenant de domaines sensibles, les organisations devraient également signaler les failles ou les violations de sécurité entraînant des fuites de données.
Les outils et programmes de gouvernance des données aident les entreprises à suivre les recommandations de l’OSTP, ainsi que d’autres bonnes pratiques en matière de confidentialité de l’IA. En déployant ces outils logiciels, les entreprises peuvent :
À mesure que les lois sur l'IA et la protection des données évoluent, les solutions technologiques émergentes peuvent permettre aux entreprises de suivre l'évolution de la réglementation et d'être préparées en cas d'audits par les autorités de contrôle. Les solutions de pointe automatisent l'identification des modifications réglementaires et leur transposition en politiques applicables.
1 « Privacy in an AI Era: How Do We Protect Our Personal Information? » Stanford University Institute of Human-Centered Artificial Intelligence, 18 mars 2024.
2 « LinkedIn Is Quietly Training AI on Your Data—Here’s How to Stop It », PCMag, 18 septembre 2024.
3 « Artist finds private medical record photos in popular AI training data set. » Ars Technical, 21 septembre 2022.
4 « When Artificial Intelligence Gets It Wrong », Innocence Project. 19 septembre 2023.
5 « OpenAI CEO admits a bug allowed some ChatGPT users to see others’ conversation titles », CNBC, 17 avril 2023.
6 Interim Measures for the Administration of Generative Artificial Intelligence Services, Cyberspace Administration of China, 13 juillet 2023.
7 « Blueprint for an AI Privacy Bill of Rights », l’Office for Science and Technology Policy de la Maison Blanche, consulté le 19 septembre 2024.