Si la confidentialité des données en général est depuis longtemps un sujet de préoccupation, l’expression « confidentialité des données de l’IA » reconnaît que la technologie émergente de l’intelligence artificielle comporte de nouveaux risques et de nouvelles préoccupations en matière de confidentialité.
Lorsqu’ils sont entraînés, les systèmes d’IA apprennent à partir de vastes jeux de données. Le jeu de données Common Crawl sur lequel de nombreux modèles s’entraînent contient plus de 9,5 pétaoctets de données.1 De nombreuses personnes qui utilisent l’IA au quotidien peuvent également alimenter leurs systèmes en données sensibles, sans vraiment se rendre compte que cela porte atteinte à leur vie privée. De même, alors que le déploiement de l’IA s’étend à l’ère des agents d’IA, de nouveaux types de violations de la confidentialité surgissent en l’absence de contrôles d’accès ou de gouvernance de l’IA appropriés.
Les modèles d’IA ne traitent pas seulement plus de données : ils gèrent également les données différemment des systèmes existants. Si un logiciel traditionnel expose accidentellement des informations sensibles, un ingénieur peut intervenir et déboguer le code. Le problème avec les modèles d’IA (y compris les grands modèles de langage tels que ChatGPT), c’est qu’ils ne sont pas suffisamment codés pour évoluer grâce à un processus : le machine learning. Leurs propres créateurs ne savent pas exactement comment ils fonctionnent, ce qui rend le « débogage » conséquent, voire impossible.
Les sorties accidentelles constituent une catégorie de préoccupation, mais les entreprises doivent également se méfier des attaques délibérées et malveillantes. Les chercheurs ont démontré que les outils d’IA contiennent de nouveaux types de vulnérabilités que des hackers astucieux peuvent exploiter : c’est ce qu’on appelle l’apprentissage antagoniste.
Ces dernières années, par exemple, des experts en cybersécurité ont démontré qu’en exploitant une particularité des modèles d’IA, à savoir leurs sorties, qui reçoivent des scores de confiance plus élevés lorsqu’elles répondent aux données sur lesquelles ils ont été entraînés, un acteur malveillant peut déduire si certaines données faisaient partie d’un jeu d’entraînement. Dans certains scénarios, une telle inférence constituerait une violation de confidentialité majeure. Prenons l’exemple d’un modèle d’IA dont on sait qu’il a été entraîné sur des dossiers médicaux privés de patients séropositifs.
Dans un autre cas bien connu, les chercheurs ne se sont pas contentés de déduire si les données faisaient partie d’un jeu d’entraînement. Ils ont créé une attaque algorithmique capable d’assurer une rétro-ingénierie efficace sur les données utilisées pour entraîner un modèle. En exploitant un certain aspect des modèles d’IA, à savoir leurs « gradients », les chercheurs ont pu affiner de manière itérative une image bruitée pour obtenir une image se rapprochant étroitement d’un visage ayant servi à entraîner un modèle de reconnaissance faciale.2
Les enjeux liés à la protection des données restent élevés : le rapport IBM sur le coût d’une violation de données en 2025 a établi que le coût moyen de ces violations était de 4,4 millions de dollars. (Ces violations ont également un coût difficile à quantifier sous la forme d’une perte de confiance d’une clientèle avec une marque).
Si la plupart de ces violations de données n’impliquent pas l’IA, un nombre de plus en pus croissant l’implique. Le rapport 2025 AI Index Report de Stanford a révélé que le nombre d’incidents liés à la confidentialité et à la sécurité de l’IA a bondi de 56,4 % en un an, avec 233 cas signalés en 2024.3
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Les décideurs politiques du monde entier ont affirmé que les technologies d’IA ne devraient en aucun cas être exemptées de la responsabilité en matière de protection de base de la vie privée. Le Règlement général sur la protection des données (RGPD) de l’Union européenne, longtemps considéré comme une référence en matière de traitement des données personnelles (quelle que soit la juridiction), s’applique à l’utilisation des systèmes d’IA par les entreprises. Les principes du RGPD comprennent la minimisation des données (limiter la collecte au strict minimum nécessaire pour accomplir un objectif), la transparence (informer les utilisateurs de l’utilisation des données) et la limitation du stockage (ne pas conserver les données plus longtemps que nécessaire).
L’année 2024 a été une année charnière à cet égard, puisque plusieurs régulateurs ont commencé à appliquer les lois relatives à la protection de la vie privée dans des affaires impliquant des applications d’IA.
Ainsi, en 2024, la Commission irlandaise de protection des données a infligé une amende de 310 millions d’euros au réseau de médias sociaux LinkedIn suite à une violation de la confidentialité liée à l’IA. LinkedIn suivait certains comportements subtils des utilisateurs, tels que le temps passé sur une publication. Le site a ensuite utilisé l’IA pour tirer des conclusions sur ces utilisateurs (par exemple, s’ils recherchaient activement un nouvel emploi ou s’ils présentaient un risque élevé de souffrir d’épuisement professionnel). Ce profilage a ensuite été utilisé pour cibler les publicités et mettre à jour certains systèmes internes de classement de LinkedIn.
La Commission irlandaise a finalement déterminé que, malgré une certaine forme d’anonymisation, ces inférences dérivées de l’IA pouvaient mener jusqu’aux données identifiables des utilisateurs, enfreignant ainsi les lois sur la confidentialité des données. Les tribunaux ont jugé que LinkedIn n’avait pas respecté le principe de limitation des finalités du RGPD et n’avait pas obtenu le consentement direct des utilisateurs, violant ainsi la confidentialité des consommateurs. La décision a également contraint LinkedIn à mettre en place des mécanismes de consentement en temps réel et à revoir ses paramètres de personnalisation publicitaire par défaut.4
Toujours en 2024, la condamnation de la société de reconnaissance faciale Clearview IA illustrait le principe selon lequel les données biométriques (telles que les photos de visages) soulèvent des problèmes de confidentialité supplémentaires, même si les données sont techniquement accessibles au public (par exemple, sur un compte de réseau social non sécurisé).
La société Clearview avait récupéré 30 milliards d’images sur des sites comme Facebook et Instagram, arguant qu’elle n’avait pas besoin de l’autorisation des utilisateurs car les photos étaient publiquement disponibles en ligne. Cette vaste opération de collecte de données avait ensuite alimenté le développement par Clearview d’une base de données de reconnaissance faciale pilotée par l’IA.
Les forces de l’ordre néerlandaises ont critiqué l’approche de Clearview. L’Autorité néerlandaise de protection des données a finalement infligé une amende de 30,5 millions d’euros à l’entreprise, estimant que les droits individuels des citoyens néerlandais inclus dans la collecte de données de Clearview avaient été violés.5
Enfin, en 2024, l’Union européenne a étendu la réglementation spécifique à l’IA avec sa loi sur l’IA, entrée en vigueur en août de la même année. Le champ d’application de la loi ne se limite pas aux données liées à l’IA, mais s’étend aux risques liés à l’IA et au développement de l’IA en général. Cependant, beaucoup de ses dispositions concernent la sécurité des données, le partage des données et la gouvernance des données. Pour citer un exemple marquant : la loi interdit les systèmes d’identification biométrique qui utilisent des données et des modèles d’IA pour identifier les individus en fonction d’attributs sensibles tels que l’ethnie, la religion ou l’orientation sexuelle.
Dans ce paysage en constante évolution, qui semble exiger de concilier innovation et responsabilité, quelles mesures les entreprises peuvent-elles prendre pour trouver cet équilibre ? Si le sujet peut faire couler beaucoup d’encre, quelques principes peuvent guider l’entreprise vers une mise en œuvre responsable de l’IA.
Les anciens paradigmes de sécurité des données sont insuffisants lorsque les données sont ingérées, traitées et produites à plusieurs étapes du cycle de vie des modèles d’IA. Les data stewards (coordonnateurs des données), les spécialistes en conformité et autres parties prenantes doivent veiller à l’intégrité de leurs données d’entraînement, idéalement en effectuant des audits pour évaluer les risques pesant sur la confidentialité. Une entreprise affirme avoir découvert 12 000 clés d’API et mots de passe dans le jeu de données Common Crawl.6
De même, lorsqu’il s’agit de l’utilisation de mégadonnées générées par l’activité d’une entreprise, des normes telles que le RGPD et les réglementations connexes en matière de confidentialité peuvent constituer des guides utiles.
L’IA est un domaine très actif où les nouvelles recherches et les nouvelles découvertes font partie du quotidien. Les professionnels de la cybersécurité doivent donc se tenir au courant des dernières avancées technologiques afin de pouvoir corriger les vulnérabilités avant qu’elles ne soient exploitées par un acteur malveillant.
Les entreprises peuvent utiliser des technologies renforçant la confidentialité telles que l’apprentissage fédéré, la confidentialité différentielle et les données synthétiques. Comme toujours, elles peuvent mettre en place des contrôles d’accès stricts pour empêcher tout accès non autorisé, humains et agents IA confondus.
Alors que de plus en plus d’entreprises utilisent l’IA générative et d’autres technologies d’intelligence artificielle pour automatiser la prise de décision, les dirigeants se doivent d’aborder les pratiques alimentées par l’IA sous l’angle de la confidentialité, là où la notion de « données » est peut-être devenue floue. Ce principe est mis en évidence par les dispositions de LinkedIn mentionnées plus haut : dans certaines circonstances, faire des inférences en s’appuyant sur les schémas de données, malgré l’aspect de l’anonymisation, peut toujours aller à l’encontre du RGPD et des réglementations connexes.
À mesure que l’IA s’améliore dans la détection des schémas, elle risque de bouleverser la notion de données « anonymisées » telle qu’on la connaît aujourd’hui. Une étude publiée en 2019 dans Nature montrait qu’avec le bon modèle génératif, « 99,98 % des Américains pouvaient être correctement identifiés dans tout jeu de données utilisant 15 attributs démographiques ». Cette conclusion suggère que la notion même de donnée personnelle est en pleine transformation.7
Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.
Découvrez comment la gouvernance de l’IA peut contribuer à renforcer la confiance de vos employés dans l’IA, à accélérer l’adoption et l’innovation, et à améliorer la confiance des clients.
Préparez-vous à la loi européenne sur l’IA et adoptez une approche responsable de la gouvernance de l’IA avec IBM Consulting.
1. « Mozilla Report : How Common Crawl’s Data Infrastructure Shaped the Battle Royale over Generative AI », Mozilla, 6 février 2024
2. « Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures », CCS’15, octobre 2015
3. « The 2025 AI Index Report », Stanford HAI (Human-Centered Artificial Intelligence), avril 2025
4. « Fines for GDPR violations in AI systems and how to avoid them », EU Data Privacy Office, 16 octobre 2025
5. « Dutch DPA imposes a fine on Clearview because of illegal data collection for facial recognition », Autoriteit Persoonsgegevens, 3 septembre 2024
6. « Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek’s Training Data », Truffle Security, 27 février 2025
7. « Estimating the success of re-identifications in incomplete datasets using generative models », Nature Communications, 23 juillet 2019