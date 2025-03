L’un des avantages de l’utilisation des données synthétiques est qu’elles ne contiennent pas de données sensibles ou d’informations personnelles. Cependant, les entreprises doivent vérifier que les nouvelles données générées sont conformes aux réglementations en matière de confidentialité, notamment le Règlement général sur la protection des données (RGPD) de l’Union européenne ou la loi Health Insurance Portability and Accountability Act (HIPAA) aux États-Unis.

Traitez les données synthétiques comme des données propriétaires, en appliquant des mesures de sécurité et des contrôles d’accès intégrés pour empêcher les piratages et les fuites de données. Des mesures de protection doivent également être appliquées lors du processus de génération pour empêcher le risque que des données synthétiques fassent l’objet d’une rétro-ingénierie et qu’elles puissent être remontées à leur équivalent réel, révélant des informations sensibles au moment de l’analyse des données. Ces mesures de protection comprennent des techniques telles que le masquage pour préserver les données sensibles, l’anonymisation pour nettoyer ou supprimer les informations personnelles (PII), et la confidentialité différentielle pour ajouter du « bruit » ou introduire un aspect aléatoire dans le jeu de données.

« Il faut, au minimum, masquer ou nettoyer les données personnelles. On peut aussi aller plus loin en utilisant des méthodes de confidentialité différentielle », explique M. Srivastava. « Cela devient encore plus important si l’on n’utilise pas de modèles locaux. Si l’on envoie [des données] à un fournisseur tiers, il faut faire encore plus attention à ces aspects ».

Notez qu’il n’est généralement pas possible d’optimiser simultanément des données synthétiques pour en améliorer à la fois la fidélité, l’utilité et la confidentialité : un compromis est souvent nécessaire. Le masquage ou l’anonymisation peuvent ostensiblement réduire l’utilité, tandis que la confidentialité différentielle peut diminuer légèrement la précision. Cependant, l’absence de mesures de confidentialité peut potentiellement exposer les informations personnelles. Les organisations doivent équilibrer et prioriser les éléments essentiels à leurs cas d’utilisation spécifiques.