My IBM Se connecter S’abonner

Accueil

Thèmes

Données synthétiques

Qu’est-ce que les données synthétiques ?

Qu’est-ce que les données synthétiques ?

Générez des données synthétiques avec les solutions IBM S’inscrire pour recevoir les dernières informations sur l’IA
Illustration par un collage de pictogrammes représentant des nuages, un diagramme circulaire, des pictogrammes de graphique
Qu’est-ce que les données synthétiques ?

Qu’est-ce que les données synthétiques ?

Les données synthétiques sont des données qui ont été créées artificiellement par simulation informatique ou que des algorithmes peuvent générer pour remplacer des données réelles. Ces données peuvent être utilisées comme alternative ou complément aux données réelles lorsque ces dernières ne sont pas aisément accessibles ; elles peuvent également faciliter les expériences en science des données.

Ces nouvelles données peuvent être intégrées à des jeux de données test et sont plus fréquemment utilisées pour entraîner les modèles de machine learning, car elles s’affranchissent des problèmes de confidentialité. Les données synthétiques sont particulièrement plébiscitées par le secteur de la santé. En effet, elles permettent de préserver l’anonymat des patients et facilitent les essais cliniques dans ce secteur soumis à des normes strictes en matière de confidentialité. Parmi ces réglementations, citons la loi HIPAA (Health Insurance Portability and Accountability Act), une loi fédérale américaine qui protège également les informations des patients contre la discrimination. Il s’agit d’ailleurs d’un autre avantage des données synthétiques, qui peuvent aider à éliminer ces biais grâce à l’IA.

Bien qu’artificielles, les données synthétiques présentent les mêmes propriétés mathématiques et statistiques que les données réelles. Cette approche profite aujourd’hui d’un regain d’intérêt suscité par le développement de l’apprentissage profond et d’autres cas d’utilisation associés. 

Gartner, une société d’études de marché, prévoit que 60 % des données utilisées dans l’entraînement des modèles d’IA seront générées synthétiquement d’ici 2024.

Choisir le bon modèle de fondation

Utilisez ce cadre de sélection de modèles pour choisir le modèle le plus approprié tout en équilibrant vos exigences de performance avec les coûts, les risques et les besoins de déploiement.

Contenu connexe Obtenir le livre blanc sur la gouvernance de l’IA
Comment fonctionnent les données synthétiques ?

Comment fonctionnent les données synthétiques ?

Les données synthétiques sont créées à l’aide d’un programme, avec des techniques de machine learning, pour reproduire les propriétés statistiques de données réelles. Les données synthétiques peuvent être générées de plusieurs manières, sans aucune limite de taille, de temps ou d’emplacement. 

Le jeu de données peut être collecté à partir d’individus, d’événements ou d’objets réels à l’aide de simulations informatiques ou d’algorithmes. Pour générer ces données, il est ainsi possible d’utiliser des outils open source, qui peuvent être achetés. Grâce à ces outils, les data scientists pourront alors modéliser les informations déjà obtenues via les données réelles pour créer un nouvel ensemble de données de synthèse. 

Parmi ces outils, citons le Synthetic Data Vault (SDV), développé à MIT. Il s’agit d’un écosystème de bibliothèques de génération de données synthétiques « qui permet aux utilisateurs d’apprendre facilement des jeux de données à table unique, table multiple et de série temporelle pour générer plus tard de nouvelles données de synthèse présentant le même format et les mêmes propriétés statistiques que le jeu de données d’origine », comme l’explique SDV.

Plusieurs méthodes permettent de produire des données synthétiques : 

Auto-encodeurs variationnels (VAE) : les VAE sont des modèles génératifs dans lesquels des paires de réseaux encodeur-décodeur sont entraînées à reconstruire les distributions des données d’entraînement de manière à ce que l’espace latent du réseau encodeur soit lisse.

Vidéo sur les réseaux antagonistes génératifs (GAN) (8:22) : les GAN ont été créés par Ian Goodfellow pour créer de fausses images reproduisant les vraies. Les GAN offrent une vaste applicabilité dans l’entraînement de modèles pour générer des représentations réalistes et très détaillées.

Un réseau adverse génératif (GAN) est un outil de machine learning dont l’architecture est composée de deux réseaux neuronaux. L’objectif du réseau générateur est de produire un résultat avec un fort degré de réalisme. Si nous prenons l’exemple d’une fleur, le réseau sélectionnera alors de vraies fleurs de manière aléatoire pour produire des fleurs artificielles.

Donnée synthétique, augmentée et anonymisée

Donnée synthétique, augmentée et anonymisée

Les données synthétiques ne doivent pas être confondues avec les données augmentées ou anonymisées. Voici ce qui distingue ces trois types de données.

L’augmentation de données est une technique qui consiste à modifier légèrement les données d’origine pour en créer des copies modifiées. L’objectif est d’augmenter artificiellement la taille du jeu de données. Cette technique est notamment appliquée aux images, qui sont modifiées à l’aide de filtres, tels que le flou et la rotation, pour créer de nouvelles versions d’images ou scènes existantes. L’augmentation de données permet par exemple d’éclaircir ou de faire pivoter une image pour en créer une nouvelle. 

L’anonymisation de données permet quant à elle de protéger les données sensibles, telles que les données personnelles ou les données métier à caractère restreint, afin d’en préserver la confidentialité. L’anonymisation est définie dans les règles de politique qui sont appliquées à un actif. Selon la méthode d’anonymisation utilisée, les données seront occultées, masquées ou remplacées.

À l’inverse, les données synthétiques utilisent le machine learning pour générer artificiellement de nouvelles données plutôt que d’altérer ou de modifier des données réelles.

Les différents types de données synthétiques

Les différents types de données synthétiques

Les données de synthèse sont appréciées pour leur fiabilité et leur capacité à générer de vastes jeux de données d’entraînement qui permettent d’entraîner des réseaux neuronaux sans avoir à étiqueter manuellement les données. Elles offrent de nombreuses utilisations et plusieurs approches sont possibles en la matière.

Voici quelques types de données synthétiques :

  • Entièrement synthétiques : aucune donnée réelle n’est utilisée avec cette technique. Le programme informatique peut toutefois utiliser les caractéristiques de données réelles pour affiner et estimer des paramètres réalistes. En général, le générateur de données utilisé pour cette technique détermine la fonction de densité des caractéristiques des données réelles, puis estime les paramètres. Les données sont ensuite générées de manière aléatoire et offrent donc une excellente protection en matière de confidentialité. Avec cette technique, les données protégées en matière de confidentialité ne sont que masquées.
  • Données partiellement synthétiques : cette technique consiste à remplacer uniquement certaines données sensibles par des valeurs synthétiques en conservant certaines données réelles ou non structurées existantes. Elle peut être utilisée par des data scientists pour combler certaines lacunes dans les données d’origine tout en préservant la confidentialité du jeu de données. Ce type de données peut être généré via l’imputation multiple ou des techniques basées sur des modèles.
  • Données hybrides : un mélange de données réelles et synthétiques qui consiste à extraire des données aléatoires d’un jeu de données réel pour les associer à des données synthétiques proches. Cette technique permet de profiter à la fois des avantages des données entièrement synthétiques et partiellement synthétiques. Malgré ses bénéfices en matière de confidentialité, elle s’accompagne d’un temps de traitement plus long et nécessite plus de mémoire.
Avantages et défis des données synthétiques

Avantages et défis des données synthétiques

Face à cette popularité croissante, il convient de tenir compte à la fois des avantages indéniables des données de synthèse, mais aussi des défis associés. Générer des données synthétiques exige de faire appel à des spécialistes de l’IA hautement qualifiés qui maîtrisent les subtilités des données. Les entreprises ou organisations qui souhaitent utiliser des données synthétiques doivent également établir un cadre pour évaluer la fiabilité de leurs projets de génération de données. 

  • Qualité des données : contrairement aux données réelles, les données synthétiques éliminent les inexactitudes ou les erreurs qui peuvent survenir lorsque l’on travaille avec des données compilées dans le monde réel. Les données synthétiques peuvent fournir des données équilibrées et de haute qualité si elles s’accompagnent de variables appropriées. Les données générées artificiellement permettent également de combler les valeurs manquantes et de créer des étiquettes pour formuler des prévisions plus précises pour votre entreprise ou votre activité.  

L’étiquetage des données est un aspect chronophage du machine learning, que les données synthétiques permettent d’éliminer avec à la clé un gain de temps et une réduction des coûts. Les données synthétiques ont déjà été générées de manière synthétique et, par conséquent, elles ont déjà été correctement étiquetées. 

  • Évolutivité : le machine learning exige de grandes quantités de données, un défi que les données synthétiques aident aussi à relever. Il est souvent difficile d’obtenir le volume de données nécessaire à l’entraînement et au test d’un modèle prédictif. Les données synthétiques peuvent combler ces lacunes pour compléter les données du monde réel et obtenir des entrées à plus grande échelle. 

Les données synthétiques permettent aussi d’obtenir des données d’entraînement pour les cas extrêmes. Ces événements ou cas rares sont aussi essentiels à votre modèle IA. La capacité des données synthétiques à fournir des données pour les cas extrêmes permet aux entreprises d’innover plus rapidement dans différents domaines, puisqu’elles n’ont pas à attendre de nouveaux points de données rares.

Il existe également des cas d’utilisation qui peuvent être si nouveaux qu’il n’existe pas encore de données réelles. Là encore, les données générées par l’IA peuvent vous aider. Imaginez par exemple que vous souhaitiez préparer des jeux de données pour évaluer l’impact potentiel d’une pandémie mondiale.

  • Facilité d’utilisation : lorsqu’il s’agit de données réelles, plusieurs facteurs extérieurs entrent en jeu, tels que la confidentialité, les erreurs de filtrage voire la conversion des données pour que les formats correspondent. À l’inverse, les données synthétiques sont plus simples à générer et éliminent tout risque d’inexactitude ou de doublon. Toutes les données bénéficient d’un formatage et d’un étiquetage uniformes, deux critères essentiels en présence de volumes de données conséquents. 
  • Biais : les données synthétiques contribuent aussi à réduire les biais en générant des jeux de données plus équilibrés. Bien que les données synthétiques soient basées sur des données réelles, les modèles de machine learning permettent en effet d’atténuer les biais associés. 

Il convient de préciser que les données synthétiques ne sont pas la solution parfaite pour éliminer les biais, comme on le voit dans les études sur les données synthétiques dans le domaine de la médecine. Les études montrent que certaines cohortes de patients peuvent être sous-représentées dans les données réelles, ce qui peut conduire à la transmission de biais dans le machine learning. 

  • Confidentialité : les problèmes de confidentialité liés à l'utilisation de données réelles sont plus ou moins éliminés lorsqu'on utiliser des données synthétiques, ce qui représente un avantage majeur pour les entreprises. Les données générées par l’IA peuvent ressembler à des données réelles, mais il est impossible de remonter à un quelconque jeu d’origine. Cette technique est présentée comme un palliatif aux données personnelles, qu'il n'est généralement pas possible d'utiliser. 
Cas d’utilisation des données synthétiques par secteur  

Cas d’utilisation des données synthétiques par secteur  

  • Professionnels de santé : l’utilisation de données synthétiques par le biais des GAN a suscité beaucoup d’intérêt en raison de sa capacité à créer de « fausses données fiables », comme l’explique The Lancet. Les données synthétiques ont gagné en popularité dans ce secteur, notamment parce qu’elles peuvent contribuer à améliorer la recherche clinique sans compromettre les dossiers médicaux des patients ni leur confidentialité. « Les données synthétiques permettent de créer de faux dossiers de patients et de fausses images médicales qui sont réellement non identifiables, puisque les données ne se rapportent à aucun individu réel. Dans un sens, les données synthétiques sont dérivées des données réelles d’origine, mais aucun point de données synthétique ne permet de reconstruire un unique point de données réel », explique The Lancet. 
  • Véhicules autonomes : les entreprises qui produisent des véhicules autonomes utilisent les données synthétiques pour tester ces véhicules de manière sécurisée au moyen d’une simulation réaliste. Il est ainsi possible de générer des données synthétiques pour entraîner les véhicules autonomes à circuler dans un parking et autour de piétons simulés. Avec un impact significatif sur leurs performances, cette technique pourrait largement contribuer à leur mise en circulation dans le monde réel. Pour recueillir des données de manière traditionnelle, il faut être témoin d’accidents ou de collisions en temps réel. Avec les données synthétiques, cela n’est désormais plus nécessaire.
  • Secteur bancaire : le secteur financier tire parti des données synthétiques pour exposer les activités frauduleuses associées aux cartes bancaires. Les opérations frauduleuses peuvent ainsi être identifiées grâce à l’utilisation de techniques basées sur les données synthétiques. Ces dernières permettent aussi d’évaluer les systèmes de détection des fraudes afin de garantir leur bon fonctionnement et/ou de créer de nouvelles voies de détection. 

Contributions d’IBM aux données synthétiques 

Contributions d’IBM aux données synthétiques 

Les cas d’utilisation les plus courants des données synthétiques au sein d’IBM sont les suivants :

  • Entraînement de modèles IA/de machine learning : les données synthétiques sont de plus en plus utilisées pour entraîner les modèles d’IA. Citons comme exemple des images synthétiques adaptées à des tâches d’IA spécifiques. Générées par ordinateur, les images artificielles semblent réelles, mais elles ne nécessitent pas les mêmes autorisations que leurs équivalents réels. Pour cela, il est notamment possible d’utiliser des modèles génératifs. Des chercheurs d’IBM, en collaboration avec leurs collègues de l’Université de Boston, ont ainsi développé Task2Sim, un modèle d’IA entraîné à générer de fausses données spécifiques pour le pré-entraînement des modèles de classification d’images. « L’avantage des images synthétiques, c’est que vous pouvez contrôler leurs paramètres : l’arrière-plan, l’éclairage et la manière dont les objets sont posés », explique Rogerio Feris, l’un des chercheurs IBM ayant participé à la rédaction des deux articles. « Il est possible de générer un nombre illimité de données d’entraînement et d’obtenir des étiquettes gratuitement. »
  • Modèles de langage : dans un article présenté par IBM lors de l’International Conference on Learning Representations en 2022, des chercheurs ont montré que « le pré-entraînement d’un modèle linguistique dans une langue inventée à partir d’images pourrait faciliter l’apprentissage des langues à faibles ressources comme l’ourdou », selon un article de blog d’IBM. Yang Zhang, chercheur IBM au MIT-IBM Watson AI Lab ajoute : « Lorsque les humains apprennent à parler, ils associent les mots à des concepts visuels. Nous nous appuyons sur cette idée ».

 

Solutions IBM

Solutions IBM

watsonx.ai

Expérimentez avec des modèles de fondation et créez automatiquement des modèles de machine learning dans notre studio nouvelle génération pour les générateurs d’IA.

Découvrir
Ressources

Ressources

Cinq façons dont IBM utilise les données synthétiques pour améliorer les modèles IA Task2Sim : vers un pré-entraînement et un transfert efficaces à partir de données synthétiques
Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai Réserver une démo live