Les données synthétiques sont créées à l’aide d’un programme, avec des techniques de machine learning, pour reproduire les propriétés statistiques de données réelles. Les données synthétiques peuvent être générées de plusieurs manières, sans aucune limite de taille, de temps ou d’emplacement.
Le jeu de données peut être collecté à partir d’individus, d’événements ou d’objets réels à l’aide de simulations informatiques ou d’algorithmes. Pour générer ces données, il est ainsi possible d’utiliser des outils open source, qui peuvent être achetés. Grâce à ces outils, les data scientists pourront alors modéliser les informations déjà obtenues via les données réelles pour créer un nouvel ensemble de données de synthèse.
Parmi ces outils, citons le Synthetic Data Vault (SDV), développé à MIT. Il s’agit d’un écosystème de bibliothèques de génération de données synthétiques « qui permet aux utilisateurs d’apprendre facilement des jeux de données à table unique, table multiple et de série temporelle pour générer plus tard de nouvelles données de synthèse présentant le même format et les mêmes propriétés statistiques que le jeu de données d’origine », comme l’explique SDV.
Plusieurs méthodes permettent de produire des données synthétiques :
Auto-encodeurs variationnels (VAE) : les VAE sont des modèles génératifs dans lesquels des paires de réseaux encodeur-décodeur sont entraînées à reconstruire les distributions des données d’entraînement de manière à ce que l’espace latent du réseau encodeur soit lisse.
Vidéo sur les réseaux antagonistes génératifs (GAN) (8:22) : les GAN ont été créés par Ian Goodfellow pour créer de fausses images reproduisant les vraies. Les GAN offrent une vaste applicabilité dans l’entraînement de modèles pour générer des représentations réalistes et très détaillées.
Un réseau adverse génératif (GAN) est un outil de machine learning dont l’architecture est composée de deux réseaux neuronaux. L’objectif du réseau générateur est de produire un résultat avec un fort degré de réalisme. Si nous prenons l’exemple d’une fleur, le réseau sélectionnera alors de vraies fleurs de manière aléatoire pour produire des fleurs artificielles.