Les données synthétiques sont des données artificielles conçues pour imiter les données du monde réel. Elles sont générées par des méthodes statistiques ou via des techniques d’intelligence artificielle (IA) telles que l’apprentissage profond et l’IA générative.
Bien qu’elles soient générées artificiellement, les données synthétiques conservent les propriétés statistiques sous-jacentes des données d’origine sur lesquelles elles sont basées. Ainsi, les jeux de données synthétiques peuvent compléter ou même remplacer les jeux de données réels.
Les données synthétiques peuvent servir de substitut aux données de test et sont principalement utilisées pour entraîner les modèles de machine learning : elles constituent ainsi une solution potentielle à la demande croissante, face à une offre limitée, de données d’entraînement réelles de haute qualité pour les modèles d’IA. Cependant, les données synthétiques gagnent également en popularité dans des secteurs tels que la finance et la santé, où les données sont des denrées limitées, longues à obtenir ou difficiles d’accès en raison des exigences concernant leur confidentialité et leur sécurité. En effet, le cabinet d’études Gartner prévoit que d’ici 2026, 75 % des entreprises utiliseront l’IA générative pour créer des données client synthétiques.1
Les données synthétiques peuvent se présenter sous plusieurs formes : multimédias, tabulaires ou textuelles. Les données synthétiques textuelles peuvent être utilisées pour le traitement automatique du langage naturel (NLP), tandis que les données synthétiques tabulaires peuvent être utilisées pour créer des tables de bases de données relationnelles. Les données synthétiques multimédias, comme la vidéo, les images ou d’autres données non structurées, peuvent être utilisées pour les tâches de vision par ordinateur telles que la classification d’images, la reconnaissance d’images et la détection d’objets.
Les données synthétiques peuvent également être classées en fonction de leur niveau de synthétisation :
L’obtention de données entièrement synthétiques implique la génération de données entièrement nouvelles qui ne contiennent aucune information du monde réel. Le processus estime les attributs, les schémas et les relations qui sous-tendent les données réelles afin de les reproduire aussi fidèlement que possible.
Les organisations financières, par exemple, pourraient ne pas disposer d’échantillons de transactions suspectes suffisants pour entraîner efficacement les modèles d’IA à la détection des fraudes. Elles pourraient alors générer des données entièrement synthétiques représentant des transactions frauduleuses pour améliorer l’entraînement des modèles, une démarche similaire à l’approche de la société de services financiers JP Morgan.
Les données partiellement synthétiques sont dérivées d’informations du monde réel, mais certaines parties du jeu de données d’origine (généralement celles qui contiennent des informations sensibles) sont remplacées par des valeurs artificielles. Cette technique préserve la confidentialité et permet de protéger les données personnelles tout en conservant les caractéristiques des données réelles.
Les données partiellement synthétiques peuvent être particulièrement utiles dans les recherches cliniques, par exemple, où les données réelles sont cruciales pour obtenir de bons résultats, mais où la protection des données personnelles (PII) et des dossiers médicaux des patients est tout aussi critique.
Les données synthétiques hybrides combinent des jeux de données réels avec des jeux entièrement synthétiques. Les enregistrements du jeu de données d’origine sont associés de manière aléatoire aux enregistrements de leurs homologues synthétiques. Les données synthétiques hybrides peuvent être utilisées pour analyser les données client et en extraire des informations, par exemple, sans qu’aucune donnée sensible ne puisse être associée à un client spécifique.
Les organisations peuvent choisir de générer leurs propres données synthétiques. Elles peuvent également utiliser des solutions telles que Synthetic Data Vault, une bibliothèque Python qui permet de créer des données synthétiques, ou d’autres éléments open source comme des algorithmes, des cadres, des packages et autres outils. Il est également possible d’utiliser des jeux de données prédéfinis, comme IBM Synthetic Data Sets.
Voici quelques techniques courantes de génération de données synthétiques :
Ces méthodologies conviennent aux données dont la distribution, les corrélations et les caractéristiques sont bien connues et peuvent donc être simulées via des modèles mathématiques.
Dans les approches basées sur la distribution, des fonctions statistiques peuvent être utilisées pour définir la distribution des données. Ensuite, par échantillonnage aléatoire à partir de cette distribution, de nouveaux points de données peuvent être générés.
Pour les stratégies basées sur les corrélations, des processus d’interpolation ou d’extrapolation peuvent être appliqués. Dans les séries temporelles, par exemple, l’interpolation linéaire permet de créer de nouveaux points de données entre des points adjacents, tandis que l’extrapolation linéaire permet de générer des points de données au-delà des points existants.
Les réseaux antagonistes génératifs (GAN) impliquent une paire de réseaux de neurones : un générateur qui crée des données synthétiques et un discriminateur qui agit comme un adversaire en distinguant les données réelles des données artificielles. Ces deux réseaux sont entraînés de manière itérative, les commentaires du discriminateur améliorant la production du générateur jusqu’à ce que le discriminateur ne soit plus capable de distinguer les données artificielles des données réelles. Les GAN sont souvent utilisés pour la génération d’images.
Les modèles Transformer, tels que les transformers génératifs préentraînés (GPT) d’OpenAI, servent de base aux petits modèles de langage (SLM) et aux grands modèles de langage (LLM). Les transformers traitent les données à l’aide d’encodeurs et de décodeurs.
Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des tokens dans la séquence d’entrée. Un mécanisme d’auto-attention permet aux transformers de « concentrer leur attention » sur les tokens les plus importants de la séquence d’entrée, quelle que soit leur position. Les décodeurs utilisent ensuite ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.
Les modèles Transformer excellent dans la compréhension de la structure et des schémas du langage. De ce fait, ils peuvent être utilisés pour créer des données textuelles artificielles ou générer des données synthétiques tabulaires.
Les auto-encodeurs variationnels (VAE) sont des modèles génératifs qui produisent des variations des données sur lesquelles ils sont entraînés. Un encodeur compresse les données d’entrée dans un espace de dimension inférieure, capturant les informations significatives contenues dans l’entrée. Un décodeur reconstruit ensuite les nouvelles données à partir de cette représentation compressée. À l’instar des GAN, les VAE peuvent être utilisés pour générer des images de synthèse.
Cette stratégie de simulation implique la modélisation d’un système complexe pour créer un environnement virtuel contenant des entités individuelles, également appelées agents. Les agents fonctionnent sur la base d’un ensemble prédéfini de règles pour interagir avec leur environnement et d’autres agents. La modélisation basée sur les agents simule ces interactions et comportements pour produire des données synthétiques.
Par exemple, en épidémiologie, ces modèles représentent les individus d’une population comme des agents. En modélisant les interactions des agents, il est possible de générer des données synthétiques telles que le taux de contact et la probabilité d’infection. Ces données peuvent ensuite permettre de prévoir la propagation des maladies infectieuses et d’examiner les effets des interventions.
Les données synthétiques sont une technologie en plein essor. Voici les avantages qu’elles offrent aux entreprises :
Les équipes de science des données peuvent adapter les données synthétiques aux spécifications et aux besoins exacts d’une entreprise. Et comme les data scientists ont un meilleur contrôle sur les jeux de données synthétiques, leur gestion et leur analyse deviennent plus faciles.
La génération de données synthétiques élimine le processus chronophage de collecte de données réelles, ce qui permet de les produire plus rapidement et d’accélérer les workflows. Les données synthétiques sont également pré-étiquetées, ce qui évite l’étape fastidieuse de l’étiquetage et de l’annotation manuels de grands volumes de données.
Les données synthétiques ressemblent à des données réelles, mais elles peuvent être générées de telle sorte qu’aucune donnée personnelle ne puisse être remontée à un individu en particulier. Cette anonymisation des données permet de protéger les informations sensibles. Les données synthétiques permettent également aux entreprises d’éviter les problèmes de propriété intellectuelle et de droits d’auteur, car elles se passent des robots d’indexation qui récupèrent et collectent des informations sur les sites web à l’insu des utilisateurs ou sans leur consentement.
Les jeux de données artificiels peuvent améliorer la diversité des données, en créant ou en augmentant les données concernant les groupes sous-représentés dans l’entraînement de l’IA. Les données synthétiques peuvent également combler les lacunes lorsque les données d’origines sont insuffisantes, ou en l’absence de données réelles. De même, l’ajout de cas marginaux ou de données aberrantes en tant que points de données peut élargir le champ des jeux de données synthétiques, reflétant la variabilité et l’imprévisibilité du monde réel.
Malgré les avantages des données synthétiques, elles présentent également quelques inconvénients. En suivant les bonnes pratiques de génération de données synthétiques, les entreprises pourront remédier à ces inconvénients et maximiser la valeur des données artificielles.
Voici quelques défis associés aux données synthétiques :
Les données synthétiques peuvent toujours refléter les biais potentiellement présents dans les données réelles sur lesquelles elles reposent. L’utilisation de sources de données diversifiées et l’ajout de sources multiples, provenant notamment de régions et de groupes démographiques variés, peuvent contribuer à atténuer ces biais.
On parle d’effondrement du modèle lorsqu’un modèle d’IA est entraîné de manière répétée sur des données générées par l’IA, ce qui entraîne une baisse de la performance du modèle. Pour prévenir ce phénomène, les entreprises doivent trouver le bon équilibre entre jeux de données réelles et artificielles.
Au cours du processus de génération de données synthétiques, une bataille entre précision et confidentialité s’engage. Prioriser la précision peut impliquer de garder plus de données personnelles, tandis que se focaliser sur la confidentialité peut entraîner une réduction de leur précision. Il est essentiel pour les entreprises de trouver le bon équilibre pour leurs cas d’utilisation.
Des vérifications et des tests supplémentaires doivent être menés pour valider la qualité des données synthétiques après leur génération. Cela ajoute une étape au workflow, mais il est crucial de s’assurer que les jeux de données artificiels sont exempts d’erreurs, d’incohérences ou d’inexactitudes.
Les données synthétiques sont polyvalentes et peuvent être générées pour un large éventail d’applications. Voici quelques secteurs dans lesquels les données synthétiques peuvent être utiles :
La modélisation basée sur les agents peut être utilisée pour générer des données artificielles relatives à la circulation, contribuant ainsi à l’amélioration des routes et systèmes de transport. Les données synthétiques peuvent permettre aux constructeurs automobiles d’éviter le processus coûteux et chronophage de collecte de données de crash test réelles pour les tests de sécurité des véhicules. Les constructeurs de véhicules autonomes peuvent utiliser des données synthétiques pour entraîner les voitures autonomes à gérer différents scénarios.
Les données synthétiques financières peuvent être utilisées pour l’évaluation et la gestion des risques, la modélisation prédictive et le forecasting, et le test des algorithmes de trading, entre autres applications. Les IBM Synthetic Data Sets, par exemple, se composent de données simulées destinées à faciliter la détection des fraudes à la carte bancaire et à l’assurance habitation. Ils incluent également des simulations de transactions bancaires destinées à alimenter des solutions de lutte contre le blanchiment d’argent.
Les jeux de données synthétiques peuvent aider les entreprises pharmaceutiques à accélérer le développement de médicaments. Les médecins chercheurs, quant à eux, peuvent utiliser des données partiellement synthétiques pour les essais cliniques ou des données entièrement synthétiques pour créer des dossiers médicaux ou des images médicales artificiels afin de formuler des traitements innovants ou préventifs. La modélisation basée sur les agents peut également être appliquée en épidémiologie pour étudier la transmission des maladies et l’effet des interventions.
Les entreprises manufacturières peuvent utiliser des données synthétiques pour améliorer les capacités d’inspection visuelle des modèles de vision par ordinateur qui examinent les produits en temps réel pour détecter les défauts et les écarts par rapport aux normes. Les jeux de données artificiels peuvent également améliorer la maintenance prédictive : les données synthétiques de capteurs permettent aux modèles de machine learning de mieux anticiper les pannes d’équipement et de recommander rapidement les mesures appropriées.
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 avril 2024
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 Avril 2024
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io