My IBM Se connecter S’abonner

Qu’est-ce que les données synthétiques ?

31 janvier 2023

Qu’est-ce que les données synthétiques ?

Les données synthétiques sont des données artificielles conçues pour imiter les données du monde réel. Elles sont générées par des méthodes statistiques ou via des techniques d’intelligence artificielle (IA) telles que l’apprentissage profond et l’IA générative.

Bien qu’elles soient générées artificiellement, les données synthétiques conservent les propriétés statistiques sous-jacentes des données d’origine sur lesquelles elles sont basées. Ainsi, les jeux de données synthétiques peuvent compléter ou même remplacer les jeux de données réels.

Les données synthétiques peuvent servir de substitut aux données de test et sont principalement utilisées pour entraîner les modèles de machine learning : elles constituent ainsi une solution potentielle à la demande croissante, face à une offre limitée, de données d’entraînement réelles de haute qualité pour les modèles d’IA. Cependant, les données synthétiques gagnent également en popularité dans des secteurs tels que la finance et la santé, où les données sont des denrées limitées, longues à obtenir ou difficiles d’accès en raison des exigences concernant leur confidentialité et leur sécurité. En effet, le cabinet d’études Gartner prévoit que d’ici 2026, 75 % des entreprises utiliseront l’IA générative pour créer des données client synthétiques.1

Les différents types de données synthétiques

Les données synthétiques peuvent se présenter sous plusieurs formes : multimédias, tabulaires ou textuelles. Les données synthétiques textuelles peuvent être utilisées pour le traitement automatique du langage naturel (NLP), tandis que les données synthétiques tabulaires peuvent être utilisées pour créer des tables de bases de données relationnelles. Les données synthétiques multimédias, comme la vidéo, les images ou d’autres données non structurées, peuvent être utilisées pour les tâches de vision par ordinateur telles que la classification d’images, la reconnaissance d’images et la détection d’objets.

Les données synthétiques peuvent également être classées en fonction de leur niveau de synthétisation :

  • Entièrement synthétiques

  • Partiellement synthétiques

  • Hybride

Entièrement synthétiques

L’obtention de données entièrement synthétiques implique la génération de données entièrement nouvelles qui ne contiennent aucune information du monde réel. Le processus estime les attributs, les schémas et les relations qui sous-tendent les données réelles afin de les reproduire aussi fidèlement que possible.

Les organisations financières, par exemple, pourraient ne pas disposer d’échantillons de transactions suspectes suffisants pour entraîner efficacement les modèles d’IA à la détection des fraudes. Elles pourraient alors générer des données entièrement synthétiques représentant des transactions frauduleuses pour améliorer l’entraînement des modèles, une démarche similaire à l’approche de la société de services financiers JP Morgan.

Partiellement synthétiques

Les données partiellement synthétiques sont dérivées d’informations du monde réel, mais certaines parties du jeu de données d’origine (généralement celles qui contiennent des informations sensibles) sont remplacées par des valeurs artificielles. Cette technique préserve la confidentialité et permet de protéger les données personnelles tout en conservant les caractéristiques des données réelles.

Les données partiellement synthétiques peuvent être particulièrement utiles dans les recherches cliniques, par exemple, où les données réelles sont cruciales pour obtenir de bons résultats, mais où la protection des données personnelles (PII) et des dossiers médicaux des patients est tout aussi critique.

Hybride

Les données synthétiques hybrides combinent des jeux de données réels avec des jeux entièrement synthétiques. Les enregistrements du jeu de données d’origine sont associés de manière aléatoire aux enregistrements de leurs homologues synthétiques. Les données synthétiques hybrides peuvent être utilisées pour analyser les données client et en extraire des informations, par exemple, sans qu’aucune donnée sensible ne puisse être associée à un client spécifique.

Comment les données synthétiques sont-elles générées?

Les organisations peuvent choisir de générer leurs propres données synthétiques. Elles peuvent également utiliser des solutions telles que Synthetic Data Vault, une bibliothèque Python qui permet de créer des données synthétiques, ou d’autres éléments open source comme des algorithmes, des cadres, des packages et autres outils. Il est également possible d’utiliser des jeux de données prédéfinis, comme IBM Synthetic Data Sets.

Voici quelques techniques courantes de génération de données synthétiques :

  • Méthodes statistiques

  • Réseaux antagonistes génératifs (GAN)

  • Modèles Transformer

  • Auto-encodeurs variationnels (VAE)

  • Modélisation basée sur les agents

Méthodes statistiques

Ces méthodologies conviennent aux données dont la distribution, les corrélations et les caractéristiques sont bien connues et peuvent donc être simulées via des modèles mathématiques.

Dans les approches basées sur la distribution, des fonctions statistiques peuvent être utilisées pour définir la distribution des données. Ensuite, par échantillonnage aléatoire à partir de cette distribution, de nouveaux points de données peuvent être générés.

Pour les stratégies basées sur les corrélations, des processus d’interpolation ou d’extrapolation peuvent être appliqués. Dans les séries temporelles, par exemple, l’interpolation linéaire permet de créer de nouveaux points de données entre des points adjacents, tandis que l’extrapolation linéaire permet de générer des points de données au-delà des points existants.

Réseaux antagonistes génératifs (GAN)

Les réseaux antagonistes génératifs (GAN) impliquent une paire de réseaux de neurones : un générateur qui crée des données synthétiques et un discriminateur qui agit comme un adversaire en distinguant les données réelles des données artificielles. Ces deux réseaux sont entraînés de manière itérative, les commentaires du discriminateur améliorant la production du générateur jusqu’à ce que le discriminateur ne soit plus capable de distinguer les données artificielles des données réelles. Les GAN sont souvent utilisés pour la génération d’images.

modèles de transformation

Les modèles Transformer, tels que les transformers génératifs préentraînés (GPT) d’OpenAI, servent de base aux petits modèles de langage (SLM) et aux grands modèles de langage (LLM). Les transformers traitent les données à l’aide d’encodeurs et de décodeurs.

Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des tokens dans la séquence d’entrée. Un mécanisme d’auto-attention permet aux transformers de « concentrer leur attention » sur les tokens les plus importants de la séquence d’entrée, quelle que soit leur position. Les décodeurs utilisent ensuite ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.

Les modèles Transformer excellent dans la compréhension de la structure et des schémas du langage. De ce fait, ils peuvent être utilisés pour créer des données textuelles artificielles ou générer des données synthétiques tabulaires.

Auto-encodeurs variationnels (VAE)

Les auto-encodeurs variationnels (VAE) sont des modèles génératifs qui produisent des variations des données sur lesquelles ils sont entraînés. Un encodeur compresse les données d’entrée dans un espace de dimension inférieure, capturant les informations significatives contenues dans l’entrée. Un décodeur reconstruit ensuite les nouvelles données à partir de cette représentation compressée. À l’instar des GAN, les VAE peuvent être utilisés pour générer des images de synthèse.

Modélisation basée sur les agents

Cette stratégie de simulation implique la modélisation d’un système complexe pour créer un environnement virtuel contenant des entités individuelles, également appelées agents. Les agents fonctionnent sur la base d’un ensemble prédéfini de règles pour interagir avec leur environnement et d’autres agents. La modélisation basée sur les agents simule ces interactions et comportements pour produire des données synthétiques.

Par exemple, en épidémiologie, ces modèles représentent les individus d’une population comme des agents. En modélisant les interactions des agents, il est possible de générer des données synthétiques telles que le taux de contact et la probabilité d’infection. Ces données peuvent ensuite permettre de prévoir la propagation des maladies infectieuses et d’examiner les effets des interventions.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Avantages des données synthétiques

Les données synthétiques sont une technologie en plein essor. Voici les avantages qu’elles offrent aux entreprises :

  • Personnalisation

  • Efficacité

  • Confidentialité des données renforcée

  • Des données plus riches

Personnalisation

Les équipes de science des données peuvent adapter les données synthétiques aux spécifications et aux besoins exacts d’une entreprise. Et comme les data scientists ont un meilleur contrôle sur les jeux de données synthétiques, leur gestion et leur analyse deviennent plus faciles.

Efficacité

La génération de données synthétiques élimine le processus chronophage de collecte de données réelles, ce qui permet de les produire plus rapidement et d’accélérer les workflows. Les données synthétiques sont également pré-étiquetées, ce qui évite l’étape fastidieuse de l’étiquetage et de l’annotation manuels de grands volumes de données.

Confidentialité des données renforcée

Les données synthétiques ressemblent à des données réelles, mais elles peuvent être générées de telle sorte qu’aucune donnée personnelle ne puisse être remontée à un individu en particulier. Cette anonymisation des données permet de protéger les informations sensibles. Les données synthétiques permettent également aux entreprises d’éviter les problèmes de propriété intellectuelle et de droits d’auteur, car elles se passent des robots d’indexation qui récupèrent et collectent des informations sur les sites web à l’insu des utilisateurs ou sans leur consentement.

Des données plus riches

Les jeux de données artificiels peuvent améliorer la diversité des données, en créant ou en augmentant les données concernant les groupes sous-représentés dans l’entraînement de l’IA. Les données synthétiques peuvent également combler les lacunes lorsque les données d’origines sont insuffisantes, ou en l’absence de données réelles. De même, l’ajout de cas marginaux ou de données aberrantes en tant que points de données peut élargir le champ des jeux de données synthétiques, reflétant la variabilité et l’imprévisibilité du monde réel.

Les défis liés aux données synthétiques

Malgré les avantages des données synthétiques, elles présentent également quelques inconvénients. En suivant les bonnes pratiques de génération de données synthétiques, les entreprises pourront remédier à ces inconvénients et maximiser la valeur des données artificielles.

Voici quelques défis associés aux données synthétiques :

  • Biais

  • Effondrement du modèle

  • Compromis entre précision et confidentialité

  • Vérification

Biais

Les données synthétiques peuvent toujours refléter les biais potentiellement présents dans les données réelles sur lesquelles elles reposent. L’utilisation de sources de données diversifiées et l’ajout de sources multiples, provenant notamment de régions et de groupes démographiques variés, peuvent contribuer à atténuer ces biais.

Effondrement du modèle

On parle d’effondrement du modèle lorsqu’un modèle d’IA est entraîné de manière répétée sur des données générées par l’IA, ce qui entraîne une baisse de la performance du modèle. Pour prévenir ce phénomène, les entreprises doivent trouver le bon équilibre entre jeux de données réelles et artificielles.

Compromis entre précision et confidentialité

Au cours du processus de génération de données synthétiques, une bataille entre précision et confidentialité s’engage. Prioriser la précision peut impliquer de garder plus de données personnelles, tandis que se focaliser sur la confidentialité peut entraîner une réduction de leur précision. Il est essentiel pour les entreprises de trouver le bon équilibre pour leurs cas d’utilisation.

Vérification

Des vérifications et des tests supplémentaires doivent être menés pour valider la qualité des données synthétiques après leur génération. Cela ajoute une étape au workflow, mais il est crucial de s’assurer que les jeux de données artificiels sont exempts d’erreurs, d’incohérences ou d’inexactitudes.

Cas d’utilisation des données synthétiques

Les données synthétiques sont polyvalentes et peuvent être générées pour un large éventail d’applications. Voici quelques secteurs dans lesquels les données synthétiques peuvent être utiles :

  • Automobile

  • Finances

  • Santé

  • Fabrication

Automobile

La modélisation basée sur les agents peut être utilisée pour générer des données artificielles relatives à la circulation, contribuant ainsi à l’amélioration des routes et systèmes de transport. Les données synthétiques peuvent permettre aux constructeurs automobiles d’éviter le processus coûteux et chronophage de collecte de données de crash test réelles pour les tests de sécurité des véhicules. Les constructeurs de véhicules autonomes peuvent utiliser des données synthétiques pour entraîner les voitures autonomes à gérer différents scénarios.

Finances

Les données synthétiques financières peuvent être utilisées pour l’évaluation et la gestion des risques, la modélisation prédictive et le forecasting, et le test des algorithmes de trading, entre autres applications. Les IBM Synthetic Data Sets, par exemple, se composent de données simulées destinées à faciliter la détection des fraudes à la carte bancaire et à l’assurance habitation. Ils incluent également des simulations de transactions bancaires destinées à alimenter des solutions de lutte contre le blanchiment d’argent.

Soins de santé

Les jeux de données synthétiques peuvent aider les entreprises pharmaceutiques à accélérer le développement de médicaments. Les médecins chercheurs, quant à eux, peuvent utiliser des données partiellement synthétiques pour les essais cliniques ou des données entièrement synthétiques pour créer des dossiers médicaux ou des images médicales artificiels afin de formuler des traitements innovants ou préventifs. La modélisation basée sur les agents peut également être appliquée en épidémiologie pour étudier la transmission des maladies et l’effet des interventions.

Fabrication

Les entreprises manufacturières peuvent utiliser des données synthétiques pour améliorer les capacités d’inspection visuelle des modèles de vision par ordinateur qui examinent les produits en temps réel pour détecter les défauts et les écarts par rapport aux normes. Les jeux de données artificiels peuvent également améliorer la maintenance prédictive : les données synthétiques de capteurs permettent aux modèles de machine learning de mieux anticiper les pannes d’équipement et de recommander rapidement les mesures appropriées.

Mixture of Experts | 25 avril, épisode 52

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Notes de bas de page
Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page