Qu’est-ce que les données synthétiques ?

Auteur

Staff Writer

IBM Think

Qu’est-ce que les données synthétiques ?

Les données synthétiques sont des données artificielles conçues pour imiter les données du monde réel. Elles sont générées par des méthodes statistiques ou via des techniques d’intelligence artificielle (IA) telles que l’apprentissage profond et l’IA générative.

Bien qu’elles soient générées artificiellement, les données synthétiques conservent les propriétés statistiques sous-jacentes des données d’origine sur lesquelles elles sont basées. Ainsi, les jeux de données synthétiques peuvent compléter ou même remplacer les jeux de données réels.

Les données synthétiques peuvent servir de substitut aux données de test et sont principalement utilisées pour entraîner les modèles de machine learning : elles constituent ainsi une solution potentielle à la demande croissante, face à une offre limitée, de données d’entraînement réelles de haute qualité pour les modèles d’IA. Cependant, les données synthétiques gagnent également en popularité dans des secteurs tels que la finance et la santé, où les données sont des denrées limitées, longues à obtenir ou difficiles d’accès en raison des exigences concernant leur confidentialité et leur sécurité. En effet, le cabinet d’études Gartner prévoit que d’ici 2026, 75 % des entreprises utiliseront l’IA générative pour créer des données client synthétiques.¹

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Les différents types de données synthétiques

Les données synthétiques peuvent se présenter sous plusieurs formes : multimédias, tabulaires ou textuelles. Les données synthétiques textuelles peuvent être utilisées pour le traitement automatique du langage naturel (NLP), tandis que les données synthétiques tabulaires peuvent être utilisées pour créer des tables de bases de données relationnelles. Les données synthétiques multimédias, comme la vidéo, les images ou d’autres données non structurées, peuvent être utilisées pour les tâches de vision par ordinateur telles que la classification d’images, la reconnaissance d’images et la détection d’objets.

Les données synthétiques peuvent également être classées en fonction de leur niveau de synthétisation :

Entièrement synthétiques
Partiellement synthétiques
Hybride

Entièrement synthétiques

L’obtention de données entièrement synthétiques implique la génération de données entièrement nouvelles qui ne contiennent aucune information du monde réel. Le processus estime les attributs, les schémas et les relations qui sous-tendent les données réelles afin de les reproduire aussi fidèlement que possible.

Les établissements financiers, par exemple, peuvent ne pas disposer d’échantillons de transactions suspectes suffisants pour entraîner efficacement les modèles d’IA à la détection des fraudes. Elles peuvent alors générer des données entièrement synthétiques représentant des transactions frauduleuses pour améliorer l’entraînement des modèles.

Partiellement synthétiques

Les données partiellement synthétiques sont dérivées d’informations du monde réel, mais certaines parties du jeu de données d’origine (généralement celles qui contiennent des informations sensibles) sont remplacées par des valeurs artificielles. Cette technique préserve la confidentialité et permet de protéger les données personnelles tout en conservant les caractéristiques des données réelles.

Les données partiellement synthétiques peuvent être particulièrement utiles dans les recherches cliniques, par exemple, où les données réelles sont cruciales pour obtenir de bons résultats, mais où la protection des données personnelles (PII) et des dossiers médicaux des patients est tout aussi critique.

Hybrides

Les données synthétiques hybrides combinent des jeux de données réels avec des jeux entièrement synthétiques. Les enregistrements du jeu de données d’origine sont associés de manière aléatoire aux enregistrements de leurs homologues synthétiques. Les données synthétiques hybrides peuvent être utilisées pour analyser les données client et en extraire des informations, par exemple, sans qu’aucune donnée sensible ne puisse être associée à un client spécifique.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Comment les données synthétiques sont-elles générées ?

Les organisations peuvent choisir de générer leurs propres données synthétiques. Elles peuvent également utiliser des solutions telles que Synthetic Data Vault, une bibliothèque Python qui permet de créer des données synthétiques, ou d’autres éléments open source comme des algorithmes, des cadres, des packages et autres outils. Il est également possible d’utiliser des jeux de données prédéfinis, comme IBM Synthetic Data Sets.

Voici quelques techniques courantes de génération de données synthétiques :

Méthodes statistiques
Réseaux antagonistes génératifs (GAN)
Modèles Transformer
Auto-encodeurs variationnels (VAE)
Modélisation basée sur les agents

Méthodes statistiques

Ces méthodologies conviennent aux données dont la distribution, les corrélations et les caractéristiques sont bien connues et peuvent donc être simulées via des modèles mathématiques.

Dans les approches basées sur la distribution, des fonctions statistiques peuvent être utilisées pour définir la distribution des données. Ensuite, par échantillonnage aléatoire à partir de cette distribution, de nouveaux points de données peuvent être générés.

Pour les stratégies basées sur les corrélations, des processus d’interpolation ou d’extrapolation peuvent être appliqués. Dans les séries temporelles, par exemple, l’interpolation linéaire permet de créer de nouveaux points de données entre des points adjacents, tandis que l’extrapolation linéaire permet de générer des points de données au-delà des points existants.

Réseaux antagonistes génératifs (GAN)

Les réseaux antagonistes génératifs (GAN) impliquent une paire de réseaux de neurones : un générateur qui crée des données synthétiques et un discriminateur qui agit comme un adversaire en distinguant les données réelles des données artificielles. Ces deux réseaux sont entraînés de manière itérative, les commentaires du discriminateur améliorant la production du générateur jusqu’à ce que le discriminateur ne soit plus capable de distinguer les données artificielles des données réelles. Les GAN sont souvent utilisés pour la génération d’images.

Modèles de transformeurs

Les modèles Transformer, tels que les transformers génératifs préentraînés (GPT) d’OpenAI, servent de base aux petits modèles de langage (SLM) et aux grands modèles de langage (LLM). Les transformers traitent les données à l’aide d’encodeurs et de décodeurs.

Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des tokens dans la séquence d’entrée. Un mécanisme d’auto-attention permet aux transformers de « concentrer leur attention » sur les tokens les plus importants de la séquence d’entrée, quelle que soit leur position. Les décodeurs utilisent ensuite ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.

Les modèles Transformer excellent dans la compréhension de la structure et des schémas du langage. De ce fait, ils peuvent être utilisés pour créer des données textuelles artificielles ou générer des données synthétiques tabulaires.

Auto-encodeurs variationnels (VAE)

Les auto-encodeurs variationnels (VAE) sont des modèles génératifs qui produisent des variations des données sur lesquelles ils sont entraînés. Un encodeur compresse les données d’entrée dans un espace de dimension inférieure, capturant les informations significatives contenues dans l’entrée. Un décodeur reconstruit ensuite les nouvelles données à partir de cette représentation compressée. À l’instar des GAN, les VAE peuvent être utilisés pour générer des images de synthèse.

Modélisation basée sur les agents

Cette stratégie de simulation implique la modélisation d’un système complexe pour créer un environnement virtuel contenant des entités individuelles, également appelées agents. Les agents fonctionnent sur la base d’un ensemble prédéfini de règles pour interagir avec leur environnement et d’autres agents. La modélisation basée sur les agents simule ces interactions et comportements pour produire des données synthétiques.

Par exemple, en épidémiologie, ces modèles représentent les individus d’une population comme des agents. En modélisant les interactions des agents, il est possible de générer des données synthétiques telles que le taux de contact et la probabilité d’infection. Ces données peuvent ensuite permettre de prévoir la propagation des maladies infectieuses et d’examiner les effets des interventions.

Avantages des données synthétiques

Les données synthétiques sont une technologie en plein essor. Voici les avantages qu’elles offrent aux entreprises :

Personnalisation
Efficacité
Confidentialité des données renforcée
Des données plus riches

Personnalisation

Les équipes de science des données peuvent adapter les données synthétiques aux spécifications et aux besoins exacts d’une entreprise. Et comme les data scientists ont un meilleur contrôle sur les jeux de données synthétiques, leur gestion et leur analyse deviennent plus faciles.

Efficacité

La génération de données synthétiques élimine le processus chronophage de collecte de données réelles, ce qui permet de les produire plus rapidement et d’accélérer les workflows. Les données synthétiques sont également pré-étiquetées, ce qui évite l’étape fastidieuse de l’étiquetage et de l’annotation manuels de grands volumes de données.

Confidentialité des données renforcée

Les données synthétiques ressemblent à des données réelles, mais elles peuvent être générées de telle sorte qu’aucune donnée personnelle ne puisse être remontée à un individu en particulier. Cette anonymisation des données permet de protéger les informations sensibles. Les données synthétiques permettent également aux entreprises d’éviter les problèmes de propriété intellectuelle et de droits d’auteur, car elles se passent des robots d’indexation qui récupèrent et collectent des informations sur les sites web à l’insu des utilisateurs ou sans leur consentement.

Des données plus riches

Les jeux de données artificiels peuvent améliorer la diversité des données, en créant ou en augmentant les données concernant les groupes sous-représentés dans l’entraînement de l’IA. Les données synthétiques peuvent également combler les lacunes lorsque les données d’origines sont insuffisantes, ou en l’absence de données réelles. De même, l’ajout de cas marginaux ou de données aberrantes en tant que points de données peut élargir le champ des jeux de données synthétiques, reflétant la variabilité et l’imprévisibilité du monde réel.

Les défis liés aux données synthétiques

Malgré les avantages des données synthétiques, elles présentent également quelques inconvénients. En suivant les bonnes pratiques de génération de données synthétiques, les entreprises pourront remédier à ces inconvénients et maximiser la valeur des données artificielles.

Voici quelques défis associés aux données synthétiques :

Biais
Effondrement du modèle
Compromis entre précision et confidentialité
Vérification

Biais

Les données synthétiques peuvent toujours refléter les biais potentiellement présents dans les données réelles sur lesquelles elles reposent. L’utilisation de sources de données diversifiées et l’ajout de sources multiples, provenant notamment de régions et de groupes démographiques variés, peuvent contribuer à atténuer ces biais.

Effondrement du modèle

On parle d’effondrement du modèle lorsqu’un modèle d’IA est entraîné de manière répétée sur des données générées par l’IA, ce qui entraîne une baisse de la performance du modèle. Pour prévenir ce phénomène, les entreprises doivent trouver le bon équilibre entre jeux de données réelles et artificielles.

Compromis entre précision et confidentialité

Au cours du processus de génération de données synthétiques, une bataille entre précision et confidentialité s’engage. Prioriser la précision peut impliquer de garder plus de données personnelles, tandis que se focaliser sur la confidentialité peut entraîner une réduction de leur précision. Il est essentiel pour les entreprises de trouver le bon équilibre pour leurs cas d’utilisation.

Vérification

Des vérifications et des tests supplémentaires doivent être menés pour valider la qualité des données synthétiques après leur génération. Cela ajoute une étape au workflow, mais il est crucial de s’assurer que les jeux de données artificiels sont exempts d’erreurs, d’incohérences ou d’inexactitudes.

Cas d’utilisation des données synthétiques

Les données synthétiques sont polyvalentes et peuvent être générées pour un large éventail d’applications. Voici quelques secteurs dans lesquels les données synthétiques peuvent être utiles :

Automobile
Finances
Santé
Fabrication

Automobile

La modélisation basée sur les agents peut être utilisée pour générer des données artificielles relatives à la circulation, contribuant ainsi à l’amélioration des routes et systèmes de transport. Les données synthétiques peuvent permettre aux constructeurs automobiles d’éviter le processus coûteux et chronophage de collecte de données de crash test réelles pour les tests de sécurité des véhicules. Les constructeurs de véhicules autonomes peuvent utiliser des données synthétiques pour entraîner les voitures autonomes à gérer différents scénarios.

Finances

Les données synthétiques financières peuvent être utilisées pour l’évaluation et la gestion des risques, la modélisation prédictive et le forecasting, et le test des algorithmes de trading, entre autres applications. Les IBM Synthetic Data Sets, par exemple, se composent de données simulées destinées à faciliter la détection des fraudes à la carte bancaire et à l’assurance habitation. Ils incluent également des simulations de transactions bancaires destinées à alimenter des solutions de lutte contre le blanchiment d’argent.

Soins de santé

Les jeux de données synthétiques peuvent aider les entreprises pharmaceutiques à accélérer le développement de médicaments. Les médecins chercheurs, quant à eux, peuvent utiliser des données partiellement synthétiques pour les essais cliniques ou des données entièrement synthétiques pour créer des dossiers médicaux ou des images médicales artificiels afin de formuler des traitements innovants ou préventifs. La modélisation basée sur les agents peut également être appliquée en épidémiologie pour étudier la transmission des maladies et l’effet des interventions.

Fabrication

Les entreprises manufacturières peuvent utiliser des données synthétiques pour améliorer les capacités d’inspection visuelle des modèles de vision par ordinateur qui examinent les produits en temps réel pour détecter les défauts et les écarts par rapport aux normes. Les jeux de données artificiels peuvent également améliorer la maintenance prédictive : les données synthétiques de capteurs permettent aux modèles de machine learning de mieux anticiper les pannes d’équipement et de recommander rapidement les mesures appropriées.

Science des données et MLOps pour les responsables des données

Unissez vos forces à celles d’autres responsables pour promouvoir les trois piliers essentiels du MLOps et d’une IA digne de confiance : confiance dans les données, confiance dans les modèles et confiance dans les processus.

Ressources

Renforcez votre expertise en matière de ML

Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Le machine learning, expliqué

Techsplainers by IBM présente les fondements du machine learning, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Mettre l’IA au travail : mise en place d'un retour sur investissement grâce à l'IA générative

Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.

Choisir le bon modèle de fondation

Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.

Découvrir IBM Granite

IBM® Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.

Comment prospérer en toute confiance dans cette nouvelle ère de l’IA

Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Notes de bas de page

¹ 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 avril 2024

Qu’est-ce que les données synthétiques ?

Qu’est-ce que les données synthétiques ?

Les dernières tendances en matière d’IA, vues par des experts

Merci ! Vous êtes abonné(e).

Les différents types de données synthétiques

Entièrement synthétiques

Partiellement synthétiques

Hybrides

Décryptage de l’IA : Tour d’horizon hebdomadaire

Comment les données synthétiques sont-elles générées ?

Méthodes statistiques

Réseaux antagonistes génératifs (GAN)

Modèles de transformeurs

Auto-encodeurs variationnels (VAE)

Modélisation basée sur les agents

Avantages des données synthétiques

Personnalisation

Efficacité

Confidentialité des données renforcée

Des données plus riches

Les défis liés aux données synthétiques

Biais

Effondrement du modèle

Compromis entre précision et confidentialité

Vérification

Cas d’utilisation des données synthétiques

Automobile

Finances

Soins de santé

Fabrication

Ressources

Notes de bas de page