8 bonnes pratiques pour générer des données synthétiques

6 décembre 2024

Auteurs

Cole Stryker

Editorial Lead, AI Models

Gather

Le mot « synthétique » peut rappeler quelque chose d’artificiel ou de fabriqué. Prenons l’exemple des fibres synthétiques, telles que le polyester ou le nylon, qui sont fabriquées par l’homme par le biais de processus chimiques.

Même si les fibres synthétiques sont plus abordables et plus faciles à produire à grande échelle, leur qualité peut rivaliser avec celle des fibres naturelles. Elles sont souvent conçues pour imiter leurs équivalents naturels et pour des usages spécifiques (l’élasticité pour l’élasthanne, le maintien de la chaleur pour l’acrylique ou la robustesse pour le polyester).

Il en va de même pour les données synthétiques. Ces informations générées artificiellement peuvent compléter, voire remplacer, les données réelles lors de l’entraînement ou du test de modèles d’intelligence artificielle (IA). Contrairement aux jeux de données réels, qui peuvent être coûteux, difficiles d’accès, longs à étiqueter et limités en quantité, les jeux de données synthétiques peuvent être synthétisés au moyen de simulations informatiques ou de modèles génératifs. Ils peuvent donc être produits à la demande à moindre coût, dans des volumes quasiment illimités et personnalisés en fonction des besoins de l’entreprise.

Malgré leurs avantages, les données synthétiques présentent également des défis. Le processus de génération peut être complexe, les data scientists devant créer des données réalistes en préservant leur qualité et leur confidentialité.

Pourtant, les données synthétiques sont là pour durer. Le cabinet d’études Gartner prévoit que d’ici 2026, 75 % des entreprises utiliseront l’IA générative pour créer des données client synthétiques.1

Pour aider les entreprises à tirer le meilleur parti des données artificielles, voici 8 bonnes pratiques concernant la génération de données synthétiques :

1. Connaître son objectif

Découvrez pourquoi votre entreprise a besoin de données synthétiques, et les cas d’utilisation dans lesquels elles pourraient être plus utiles que des données réelles. Dans le secteur de la santé, par exemple, les dossiers de patients ou les images médicales peuvent être générés artificiellement, sans contenir de données sensibles ou personnelles (PII). Cela permet également un partage sécurisé des données entre les chercheurs et les équipes de science des données.

Les données synthétiques peuvent être utilisées comme données de test lors du développement de logiciels pour remplacer des données de production sensibles tout en émulant leurs caractéristiques. Elles permettent également aux entreprises d’éviter les problèmes de droit d’auteur et de propriété intellectuelle, en générant des données au lieu d’utiliser des robots d’indexation pour extraire et collecter des informations à partir de sites web à l’insu des utilisateurs ou sans leur consentement.

En outre, les données artificielles peuvent constituer une forme d’augmentation des données. Elles peuvent être utilisées pour améliorer la diversité des données, en particulier dans les groupes sous-représentés lors de l’entraînement des modèles d’IA. De même, lorsque les informations sont rares, les données synthétiques peuvent combler les lacunes.

La société de services financiers J.P. Morgan, par exemple, a constaté qu’il était difficile d’entraîner efficacement des modèles alimentés par l’IA pour la détection des fraudes en raison du manque de cas frauduleux par rapport aux cas non frauduleux. L’organisation a utilisé la génération de données synthétiques pour créer plus d’exemples de transactions frauduleuses (lien externe à ibm.com), améliorant ainsi l’entraînement des modèles.

2. La préparation est essentielle

La qualité des données synthétiques dépend de la qualité des données réelles sous-jacentes. Lorsque vous préparez des jeux de données d’origine pour la génération de données synthétiques à l’aide d’algorithmes de machine learning (ML), assurez-vous de vérifier et de corriger les éventuelles erreurs, inexactitudes et incohérences. Supprimez les doublons et saisissez les valeurs manquantes.

Envisagez d’ajouter aux données d’origine des cas marginaux ou des données aberrantes. Ces points de données peuvent représenter des événements exceptionnels, des scénarios rares ou des cas extrêmes qui reflètent l’imprévisibilité et la variabilité du monde réel.

« Tout dépend des exemples de départ », explique Akash Srivastava, architecte en chef d’InstructLab (lien externe à ibm.com), un projet open source d’IBM et Red Hat qui utilise une approche collaborative pour ajouter de nouvelles connaissances et compétences à un modèle grâce à la nouvelle méthode de génération de données synthétiques d’IBM et à un protocole d’entraînement progressif. « Les exemples à partir desquels vous initiez la génération doivent imiter votre cas d’utilisation réel ».

3. Diversifier les sources de données

Les données synthétiques ont encore tendance à hériter et à refléter les biais parfois présents dans les données d’origine. Le mélange d’informations provenant de plusieurs sources, y compris de différents groupes démographiques et régions, peut contribuer à atténuer les biais dans les données générées.

La diversité des sources de données peut également améliorer la qualité des jeux de données synthétiques. Des sources variées peuvent offrir les détails essentiels ou le contexte vital qui manquent aux sources uniques ou peu nombreuses. En outre, l’intégration de la génération augmentée de récupération dans le processus de génération de données synthétiques permet d’accéder à des données à jour et propres à un domaine, avec à la clé une précision et une qualité améliorées.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

4. Choisir des techniques de synthèse appropriées

Le choix de la technique de génération de données synthétiques adaptée dépend de plusieurs facteurs, notamment du type et de la complexité des données. Pour les données relativement simples, des méthodes statistiques peuvent suffire. En revanche, pour les jeux de données plus complexes (données structurées comme des données tabulaires, ou données non structurées comme des images ou des vidéos, par exemple), il faudra peut-être avoir recours à des modèles d’apprentissage profond. Les entreprises peuvent également choisir de combiner plusieurs techniques de synthèse en fonction de leurs besoins.

Voici quelques mécanismes couramment utilisés pour générer des données synthétiques :

Distribution statistique

Les data scientists peuvent analyser les répartitions statistiques de données réelles et générer des échantillons synthétiques reflétant ces distributions. Toutefois, cela nécessite des connaissances et une expertise approfondies, et toutes les données ne correspondent pas à une répartition connue.

Réseaux antagonistes génératifs

Les réseaux antagonistes génératifs (GAN) sont constitués de deux réseaux neuronaux : un générateur qui crée des données synthétiques et un discriminateur qui agit comme un adversaire en distinguant les données artificielles des données réelles. Ces deux réseaux sont entraînés de manière itérative, les commentaires du discriminateur améliorant la production du générateur jusqu’à ce que le discriminateur ne soit plus capable de distinguer les données artificielles des données réelles.

Les GAN peuvent être utilisés pour générer des images synthétiques dans le cadre de tâches de vision par ordinateur et de classification d’images.

Auto-encodeurs variationnels

Les auto-encodeurs variationnels (VAE) sont des modèles de deep learning qui génèrent des variations des données sur lesquelles ils sont entraînés. Un encodeur compresse les données d’entrée dans un espace de dimension inférieure, capturant les informations significatives contenues dans l’entrée. Un décodeur reconstruit ensuite les nouvelles données à partir de cette représentation compressée. Comme les GAN, les VAE peuvent être utilisés pour la génération d’images.

modèles de transformation

Les modèles Transformer, tels que les transformers génératifs préentraînés (GPT), excellent dans la compréhension de la structure et des schémas du langage. Ils peuvent être utilisés afin de générer des données textuelles synthétiques pour les applications de traitement automatique du langage naturel ou afin de créer des données tabulaires artificielles pour les tâches de classification ou de régression.

5. Anticiper l’effondrement du modèle

Il est important d’anticiper le phénomène d’effondrement du modèle, à savoir la diminution des performances du modèle lorsqu’il est entraîné de manière répétée sur des données générées par l’IA. C’est pourquoi il est essentiel de fonder le processus de génération de données synthétiques sur des données réelles.

Chez InstructLab, par exemple, la génération de données synthétiques est pilotée par une taxonomie qui définit le domaine ou les sujets d’où proviennent les données d’origine. Cela empêche le modèle de décider des données sur lesquelles il doit être entraîné.

« On ne demande pas au modèle de continuer à tourner en boucle et de s’effondrer. Nous contournons complètement l’effondrement en dissociant le modèle du processus d’échantillonnage », explique M. Srivastava.

6. Utiliser des méthodes de validation

Des données de haute qualité sont essentielles pour la performance du modèle. Vérifiez la qualité des données synthétiques en utilisant des indicateurs basés sur la fidélité et l’utilité. La fidélité fait référence à la ressemblance entre les jeux de données synthétiques et ceux du monde réel. L’utilité évalue la capacité des données synthétiques à être utilisées pour entraîner des modèles d’apprentissage profond ou de ML.

Fidélité

Pour évaluer la fidélité, on compare les données synthétiques aux données d’origine, souvent à l’aide de méthodes statistiques et de visualisations telles que les histogrammes. Cela permet de déterminer si les jeux de données générés préservent les propriétés statistiques des jeux de données réels telles que la distribution, la moyenne, la médiane, la plage et la variance, entre autres.

L’évaluation de la similarité corrélationnelle à travers les coefficients de corrélation et de contingence, par exemple, est également essentielle pour maintenir les dépendances et les relations entre les points de données et pour faire en sorte qu’elles représentent fidèlement les schémas du monde réel. Les réseaux de neurones, les modèles génératifs et les modèles de langage sont généralement capables de capturer les relations dans les données tabulaires et les données de séries temporelles.

Services publics

Pour mesurer leur utilité, les données synthétiques doivent être utilisées pour entraîner des modèles de machine learning, dont les performances sont ensuite comparées à celles de modèles entraînés sur des données réelles. Voici quelques indicateurs de référence courants :

  • L’exactitude ou la précision calcule le pourcentage de prévisions correctes.

  • Le rappel quantifie les prévisions correctes réelles.

  • Le score F1 regroupe précision et rappel en un seul et même indicateur.

  • Le score d’inception et la distance d’inception de Fréchet (FID) évaluent tous deux la qualité des images générées.

Les outils ou prestataires de services de génération de données synthétiques peuvent déjà disposer de ces indicateurs, mais vous pouvez également utiliser d’autres packages analytiques comme SDMetrics (lien externe à ibm.com), une bibliothèque Python open source permettant d’évaluer les données synthétiques tabulaires.

La touche humaine reste cruciale lors de la validation des données artificielles. Il suffit parfois de prélever 5 à 10 échantillons aléatoires dans le jeu de données synthétiques et de les évaluer soi-même. « Il faut faire appel à un humain pour la vérification », explique M. Srivastava. « Ce sont des systèmes très complexes et, pour tout système complexe, il existe de nombreux aspects délicats où les choses peuvent mal tourner. Fiez-vous aux indicateurs, aux mesures de référence, testez rigoureusement votre pipeline, mais prenez toujours quelques échantillons aléatoires et vérifiez manuellement qu’ils génèrent le type de données que vous recherchez. »

7. Garder la confidentialité des données à l’esprit

L’un des avantages de l’utilisation des données synthétiques est qu’elles ne contiennent pas de données sensibles ou d’informations personnelles. Cependant, les entreprises doivent vérifier que les nouvelles données générées sont conformes aux réglementations en matière de confidentialité, notamment le Règlement général sur la protection des données (RGPD) de l’Union européenne ou la loi Health Insurance Portability and Accountability Act (HIPAA) aux États-Unis.

Traitez les données synthétiques comme des données propriétaires, en appliquant des mesures de sécurité et des contrôles d’accès intégrés pour empêcher les piratages et les fuites de données. Des mesures de protection doivent également être appliquées lors du processus de génération pour empêcher le risque que des données synthétiques fassent l’objet d’une rétro-ingénierie et qu’elles puissent être remontées à leur équivalent réel, révélant des informations sensibles au moment de l’analyse des données. Ces mesures de protection comprennent des techniques telles que le masquage pour préserver les données sensibles, l’anonymisation pour nettoyer ou supprimer les informations personnelles (PII), et la confidentialité différentielle pour ajouter du « bruit » ou introduire un aspect aléatoire dans le jeu de données.

« Il faut, au minimum, masquer ou nettoyer les données personnelles. On peut aussi aller plus loin en utilisant des méthodes de confidentialité différentielle », explique M. Srivastava. « Cela devient encore plus important si l’on n’utilise pas de modèles locaux. Si l’on envoie [des données] à un fournisseur tiers, il faut faire encore plus attention à ces aspects ».

Notez qu’il n’est généralement pas possible d’optimiser simultanément des données synthétiques pour en améliorer à la fois la fidélité, l’utilité et la confidentialité : un compromis est souvent nécessaire. Le masquage ou l’anonymisation peuvent ostensiblement réduire l’utilité, tandis que la confidentialité différentielle peut diminuer légèrement la précision. Cependant, l’absence de mesures de confidentialité peut potentiellement exposer les informations personnelles. Les organisations doivent équilibrer et prioriser les éléments essentiels à leurs cas d’utilisation spécifiques.

8. Documenter, surveiller et affiner

Documentez votre workflow de génération de données synthétiques, comme les stratégies de nettoyage et de préparation des jeux de données d’origine, les mécanismes de génération de données et de protection de la vie privée, ou les résultats de vérification. Pensez à justifier vos choix et vos décisions pour assurer responsabilité et transparence.

La documentation est particulièrement utile lors des examens périodiques de votre processus de génération de données synthétiques. Ces enregistrements servent de pistes d’audit, qui peuvent aider à évaluer l’efficacité et la reproductibilité du workflow.

Surveillez régulièrement l’utilisation et la performance des données synthétiques afin d’identifier tout comportement inattendu ou encore les possibilités d’amélioration. Ajustez et affinez le processus de génération selon les besoins.

Tout comme les fibres pour les tissus, les données sont les éléments constitutifs des modèles d’IA. Même si la génération de données synthétiques n’en est qu’à ses débuts, les progrès dans ce domaine finiront par améliorer les données synthétiques au point d’atteindre la qualité, la fiabilité et l’utilité de données réelles, de la même manière que les fibres synthétiques sont presque équivalentes aux fibres naturelles.

 

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Notes de bas de page

1 3 Bold and Actionable Predictions for the Future of GenAI (lien externe à ibm.com), Gartner, 12 avril 2024

Solutions connexes
Outils et solutions d’analyse

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Passez à l’étape suivante

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique Découvrir les services d’analytique