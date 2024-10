Ces nouvelles données peuvent être intégrées à des jeux de données test et sont plus fréquemment utilisées pour entraîner les modèles de machine learning, car elles s’affranchissent des problèmes de confidentialité. Les données synthétiques sont particulièrement plébiscitées par le secteur de la santé. En effet, elles permettent de préserver l’anonymat des patients et facilitent les essais cliniques dans ce secteur soumis à des normes strictes en matière de confidentialité. Parmi ces réglementations, citons la loi HIPAA (Health Insurance Portability and Accountability Act), une loi fédérale américaine qui protège également les informations des patients contre la discrimination. Il s’agit d’ailleurs d’un autre avantage des données synthétiques, qui peuvent aider à éliminer ces biais grâce à l’IA.

Bien qu’artificielles, les données synthétiques présentent les mêmes propriétés mathématiques et statistiques que les données réelles. Cette approche profite aujourd’hui d’un regain d’intérêt suscité par le développement de l’apprentissage profond et d’autres cas d’utilisation associés.

Selon l’entreprise de conseil et de recherche Gartner (lien externe à ibm.com), 60 % des données utilisées pour entraîner les modèles IA devraient d’ailleurs être générées artificiellement d’ici 2024.