Plus récemment, les recherches se sont tournées vers les réseaux et les modèles génératifs pour identifier les stratégies d’augmentation optimales dépendantes de la tâche17 et de la classe18. Cela inclut le travail avec des réseaux antagonistes génératifs (GAN). Les GAN sont des réseaux d’apprentissage profond généralement utilisés pour générer des données synthétiques, et des recherches récentes étudient leur utilisation dans le cadre de l’augmentation des données. Quelques expériences, par exemple, suggèrent que les augmentations de données synthétiques des ensembles d’images médicales améliorent les performances des modèles de classification19 et de segmentation20 plus que les augmentations classiques. De la même façon, la recherche sur l’augmentation de texte s’appuie sur de grands modèles de langage (LLM) et des chatbots pour générer des données augmentées. Ces expériences utilisent des LLM pour générer des échantillons augmentés de données d’entrée avec des techniques de mélange et de synonymisation, montrant un impact positif plus important sur les modèles de classification de texte que l’augmentation classique.21

Les chercheurs et les développeurs s’appuient régulièrement sur les techniques d’augmentation de données lors de l’entraînement de modèles pour diverses tâches de machine learning. En revanche, les données synthétiques sont un domaine de recherche relativement plus récent. Les expériences comparatives sur des données synthétiques par rapport à des données réelles montrent des résultats mitigés, les modèles entraînés entièrement sur des données synthétiques étant parfois plus performants, parfois moins performants que les modèles entraînés sur des données du monde réel. Sans surprise, cette recherche suggère que les données synthétiques sont plus utiles lorsqu’elles reflètent les caractéristiques des données du monde réel.22