Dans son sens le plus général, l’augmentation des données désigne des méthodes permettant de compléter des jeux de données dits incomplets en fournissant des points de données manquants afin d’augmenter l’analysabilité du jeu de données.1 On l’observe dans le domaine du machine learning, en générant des copies modifiées de données préexistantes pour augmenter la taille et la diversité d’un jeu de données. Ainsi, en ce qui concerne le machine learning, les données augmentées peuvent être comprises comme fournissant artificiellement des données du monde réel potentiellement absentes.
L’augmentation des données améliore l’optimisation et la généralisation des modèles de machine learning. En d’autres termes, l’augmentation des données peut réduire le surajustement et améliorer la robustesse du modèle.2 Ces grands jeux de données diversifiés se traduisant par une performance améliorée des modèles sont un axiome du machine learning. Néanmoins, pour un certain nombre de raisons, des questions d’éthique et de confidentialité à la simple compilation manuelle des données nécessaires, il peut être difficile d’acquérir des données suffisantes. L’augmentation des données constitue un moyen efficace d’augmenter la taille et la variabilité des jeux de données. D’ailleurs, les chercheurs ont généralement recours à l’augmentation des données pour corriger des jeux de données déséquilibrés.3
De nombreux cadres d’apprentissage profond, tels que PyTorch, Keras et Tensorflow, proposent des fonctions permettant d’augmenter les données, principalement les jeux de données d’images. Le paquet Python Albumentations (disponible sur Github) est également adopté dans de nombreux projets open source. Albumentations permet d’enrichir les données d’images et de textes.