No sentido mais geral, aumento de dados denota métodos para suplementar os chamados conjuntos de dados incompletos, fornecendo pontos de dados ausentes para aumentar a capacidade de análise do conjunto de dados.1 Isso se manifesta no aprendizado de máquina por meio da geração de cópias modificadas de dados preexistentes, aumentando o tamanho e a diversidade de um conjunto de dados. Assim, no contexto do aprendizado de máquina, os dados aumentados podem ser entendidos como um fornecimento artificial de dados do mundo real potencialmente ausentes.
O aumento de dados melhora a otimização e a generalização de modelos de aprendizado de máquina. Em outras palavras, o aumento de dados pode reduzir o overfitting e melhorar a robustez do modelo.2 O fato de que grandes conjuntos de dados e diversos resultam em melhor desempenho de modelo é um axioma do aprendizado de máquina. No entanto, por uma série de razões, desde preocupações éticas e de privacidade até o esforço demorado de compilar manualmente os dados necessários, obter dados suficientes pode ser difícil. O aumento de dados fornece um meio eficaz de aumentar o tamanho e a variabilidade do conjunto de dados. De fato, pesquisadores utilizam amplamente o aumento de dados para corrigir conjuntos de dados desequilibrados.3
Muitos frameworks de deep learning, como PyTorch, Keras e TensorFlow, oferecem funções para aumentar dados, principalmente conjuntos de dados de imagens. O pacote Python Albumentations (disponível no GitHub) também é adotado em muitos projetos de código aberto. O Albumentations permite o aumento de dados de imagem e texto.