O aumento de dados utiliza dados já existentes para criar novas amostras que melhoram a otimização e generalização dos modelos.
No sentido mais geral, aumento de dados denota métodos para suplementar os chamados conjuntos de dados incompletos, fornecendo pontos de dados ausentes para aumentar a capacidade de análise do conjunto de dados.1 Isso se manifesta no aprendizado de máquina por meio da geração de cópias modificadas de dados pré-existentes, aumentando o tamanho e a diversidade de um conjunto de dados. Assim, no contexto do aprendizado de máquina, os dados aumentados podem ser entendidos como um fornecimento artificial de dados do mundo real potencialmente ausentes.
O aumento de dados melhora a otimização e a generalização de modelos de aprendizado de máquina. Em outras palavras, o aumento de dados pode reduzir o overfitting e melhorar a robustez do modelo.2 O fato de que grandes conjuntos de dados e diversos resultam em melhor desempenho de modelo é um axioma do aprendizado de máquina. No entanto, por uma série de razões, desde preocupações éticas e de privacidade até o esforço demorado de compilar manualmente os dados necessários, obter dados suficientes pode ser difícil. O aumento de dados fornece um meio eficaz de aumentar o tamanho e a variabilidade do conjunto de dados. De fato, pesquisadores utilizam amplamente o aumento de dados para corrigir conjuntos de dados desequilibrados.3
Muitos frameworks de deep learning, como PyTorch, Keras e TensorFlow, oferecem funções para aumentar dados, principalmente conjuntos de dados de imagens. O pacote Python Albumentations (disponível no GitHub) também é adotado em muitos projetos de código aberto. O Albumentations permite o aumento de dados de imagem e texto.
Observe que o aumento de dados é distinto dos dados sintéticos. Ambos são algoritmos generativos que adicionam novos dados a uma coleção de dados para melhorar o desempenho de modelos de aprendizado de máquina. No entanto, os dados sintéticos referem-se à geração automática de dados totalmente artificiais. Um exemplo é o uso de imagens geradas por computador (em vez de dados do mundo real) para treinar um modelo de detecção de objetos. Por outro lado, o aumento de dados copia dados existentes e transforma essas cópias para aumentar a diversidade e a quantidade de dados em um conjunto específico.
Existem diversos métodos de aumento de dados. As técnicas específicas utilizadas para aumentar dados dependem da natureza dos dados com os quais o usuário está trabalhando. Observe que o aumento de dados é tipicamente implementado durante o pré-processamento no conjunto de dados de treinamento. Alguns estudos investigam o efeito do aumento no conjunto de validação ou teste, mas as aplicações de aumento fora dos conjuntos de treinamento são mais raras.4
O aumento de dados tem sido amplamente implementado em pesquisas para uma variedade de tarefas de visão computacional, desde classificação de imagens até detecção de objetos. Por isso, há uma grande quantidade de pesquisas sobre como imagens aumentadas melhoram o desempenho de redes neurais convolucionais (CNNs) de última geração no processamento de imagens.
Muitos tutoriais e recursos não acadêmicos classificam a ampliação de dados de imagem em duas categorias: transformações geométricas e transformações fotométricas (ou de espaço de cor). Ambos consistem na manipulação relativamente simples de arquivos de imagem. A primeira categoria refere-se a técnicas que alteram o espaço e o layout da imagem original, como redimensionamento, zoom ou mudanças na orientação (por exemplo, inversão horizontal). As transformações fotométricas alteram os canais RGB (vermelho-verde-azul) de uma imagem. Exemplos de transformação fotométrica incluem o ajuste de saturação e a escala de cinza de uma imagem5
Algumas fontes categorizam a injeção de ruído como uma transformação geométrica6, enquanto outras a classificam como uma transformação fotométrica.7 A injeção de ruído insere pixels pretos, brancos ou coloridos aleatórios em uma imagem, de acordo com uma distribuição gaussiana.
Como ilustra a injeção de ruído, a classificação binária das técnicas de aumento de imagens em geométricas e fotométricas não abrange toda a gama de estratégias possíveis de aumento. Técnicas de aumento de imagem que ficam excluídas dessa classificação incluem filtragem por kernel (realçando ou desfocando uma imagem) e mistura de imagens. Um exemplo desta última é o corte e a colagem aleatórios. Essa técnica seleciona aleatoriamente seções de várias imagens para criar uma nova imagem. Essa nova imagem é um composto formado pelas seções selecionadas das imagens de input. Uma técnica relacionada é a exclusão aleatória, que apaga uma porção aleatória de uma imagem.8 Tais tarefas são úteis em atividades de reconhecimento de imagens, já que casos de uso do mundo real podem exigir que máquinas identifiquem objetos parcialmente ocultos.
O aumento no nível de instância é outra técnica de aumento. O aumento no nível de instância essencialmente copia regiões rotuladas (por exemplo, caixas delimitadoras) de uma imagem e as insere em outra imagem. Tal abordagem treina o modelo para identificar objetos contra diferentes fundos, assim como objetos ocultos por outros objetos. O aumento no nível de instância é uma abordagem particularmente relevante para tarefas de reconhecimento em regiões específicas, como detecção de objetos e segmentação de imagens.9
Assim como o aumento de imagens, o aumento de dados textuais consiste em várias técnicas e métodos utilizados em uma variedade de tarefas de processamento de linguagem natural (PLN). Alguns recursos dividem a ampliação de texto em métodos baseados em regras (ou "fáceis") e métodos neurais. Naturalmente, assim como na divisão binária das técnicas de aumento de imagens, essa categorização não cobre todas as possibilidades.
As abordagens baseadas em regras incluem técnicas relativamente simples de localizar e substituir, como exclusão ou inserção aleatória. Abordagens baseadas em regras também abrangem a substituição por sinônimos. Nessa estratégia, uma ou mais palavras em uma sequência são substituídas por seus respectivos sinônimos, conforme registrados em tesauros predefinidos, como o WordNet ou o Paraphrase Database. A inversão de frases e a passivação, nas quais o objeto e o sujeito são trocados, também são exemplos de abordagens baseadas em regras.10
Segundo essa classificação, os métodos neurais empregam redes neurais para criar novas amostras de texto a partir dos dados de input. Um método neural notável é a tradução reversa. Esse processo usa tradução automática para converter os dados de input em um idioma-alvo e, em seguida, retornar ao idioma original de input. Dessa forma, a tradução reversa aproveita as variações linguísticas que resultam de traduções automáticas para gerar variações semânticas em um conjunto de dados de língua única para fins de aumento. Pesquisas sugerem que isso é eficaz para melhorar o desempenho dos modelos de tradução automática.11
Ampliações de texto mistos são outra estratégia. Essa abordagem implementa métodos de exclusão e inserção baseados em regras, empregando embeddings de redes neurais. Especificamente, transformadores pré-treinados (por exemplo, BERT) geram embeddings em nível de palavra ou sentença, transformando textos em pontos vetoriais, como em um modelo de bag of words. A transformação de texto em pontos vetoriais geralmente visa capturar similitude linguística, ou seja, palavras ou sentenças mais próximas umas das outras no espaço vetorial são consideradas semanticamente similares ou compartilhando frequências semelhantes. Ampliações mistas interpolam sequências de texto dentro de uma distância especificada entre si para produzir novos dados que são um agregado dos dados de input.12
Muitos usuários têm dificuldades em identificar quais estratégias de aumento de dados implementar. As técnicas de aumento de dados variam em eficácia entre conjuntos de dados e tarefas? Pesquisas comparativas sobre técnicas de aumento de dados sugerem que múltiplas formas de aumento têm um impacto positivo maior do que uma única técnica, mas determinar a combinação ideal de técnicas depende do conjunto de dados e da tarefa.13 Mas como selecionar as técnicas ideais?
Para abordar essa questão, a pesquisa tem se voltado para o aumento de dados automatizado. Uma abordagem automatizada de aumento utiliza aprendizado por reforço para identificar técnicas de aumento que retornem a maior precisão de validação em um conjunto de dados específico.14 Essa abordagem demonstrou implementar estratégias que melhoram o desempenho em dados dentro e fora da amostra.15 Outra abordagem promissora para aumento automatizado identifica e aumenta falsos positivos a partir das saídas de classificadores. Dessa forma, o aumento automático identifica as melhores estratégias para corrigir itens frequentemente classificados de forma incorreta.16
Mais recentemente, a pesquisa tem se voltado para redes e modelos generativos para identificar estratégias de aumento ideais dependentes da tarefa17 e da classe18. Isso inclui trabalhos com redes adversariais generativas (GANs). As GANs são redes de deep learning normalmente usadas para gerar dados sintéticos, e pesquisas recentes investigam seu uso para aumento de dados. Alguns experimentos, por exemplo, sugerem que aumentos sintéticos de dados em conjuntos de imagens médicas melhoram o desempenho de modelos de classificação19 e segmentação20 mais do que aumentos clássicos. De forma relacionada, pesquisas em aumento de texto utilizam grandes modelos de linguagem (LLMs) e chatbots para gerar dados aumentados. Esses experimentos usam LLMs para gerar amostras aumentadas de dados de entrada com técnicas de mix-up e sinonimização, mostrando um impacto positivo maior em modelos de classificação de texto do que os aumentos clássicos.21
Pesquisadores e desenvolvedores adotam amplamente as técnicas de aumento de dados ao treinar modelos para diversas tarefas de aprendizado de máquina. Em contrapartida, os dados sintéticos representam uma área de pesquisa relativamente mais recente. Experimentos comparativos entre dados sintéticos e reais mostram resultados variados: em alguns casos, modelos treinados inteiramente com dados sintéticos superam aqueles treinados com dados reais; em outros casos, o oposto ocorre. Talvez sem surpresa, essa pesquisa sugere que os dados sintéticos são mais úteis quando refletem características dos dados do mundo real.22
Tenha acesso a insights exclusivos sobre o cenário em evolução das soluções avançadas de BI, destacando as principais descobertas, suposições e recomendações para líderes de dados e de análises.
Simplifique o acesso aos dados e automatize a governança dos dados. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escala de IA, com todos os seus dados, em qualquer lugar.
Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.
Saiba como uma abordagem de data lakehouse aberta pode oferecer dados confiáveis e execução mais rápida para as análises de dados e projetos de IA.
Conecte sua estratégia e análises de dados aos objetivos de negócios com essas quatro etapas principais.
Analise com mais detalhes por que os desafios de business intelligence podem persistir e o que isso significa para os usuários da organização.
Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.
f Martin Tanner e Wing Hung Wong, “The Calculation of Posterior Distributions by Data Augmentation,” Journal of the American Statistical Association, Vol. 82, No. 398 (1987), págs. 528-540.
2 Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles e Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, Vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/fb4c48608ce8825b558ccf07169a3421-Abstract.html.
3 Manisha Saini e Seba Susan, “Tackling class imbalance in computer vision: A contemporary review,” Artificial Intelligence Review, Vol. 54, 2023, https://link.springer.com/article/10.1007/s10462-023-10557-6.
4 Fabio Perez, Cristina Vasconcelos, Sandra Avila e Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018, https://link.springer.com/chapter/10.1007/978-3-030-01201-4_33.
5 Connor Shorten e Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0.
6 Duc Haba, Data Augmentation with Python, Packt Publishing, 2023.
7 Mingle Xu, Sook Yoon, Alvaro Fuentes e Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, Vol. 137, https://www.sciencedirect.com/science/article/pii/S0031320323000481.
8 Connor Shorten e Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0. Terrance DeVries and Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017, https://arxiv.org/abs/1708.04552.
9 Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue e Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, págs 3683-3692, https://openaccess.thecvf.com/content_CVPR_2019/html/Shen_Towards_Instance-Level_Image-To-Image_Translation_CVPR_2019_paper.html. Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le e Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 2918-2928, https://openaccess.thecvf.com/content/CVPR2021/html/Ghiasi_Simple_Copy-Paste_Is_a_Strong_Data_Augmentation_Method_for_Instance_CVPR_2021_paper.html.
10 Connor Shorten, Taghi M. Khoshgoftaar e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler e Tal Linzen, “Syntactic Data Augmentation Increases Robustness to Inference Heuristics,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, págs. 2339-2352, https://aclanthology.org/2020.acl-main.212/.
11 Connor Shorten, Taghi M. Khoshgoftaar e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Rico Sennrich, Barry Haddow e Alexandra Birch, “Improving Neural Machine Translation Models with Monolingual Data,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016, págs. 86-96, https://aclanthology.org/P16-1009/.
12 Connor Shorten, Taghi M. Khoshgoftaar e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu e Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Proceedings of the 28th International Conference on Computational Linguistics, 2020, https://aclanthology.org/2020.coling-main.305/. Hongyu Guo, Yongyi Mao e Richong Zhang, “Augmenting Data with Mixup for Sentence Classification: An Empirical Study,” 2019. https://arxiv.org/abs/1905.08941.
13 Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao e Furao Shen, “Image Data Augmentation for Deep Learning: A Survey,” 2023, https://arxiv.org/pdf/2204.08610.pdf. Alhassan Mumuni and Fuseini Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, Vol. 16, 2022, https://www.sciencedirect.com/science/article/pii/S2590005622000911. Evgin Goveri, “Medical image data augmentation: techniques, comparisons and interpretations,” Artificial Intelligence Review, Vol. 56, 2023, págs. 12561-12605, https://link.springer.com/article/10.1007/s10462-023-10453-z.
14 Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan e Quoc V. Le, “AutoAugment: Learning Augmentation Strategies From Data,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, págs. 113-123, https://openaccess.thecvf.com/content_CVPR_2019/papers/Cubuk_AutoAugment_Learning_Augmentation_Strategies_From_Data_CVPR_2019_paper.pdf.
15 Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens e Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16th European Conference on Computer Vision, 2020, https://link.springer.com/chapter/10.1007/978-3-030-58583-9_34.
16 Sandareka Wickramanayake, Wynne Hsu e Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, Vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/af3b6a54e9e9338abc54258e3406e485-Abstract.html.
17 rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati e Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation,” Proceedings of the 26th International Conference on Information Processing in Medical Imaging, 2019, https://link.springer.com/chapter/10.1007/978-3-030-20351-1_3.
18 Cédric Rommel, Thomas Moreau, Joseph Paillard e Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals,” International Conference on Learning Representations, 2022, https://iclr.cc/virtual/2022/poster/7154.
19 Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger e Hayit Greenspan, “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, 2018, págs. 321-331, https://www.sciencedirect.com/science/article/abs/pii/S0925231218310749.
20 Veit Sandfort, Ke Yan, Perry Pickhardt e Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks,” Scientific Reports, 2019, https://www.nature.com/articles/s41598-019-52737-x.
21 Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee e Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation,” Findings of the Association for Computational Linguistics: EMNLP 2021, págs. 2225-2239, https://aclanthology.org/2021.findings-emnlp.192/. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu e Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023, https://arxiv.org/abs/2302.13007.
22 Bram Vanherle, Steven Moonen, Frank Van Reeth e Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data,” 33rd British Machine Vision Conference, 2022, https://bmvc2022.mpi-inf.mpg.de/0833.pdf. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu e Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data,” SN Computer Science, Vol. 4, 2023, https://link.springer.com/article/10.1007/s42979-023-01704-5. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba e Mauricio Villegas, “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition,” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, págs. 3502-3511, https://openaccess.thecvf.com/content_WACV_2020/html/Kang_Unsupervised_Writer_Adaptation_for_Synthetic-to-Real_Handwriting_Word_Recognition_WACV_2020_paper.html.