O que é aumento de dados?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

O que é aumento de dados?

O aumento de dados utiliza dados já existentes para criar novas amostras que melhoram a otimização e generalização dos modelos.

No sentido mais geral, aumento de dados denota métodos para suplementar os chamados conjuntos de dados incompletos, fornecendo pontos de dados ausentes para aumentar a capacidade de análise do conjunto de dados.¹ Isso se manifesta no aprendizado de máquina por meio da geração de cópias modificadas de dados preexistentes, aumentando o tamanho e a diversidade de um conjunto de dados. Assim, no contexto do aprendizado de máquina, os dados aumentados podem ser entendidos como um fornecimento artificial de dados do mundo real potencialmente ausentes.

O aumento de dados melhora a otimização e a generalização de modelos de aprendizado de máquina. Em outras palavras, o aumento de dados pode reduzir o overfitting e melhorar a robustez do modelo.² O fato de que grandes conjuntos de dados e diversos resultam em melhor desempenho de modelo é um axioma do aprendizado de máquina. No entanto, por uma série de razões, desde preocupações éticas e de privacidade até o esforço demorado de compilar manualmente os dados necessários, obter dados suficientes pode ser difícil. O aumento de dados fornece um meio eficaz de aumentar o tamanho e a variabilidade do conjunto de dados. De fato, pesquisadores utilizam amplamente o aumento de dados para corrigir conjuntos de dados desequilibrados.³

Muitos frameworks de deep learning, como PyTorch, Keras e TensorFlow, oferecem funções para aumentar dados, principalmente conjuntos de dados de imagens. O pacote Python Albumentations (disponível no GitHub) também é adotado em muitos projetos de código aberto. O Albumentations permite o aumento de dados de imagem e texto.

Dados aumentados vs dados sintéticos

Observe que o aumento de dados é distinto dos dados sintéticos. Ambos são algoritmos generativos que adicionam novos dados a uma coleção de dados para melhorar o desempenho de modelos de aprendizado de máquina. No entanto, os dados sintéticos referem-se à geração automática de dados totalmente artificiais. Um exemplo é o uso de imagens geradas por computador (em vez de dados do mundo real) para treinar um modelo de detecção de objetos. Por outro lado, o aumento de dados copia dados existentes e transforma essas cópias para aumentar a diversidade e a quantidade de dados em um conjunto específico.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Técnicas de aumento de dados

Existem diversos métodos de aumento de dados. As técnicas específicas utilizadas para aumentar dados dependem da natureza dos dados com os quais o usuário está trabalhando. Observe que o aumento de dados é tipicamente implementado durante o pré-processamento no conjunto de dados de treinamento. Alguns estudos investigam o efeito do aumento no conjunto de validação ou teste, mas as aplicações de aumento fora dos conjuntos de treinamento são mais raras.⁴

Aumento de imagem

O aumento de dados tem sido amplamente implementado em pesquisas para uma variedade de tarefas de visão computacional, desde classificação de imagens até detecção de objetos. Por isso, há uma grande quantidade de pesquisas sobre como imagens aumentadas melhoram o desempenho de redes neurais convolucionais (CNNs) de última geração no processamento de imagens.

Muitos tutoriais e recursos não acadêmicos classificam a ampliação de dados de imagem em duas categorias: transformações geométricas e transformações fotométricas (ou de espaço de cor). Ambos consistem na manipulação relativamente simples de arquivos de imagem. A primeira categoria refere-se a técnicas que alteram o espaço e o layout da imagem original, como redimensionamento, zoom ou mudanças na orientação (por exemplo, inversão horizontal). As transformações fotométricas alteram os canais RGB (vermelho-verde-azul) de uma imagem. Exemplos de transformação fotométrica incluem o ajuste de saturação e a escala de cinza de uma imagem⁵

Exemplo de aumento básico de imagem para imagem de gato

Algumas fontes categorizam a injeção de ruído como uma transformação geométrica⁶, enquanto outras a classificam como uma transformação fotométrica.⁷ A injeção de ruído insere pixels pretos, brancos ou coloridos aleatórios em uma imagem, de acordo com uma distribuição gaussiana.

Exemplo de injeção de ruído para aumento de imagem

Como ilustra a injeção de ruído, a classificação binária das técnicas de aumento de imagens em geométricas e fotométricas não abrange toda a gama de estratégias possíveis de aumento. Técnicas de aumento de imagem que ficam excluídas dessa classificação incluem filtragem por kernel (realçando ou desfocando uma imagem) e mistura de imagens. Um exemplo desta última é o corte e a colagem aleatórios. Essa técnica seleciona aleatoriamente seções de várias imagens para criar uma nova imagem. Essa nova imagem é um composto formado pelas seções selecionadas das imagens de input. Uma técnica relacionada é a exclusão aleatória, que apaga uma porção aleatória de uma imagem.⁸ Tais tarefas são úteis em atividades de reconhecimento de imagens, já que casos de uso do mundo real podem exigir que máquinas identifiquem objetos parcialmente ocultos.

Visualização para corte aleatório de imagem de golden retriever

O aumento no nível de instância é outra técnica de aumento. O aumento no nível de instância essencialmente copia regiões rotuladas (por exemplo, caixas delimitadoras) de uma imagem e as insere em outra imagem. Tal abordagem treina o modelo para identificar objetos contra diferentes fundos, assim como objetos ocultos por outros objetos. O aumento no nível de instância é uma abordagem particularmente relevante para tarefas de reconhecimento em regiões específicas, como detecção de objetos e segmentação de imagens.⁹

Aumento de texto

Assim como o aumento de imagens, o aumento de dados textuais consiste em várias técnicas e métodos utilizados em uma variedade de tarefas de processamento de linguagem natural (PLN). Alguns recursos dividem a ampliação de texto em métodos baseados em regras (ou "fáceis") e métodos neurais. Naturalmente, assim como na divisão binária das técnicas de aumento de imagens, essa categorização não cobre todas as possibilidades.

As abordagens baseadas em regras incluem técnicas relativamente simples de localizar e substituir, como exclusão ou inserção aleatória. Abordagens baseadas em regras também abrangem a substituição por sinônimos. Nessa estratégia, uma ou mais palavras em uma sequência são substituídas por seus respectivos sinônimos, conforme registrados em tesauros predefinidos, como o WordNet ou o Paraphrase Database. A inversão de frases e a passivação, nas quais o objeto e o sujeito são trocados, também são exemplos de abordagens baseadas em regras.¹⁰

Visualização de gráficos de aumentos de texto baseados em regras

Segundo essa classificação, os métodos neurais empregam redes neurais para criar novas amostras de texto a partir dos dados de input. Um método neural notável é a tradução reversa. Esse processo usa tradução automática para converter os dados de input em um idioma-alvo e, em seguida, retornar ao idioma original de input. Dessa forma, a tradução reversa aproveita as variações linguísticas que resultam de traduções automáticas para gerar variações semânticas em um conjunto de dados de língua única para fins de aumento. Pesquisas sugerem que isso é eficaz para melhorar o desempenho dos modelos de tradução automática.¹¹

Visualização da ampliação da tradução com a frase "Estou dançando no clube"

Ampliações de texto mistos são outra estratégia. Essa abordagem implementa métodos de exclusão e inserção baseados em regras, empregando embeddings de redes neurais. Especificamente, transformadores pré-treinados (por exemplo, BERT) geram embeddings em nível de palavra ou sentença, transformando textos em pontos vetoriais, como em um modelo de bag of words. A transformação de texto em pontos vetoriais geralmente visa capturar similitude linguística, ou seja, palavras ou sentenças mais próximas umas das outras no espaço vetorial são consideradas semanticamente similares ou compartilhando frequências semelhantes. Ampliações mistas interpolam sequências de texto dentro de uma distância especificada entre si para produzir novos dados que são um agregado dos dados de input.¹²

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Pesquisa recente

Muitos usuários têm dificuldades em identificar quais estratégias de aumento de dados implementar. As técnicas de aumento de dados variam em eficácia entre conjuntos de dados e tarefas? Pesquisas comparativas sobre técnicas de aumento de dados sugerem que múltiplas formas de aumento têm um impacto positivo maior do que uma única técnica, mas determinar a combinação ideal de técnicas depende do conjunto de dados e da tarefa.¹³ Mas como selecionar as técnicas ideais?

Aumento automatizado

Para abordar essa questão, a pesquisa tem se voltado para o aumento de dados automatizado. Uma abordagem automatizada de aumento utiliza aprendizado por reforço para identificar técnicas de aumento que retornem a maior precisão de validação em um conjunto de dados específico.¹⁴ Essa abordagem demonstrou implementar estratégias que melhoram o desempenho em dados dentro e fora da amostra.¹⁵ Outra abordagem promissora para aumento automatizado identifica e aumenta falsos positivos a partir das saídas de classificadores. Dessa forma, o aumento automático identifica as melhores estratégias para corrigir itens frequentemente classificados de forma incorreta.¹⁶

Redes generativas

Mais recentemente, a pesquisa tem se voltado para redes e modelos generativos para identificar estratégias de aumento ideais dependentes da tarefa¹⁷ e da classe¹⁸. Isso inclui trabalhos com redes adversariais generativas (GANs). As GANs são redes de deep learning normalmente usadas para gerar dados sintéticos, e pesquisas recentes investigam seu uso para aumento de dados. Alguns experimentos, por exemplo, sugerem que aumentos sintéticos de dados em conjuntos de imagens médicas melhoram o desempenho de modelos de classificação¹⁹ e segmentação²⁰ mais do que aumentos clássicos. De forma relacionada, pesquisas em aumento de texto utilizam grandes modelos de linguagem (LLMs) e chatbots para gerar dados aumentados. Esses experimentos usam LLMs para gerar amostras aumentadas de dados de entrada com técnicas de mix-up e sinonimização, mostrando um impacto positivo maior em modelos de classificação de texto do que os aumentos clássicos.²¹

Pesquisadores e desenvolvedores adotam amplamente as técnicas de aumento de dados ao treinar modelos para diversas tarefas de aprendizado de máquina. Em contrapartida, os dados sintéticos representam uma área de pesquisa relativamente mais recente. Experimentos comparativos entre dados sintéticos e reais mostram resultados variados: em alguns casos, modelos treinados inteiramente com dados sintéticos superam aqueles treinados com dados reais; em outros casos, o oposto ocorre. Talvez sem surpresa, essa pesquisa sugere que os dados sintéticos são mais úteis quando refletem características dos dados do mundo real.²²

Ciência de dados e MLOps para líderes de dados

Una forças com outros líderes para impulsionar os três pilares essenciais da MLOps e da IA confiável: confiança nos dados, confiança nos modelos e confiança nos processos.

Recursos

Aumente seu conhecimento especializado em ML

Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Aprendizado de máquina explicado

O Techsplainers da IBM detalha os fundamentos do aprendizado de máquina, desde os conceitos-chave até os casos de uso do mundo real. Episódios claros e rápidos ajudam você a aprender rapidamente os fundamentos.

Coloque a IA para trabalhar: como gerar ROI com a IA generativa

Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.

Como escolher o modelo de base certo

Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.

Explore o IBM Granite

O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore opções de linguagem, código, séries temporais e proteções.

Como prosperar nesta nova era da IA com confiança e convicção

Aprofunde-se nos três elementos críticos de uma estratégia de IA forte: gerar vantagem competitiva, escalar a IA em toda a empresa e avançar na IA confiável.

Soluções relacionadas

IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai

Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA

Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA

Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Notas de rodapé

Todos os links são externos a ibm.com.

^f Martin Tanner e Wing Hung Wong, “The Calculation of Posterior Distributions by Data Augmentation,” Journal of the American Statistical Association, Vol. 82, No. 398 (1987), págs. 528-540.

² Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles e Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

³ Manisha Saini e Seba Susan, “Tackling class imbalance in computer vision: A contemporary review,” Artificial Intelligence Review, Vol. 54, 2023.

⁴ Fabio Perez, Cristina Vasconcelos, Sandra Avila e Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018.

⁵ Connor Shorten e Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019.

⁶ Duc Haba, Data Augmentation with Python, Packt Publishing, 2023.

⁷ Mingle Xu, Sook Yoon, Alvaro Fuentes e Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, Vol. 137.

⁸ Connor Shorten e Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, . Terrance DeVries e Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017.

⁹ Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue e Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le e Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 2918-2928.

¹⁰ Connor Shorten, Taghi M. Khoshgoftaar e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler e Tal Linzen, “Syntactic Data Augmentation Increases Robustness to Inference Heuristics,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 2339-2352.

¹¹ Connor Shorten, Taghi M. Khoshgoftaar e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Rico Sennrich, Barry Haddow e Alexandra Birch, “Improving Neural Machine Translation Models with Monolingual Data,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016, pp. 86-96.

¹² Connor Shorten, Taghi M. Khoshgoftaar e Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu e Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Proceedings of the 28th International Conference on Computational Linguistics, 2020. Hongyu Guo, Yongyi Mao e Richong Zhang, “Augmenting Data with Mixup for Sentence Classification: An Empirical Study,” 2019.

¹³ Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao e Furao Shen, “Image Data Augmentation for Deep Learning: A Survey,” 2023. Alhassan Mumuni e Fuseini Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, Vol. 16, 2022. Evgin Goveri, “Medical image data augmentation: techniques, comparisons and interpretations,” Artificial Intelligence Review, Vol. 56, 2023, pp. 12561-12605.

¹⁴ Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan e Quoc V. Le, “AutoAugment: Learning Augmentation Strategies From Data,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 113-123.

¹⁵ Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens e Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16^th European Conference on Computer Vision, 2020.

¹⁶ Sandareka Wickramanayake, Wynne Hsu e Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

¹⁷ rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati e Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation,” Proceedings of the 26^th International Conference on Information Processing in Medical Imaging, 2019.

¹⁸ Cédric Rommel, Thomas Moreau, Joseph Paillard e Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals,” International Conference on Learning Representations, 2022.

¹⁹ Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger e Hayit Greenspan, “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, 2018, pp. 321-331.

²⁰ Veit Sandfort, Ke Yan, Perry Pickhardt e Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks,” Scientific Reports, 2019.

²¹ Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee e Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation,” Findings of the Association for Computational Linguistics: EMNLP 2021, pp. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu e Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023.

²² Bram Vanherle, Steven Moonen, Frank Van Reeth e Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data,” 33^rd British Machine Vision Conference, 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu e Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data,” SN Computer Science, Vol. 4, 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba e Mauricio Villegas, “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition,” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 3502-3511.

O que é aumento de dados?

O que é aumento de dados?

Dados aumentados vs dados sintéticos

As mais recentes tendências em IA, trazidas a você por especialistas

Agradecemos a você! Você se inscreveu.

Técnicas de aumento de dados

Aumento de imagem

Aumento de texto

Decodificando a IA: resumo semanal das notícias

Pesquisa recente

Aumento automatizado

Redes generativas

Recursos

Notas de rodapé