Mais recentemente, a pesquisa se voltou para redes e modelos generativos para identificar estratégias de aumento ótimas dependentes da tarefa17 e da classe18. Isso inclui trabalho com redes adversárias generativas (GANs). As GANs são redes de deep learning normalmente usadas para gerar dados sintéticos, e pesquisas recentes investigam seu uso para aumento de dados. Alguns experimentos, por exemplo, sugerem que os aumentos de dados sintéticos em conjuntos de imagens médicas melhoram o desempenho dos modelos de classificação19 e segmentação20 mais do que os aumentos clássicos. De forma relacionada, a pesquisa em aumento de texto aproveita grandes modelos de linguagem (LLMs) e chatbots para gerar dados aumentados. Esses experimentos utilizam LLMs para gerar amostras aumentadas de dados de entrada com técnicas de mixagem e substituição por sinônimos, mostrando um impacto positivo maior para modelos de classificação de texto do que as ampliações clássicas.21

Pesquisadores e desenvolvedores adotam amplamente técnicas de aumento de dados ao treinar modelos para diversas tarefas de aprendizado de máquina. Em contraste, dados sintéticos são uma área de pesquisa comparativamente mais nova. Experimentos comparativos entre dados sintéticos e reais apresentam resultados variados, com modelos treinados inteiramente em dados sintéticos às vezes superando e às vezes apresentando desempenho inferior aos modelos treinados com dados do mundo real. Não é surpreendente que essa pesquisa indique que dados sintéticos são mais eficazes quando apresentam características semelhantes aos dados do mundo real.22