El aumento de datos emplea datos preexistentes para crear nuevas muestras de datos que pueden mejorar la optimización y la generalidad del modelo.
En su sentido más general, el aumento de datos se refiere a métodos para complementar los llamados conjuntos de datos incompletos proporcionando puntos de datos faltantes para incrementar la analizabilidad del conjunto de datos1. Esto se manifiesta en el aprendizaje automático al generar copias modificadas de datos preexistentes para aumentar el tamaño y la diversidad de un conjunto de datos. Por lo tanto, con respecto al aprendizaje, los datos aumentados pueden entenderse como el suministro artificial de datos potencialmente ausentes del mundo real.
El aumento de datos mejora la optimización y generalización del modelo de aprendizaje automático. En otras palabras, el aumento de datos puede reducir el sobreajuste y mejorar la robustez del modelo2. El hecho de que los conjuntos de datos grandes y diversos equivalgan a un mejor rendimiento del modelo es un axioma del aprendizaje automático. Sin embargo, por varias razones, desde preocupaciones respecto de los aspectos de ética y privacidad hasta simplemente el tardado esfuerzo para compilar manualmente los datos necesarios, adquirir suficientes datos puede ser una tarea difícil. El aumento de datos proporciona un medio eficaz para aumentar el tamaño y la variabilidad del conjunto de datos. De hecho, los investigadores utilizan ampliamente el aumento de datos para corregir conjuntos de datos desequilibrados3.
Muchos marcos de aprendizaje profundo, como PyTorch, Keras y Tensorflow proporcionan funciones para aumentar los datos, principalmente conjuntos de datos de imágenes. El paquete Python Ablumentations (disponible en Github) también se adopta en muchos proyectos de código abierto. Las albumentaciones permiten aumentar los datos de imagen y texto.
Tenga en cuenta que el aumento de datos es distinto de los datos sintéticos. Es cierto que ambos son algoritmos generativos que agregan nuevos datos a una recopilación de datos para mejorar el rendimiento de los modelos de aprendizaje automático. Sin embargo, los datos sintéticos se refieren a la generación automática de datos completamente artificiales. Un ejemplo es el uso de imágenes generadas por computadora, en lugar de datos del mundo real, para entrenar un modelo de detección de objetos. Por el contrario, el aumento de datos copia los datos existentes y transforma esas copias para aumentar la diversidad y la cantidad de datos en un conjunto determinado.
Existen diversos métodos para el aumento de datos. Las técnicas específicas empleadas para aumentar los datos dependen de la naturaleza de los datos con los que trabaja un usuario. Tenga en cuenta que el aumento de datos generalmente se implementa durante el preprocesamiento en el conjunto de datos de entrenamiento. En algunos estudios se investiga el efecto del aumento en el conjunto de validación o prueba, pero las aplicaciones de aumento fuera de los conjuntos de entrenamiento son más escasas4.
El aumento de datos se ha aplicado ampliamente en la investigación para diversas tareas de visión artificial, desde la clasificación de imágenes hasta la detección de objetos. En este sentido, existen numerosas investigaciones sobre la manera en que las imágenes aumentadas mejoran el rendimiento de las redes neuronales convolucionales (CNN, sigla en inglés de convolutional neural networks) más avanzadas en el procesamiento de imágenes.
Muchos tutoriales y recursos no académicos clasifican el aumento de datos de imágenes en dos categorías: transformaciones geométricas y transformaciones fotométricas (o espacio de color). Ambas consisten en una manipulación relativamente simple de archivos de imagen. La primera categoría denota técnicas que alteran el espacio y el diseño de la imagen original, como el redimensionamiento, el zoom o los cambios de orientación (por ejemplo, giro horizontal). Las transformaciones fotométricas alteran los canales RGB (sigla en inglés de red-green-blue; rojo, verde, azul) de una imagen. Los ejemplos de transformación fotométrica incluyen el ajuste de saturación y la escala de grises de una imagen5.
Algunas fuentes categorizan la inyección de ruido con transformaciones geométricas6, mientras que otras la clasifican con transformaciones fotométricas7. La inyección de ruido inserta píxeles aleatorios negros, blancos o de color en una imagen de acuerdo con una distribución gaussiana.
Como ilustra la inyección de ruido, la clasificación binaria de las técnicas de aumento de imágenes en geométricas y fotométricas no cubre toda la gama de posibles estrategias de aumento. Las técnicas de aumento de imagen excluidas son la de filtro o kernel (nitidez o desenfoque de una imagen) y la combinación de imágenes. Un ejemplo de esto último es el recorte aleatorio y la aplicación de parches. Esta técnica toma muestras aleatorias de secciones de varias imágenes para crear una nueva imagen. Esta nueva imagen es una composición hecha a partir de las muestras de las secciones de las imágenes de entrada. Una técnica relacionada es el borrado aleatorio, que elimina una parte aleatoria de una imagen8. Estas tareas son útiles para el reconocimiento de imágenes, ya que los casos de uso del mundo real pueden requerir que las máquinas identifiquen objetos parcialmente ocultos.
El aumento a nivel de instancia es otro aumento. El aumento a nivel de instancia esencialmente copia regiones etiquetadas (por ejemplo, cuadros delimitadores) de una imagen y las inserta en otra imagen. Este enfoque entrena a la imagen para identificar objetos contra diferentes fondos, así como objetos ocultos por otros objetos. El aumento a nivel de instancia es un enfoque particularmente destacado para tareas de reconocimiento específicas de la región, como la detección de objetos y las tareas de segmentación de imágenes9.
Al igual que el aumento de imágenes, el aumento de datos de texto consta de muchas técnicas y métodos que se emplean en diversas tareas de procesamiento de lenguaje natural (PLN). Algunos recursos dividen el aumento de texto en métodos basados en reglas (o “fáciles”) y neuronales. Por supuesto, al igual que con la división binaria de las técnicas de aumento de imágenes, esta categorización no lo abarca todo.
Los métodos basados en reglas incluyen técnicas relativamente sencillas de buscar y reemplazar, como la eliminación o inserción aleatoria. Estos métodos también abarcan el reemplazo de sinónimos. En esta estrategia, una o más palabras de una cadena se reemplazan por sus respectivos sinónimos registrados en un diccionario de sinónimos predefinido, como WordNet o Paraphrase Database. La inversión y conversión a voz pasiva de oraciones, donde el objeto y el sujeto intercambian posiciones, también son ejemplos de métodos basados en reglas10.
Según su clasificación, los métodos neuronales emplean redes neuronales para generar nuevas muestras de texto a partir de los datos de entrada. Un método neuronal notable es la retrotraducción o traducción inversa, la cual emplea traducción automática para traducir los datos de entrada a un idioma de destino y luego de vuelta al idioma de entrada original. De esta manera, la traducción inversa aprovecha las variaciones lingüísticas que dan lugar a traducciones automáticas para generar variaciones semánticas en un conjunto de datos de un solo idioma con el fin de aumentarlas. Las investigaciones indican que esto es eficaz para mejorar el rendimiento de los modelos de traducción automática11.
Otra estrategia son los aumentos de textos mixtos. En esta técnica se despliegan métodos de borrado e inserción basados en reglas a través de incrustaciones de redes neuronales. En concreto, los transformadores preentrenados (por ejemplo, BERT) generan incrustaciones de texto a nivel de palabra o frase, transformando el texto en puntos vectoriales, como en un modelo bag of words. La transformación de texto en puntos vectoriales suele tener como objetivo captar la similitud lingüística, es decir, se cree que las palabras o frases más cercanas entre sí en el espacio vectorial comparten significados o frecuencias similares. Los aumentos mixtos interpolan cadenas de texto situadas a una distancia determinada entre sí para producir nuevos datos que son los datos de entrada acumulados12.
A muchos usuarios se les dificulta identificar qué estrategias de aumento de datos deben implementar. ¿Las técnicas de aumento de datos varían en eficacia entre conjuntos de datos y tareas? Las investigaciones comparativas sobre técnicas de aumento de datos indican que múltiples formas de aumento tienen un mayor impacto positivo que uno solo, pero determinar la combinación óptima de técnicas depende del conjunto de datos y de la tarea en cuestión13. Pero, ¿cómo se seleccionan las técnicas óptimas?
Para abordar este problema, las investigaciones han recurrido al aumento automatizado de datos. Un método de aumento automatizado emplea el aprendizaje por refuerzo para identificar las técnicas de aumento que devuelven la mayor precisión de validación en un conjunto de datos determinado14. Se demostró que este enfoque implementa estrategias que mejoran el rendimiento tanto en los datos dentro como fuera de la muestra.15 Otro método prometedor para el aumento automatizado identifica y aumenta los falsos positivos de las salidas del clasificador. De esta manera, el aumento automático identifica las mejores estrategias para corregir los elementos que se clasifican erróneamente con frecuencia16.
Más recientemente, las investigaciones han recurrido a las redes y modelos generativos para identificar estrategias de aumento óptimas dependientes de la tarea17 y de la clase18. Esto incluye trabajar con redes generativas antagonistas (GAN, sigla en inglés de generative adversarial network). Las GAN son redes de aprendizaje profundo que suelen emplearse para generar datos sintéticos, y en investigaciones recientes se estudia su uso para el aumento de datos. Algunos experimentos, por ejemplo, indican que el aumento de datos sintéticas de conjuntos de imágenes médicas mejoran el rendimiento de los modelos de clasificación19 y segmentación20 más que los aumentos tradicionales. En relación con lo anterior, las investigaciones sobre el aumento de texto aprovechan los modelos de lenguaje grandes (LLM) y los chatbots para generar datos aumentados. Estos experimentos emplean LLM para generar muestras aumentadas de datos de entrada con técnicas de combinación y sinonimización, lo que muestra un mayor impacto positivo para los modelos de clasificación de textos que el aumento tradicional21.
Los investigadores y desarrolladores adoptan ampliamente técnicas de aumento de datos al entrenar modelos para diversas tareas de aprendizaje automático. Por el contrario, los datos sintéticos son un área de investigación comparativamente más nueva. Los experimentos comparativos con datos sintéticos y reales muestran resultados mixtos: los modelos entrenados completamente con datos sintéticos a veces tienen un rendimiento superior y a veces inferior al de los modelos entrenados con datos del mundo real. Quizá, como era de esperarse, estas investigaciones indican que los datos sintéticos son más útiles cuando reflejan características de los datos del mundo real22.
Obtenga insights únicos del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y analytics.
Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de analytics e IA.
Vincule su estrategia de datos y analytics a los objetivos empresariales al seguir estos 4 pasos clave.
Analice en profundidad por qué pueden persistir los retos de la business intelligence y qué significa para los usuarios de una organización.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.
f Martin Tanner y Wing Hung Wong, “The Calculation of Posterior Distributions by Data Augmentation”. Journal of the American Statistical Association, Vol. 82, No. 398 (1987), págs. 528-540.
2 Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles y Timothy A Mann, “Data Augmentation Can Improve Robustness”. Advances in Neural Information Processing Systems, Vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/fb4c48608ce8825b558ccf07169a3421-Abstract.html.
3 Manisha Saini y Seba Susan, “Tackling class imbalance in computer vision: A contemporary review”. Artificial Intelligence Review, Vol. 54, 2023, https://link.springer.com/article/10.1007/s10462-023-10557-6.
4 Fabio Perez, Cristina Vasconcelos, Sandra Avila y Eduardo Valle, “Data Augmentation for Skin Lesion Analysis” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018, https://link.springer.com/chapter/10.1007/978-3-030-01201-4_33.
5 Connor Shorten y Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning”. Journal of Big Data, 2019, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0.
6 Duc Haba, Data Augmentation with Python. Packt Publishing, 2023.
7 Mingle Xu, Sook Yoon, Alvaro Fuentes y Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning”. Patter Recognition, Vol. 137, https://www.sciencedirect.com/science/article/pii/S0031320323000481.
8 Connor Shorten y Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning”. Journal of Big Data, 2019, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0. Terrance DeVries y Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout”, 2017, https://arxiv.org/abs/1708.04552.
9 Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue y Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation”. Registros de la conferencia de IEEE/CVF sobre los talleres de visión artificial y reconocimiento de patrones (CVPR), 2019, págs. 3683-3692, https://openaccess.thecvf.com/content_CVPR_2019/html/Shen_Towards_Instance-Level_Image-To-Image_Translation_CVPR_2019_paper.html. Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le y Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation”. Registros de la conferencia de IEEE/CVF sobre los talleres de visión artificial y reconocimiento de patrones (CVPR), 2021, págs. 2918-2928, https://openaccess.thecvf.com/content/CVPR2021/html/Ghiasi_Simple_Copy-Paste_Is_a_Strong_Data_Augmentation_Method_for_Instance_CVPR_2021_paper.html.
10 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht, “Text Data Augmentation for Deep Learning”. Journal of Big Data, 2021, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, and Tal Linzen, “Syntactic Data Augmentation Increases Robustness to Inference Heuristics”. Registros del 58.o congreso anual de la Asociación para la Lingüística Computacional, 2020, págs. 2339-2352, https://aclanthology.org/2020.acl-main.212/.
11 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht, “Text Data Augmentation for Deep Learning”. Journal of Big Data, 2021, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Rico Sennrich, Barry Haddow y Alexandra Birch, “Improving Neural Machine Translation Models with Monolingual Data”. Registros del 54.o congreso anual de la Asociación para la Lingüística Computacional, 2020, págs. 86-96, https://aclanthology.org/P16-1009/.
12 Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning”. Journal of Big Data, 2021, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu y Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Registros del 28.o congreso anual de la Asociación para la Lingüística Computacional, 2020, https://aclanthology.org/2020.coling-main.305/. Hongyu Guo, Yongyi Mao y Richong Zhang, “Augmenting Data with Mixup for Sentence Classification: An Empirical Study”, 2019. https://arxiv.org/abs/1905.08941.
13 Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao y Furao Shen, “Image Data Augmentation for Deep Learning: A Survey”, 2023, https://arxiv.org/pdf/2204.08610.pdf. Alhassan Mumuni y Fuseini Mumuni, “Data augmentation: A comprehensive survey of modern approaches”. Array, Vol. 16, 2022, https://www.sciencedirect.com/science/article/pii/S2590005622000911. Evgin Goveri, “Medical image data augmentation: techniques, comparisons and interpretations”. Artificial Intelligence Review, Vol. 56, 2023, págs. 12561-12605, https://link.springer.com/article/10.1007/s10462-023-10453-z.
14 Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan y Quoc V. Le, “AutoAugment: Learning Augmentation Strategies From Data”. Registros de la conferencia de IEEE/CVF sobre los talleres de visión artificial y reconocimiento de patrones (CVPR), 2019, págs. 113-123, https://openaccess.thecvf.com/content_CVPR_2019/papers/Cubuk_AutoAugment_Learning_Augmentation_Strategies_From_Data_CVPR_2019_paper.pdf.
15 Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens y Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Registros de la 16.a conferencia europea sobre visión artificial, 2020, https://link.springer.com/chapter/10.1007/978-3-030-58583-9_34.
16 Sandareka Wickramanayake, Wynne Hsu y Mong Li Lee, “Explanation-based Data Augmentation for Image Classification”. Advances in Neural Information Processing Systems, Vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/af3b6a54e9e9338abc54258e3406e485-Abstract.html.
17 Rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati y Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation.” Registros de la 26.a conferencia internacional sobre el procesamiento de información en la imagenología médica. 2019, https://link.springer.com/chapter/10.1007/978-3-030-20351-1_3.
18 Cédric Rommel, Thomas Moreau, Joseph Paillard y Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals”. Conferencia internacional sobre representaciones del aprendizaje, 2022, https://iclr.cc/virtual/2022/poster/7154.
19 Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger y Hayit Greenspan, “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, 2018, págs. 321-331, https://www.sciencedirect.com/science/article/abs/pii/S0925231218310749.
20 Veit Sandfort, Ke Yan, Perry Pickhardt y Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks”. Scientific Reports, 2019, https://www.nature.com/articles/s41598-019-52737-x.
21 Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee y Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation”. Conclusiones de la Asociación para la Lingüística Computacional: EMNLP 2021, págs. 2225-2239, https://aclanthology.org/2021.findings-emnlp.192/. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu y Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation”, 2023, https://arxiv.org/abs/2302.13007.
22 Bram Vanherle, Steven Moonen, Frank Van Reeth y Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data”, 33.a conferencia británica sobre visión artificial, 2022, https://bmvc2022.mpi-inf.mpg.de/0833.pdf. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu y Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data”. SN Computer Science, Vol. 4, 2023, https://link.springer.com/article/10.1007/s42979-023-01704-5. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba y Mauricio Villegas, “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition.” Registros de la conferencia de invierno de IEEE/CVF sobre aplicaciones de la visión artificial (WACV), 2020, págs. 3502-3511, https://openaccess.thecvf.com/content_WACV_2020/html/Kang_Unsupervised_Writer_Adaptation_for_Synthetic-to-Real_Handwritten_Word_Recognition_WACV_2020_paper.html.