El aumento de datos utiliza datos preexistentes para crear nuevas muestras de datos que pueden mejorar la optimización y la generalización del modelo.
En su sentido más general, el aumento de datos denota métodos para complementar los llamados conjuntos de datos incompletos al proporcionar puntos de datos que faltan para aumentar la analizabilidad del conjunto de datos1. Esto se manifiesta en el machine learning al generar copias modificadas de datos preexistentes para aumentar el tamaño y la diversidad de un conjunto de datos. Así, con respecto al machine learning, los datos aumentados pueden entenderse como el suministro artificial de datos del mundo real potencialmente ausentes.
El aumento de datos mejora la optimización y generalización del modelo de machine learning. En otras palabras, el aumento de datos puede reducir el sobreajuste y mejorar la solidez del modelo2. Que los conjuntos de datos grandes y diversos equivalen a un mejor rendimiento del modelo es un axioma del machine learning. Sin embargo, por varias razones (desde cuestiones éticas y de privacidad hasta el simple esfuerzo que requiere mucho tiempo para recopilar manualmente los datos necesarios), puede resultar complicado obtener datos suficientes. El aumento de datos proporciona un medio eficaz para aumentar el tamaño y la variabilidad de los conjuntos de datos. De hecho, los investigadores utilizan ampliamente el aumento de datos para corregir conjuntos de datos desequilibrados3.
Muchos marcos de deep learning, como PyTorch, Keras y Tensorflow, proporcionan funciones para aumentar los datos, principalmente conjuntos de datos de imágenes. El paquete Python Ablumentations (disponible en Github) también se ha adoptado en muchos proyectos de código abierto. Albumentations permite aumentar los datos de imagen y texto.
Tenga en cuenta que el aumento de datos es distinto de los datos sintéticos. Es cierto que ambos son algoritmos generativos que añaden nuevos datos a una recopilación de datos para mejorar el rendimiento de los modelos de machine learning. Sin embargo, los datos sintéticos se refieren a la generación automática de datos totalmente artificiales. Un ejemplo es el uso de imágenes generadas por ordenador (en contraposición a los datos del mundo real) para entrenar un modelo de detección de objetos. Por el contrario, el aumento de datos copia los datos existentes y transforma esas copias para aumentar la diversidad y la cantidad de datos en un conjunto determinado.
Existen varios métodos de aumento de datos. Las técnicas específicas utilizadas para aumentar los datos dependen de la naturaleza de los datos con los que trabaja un usuario. Tenga en cuenta que el aumento de datos se suele implementar durante el preprocesamiento en el conjunto de datos de entrenamiento. Algunos estudios investigan el efecto del aumento en el conjunto de validación o prueba, pero las aplicaciones de aumento fuera de los conjuntos de entrenamiento son más raras4.
El aumento de datos se ha implementado ampliamente en la investigación para una serie de tareas de visión artificial, desde la clasificación de imágenes hasta la detección de objetos. Como tal, existe una gran cantidad de investigaciones sobre cómo las imágenes aumentadas mejoran el rendimiento de las redes neuronales convolucionales (CNN) de última generación en el procesamiento de imágenes.
Muchos tutoriales y recursos no académicos clasifican el aumento de datos de imágenes en dos categorías: transformaciones geométricas y transformaciones fotométricas (o de espacio de color). Ambas consisten en una manipulación relativamente sencilla de archivos de imagen. La primera categoría denota técnicas que alteran el espacio y el diseño de la imagen original, como el cambio de tamaño, el zoom o los cambios de orientación (por ejemplo, el giro horizontal). Las transformaciones fotométricas alteran los canales RGB (rojo-verde-azul) de una imagen. Algunos ejemplos de transformación fotométrica son el ajuste de saturación y el escalado de grises de una imagen5.
Algunas fuentes clasifican la inyección de ruido con transformaciones geométricas6, mientras que otras la clasifican con transformaciones fotométricas7. La inyección de ruido inserta píxeles aleatorios negros, blancos o de color en una imagen según una distribución gaussiana.
Como ilustra la inyección de ruido, la clasificación binaria de las técnicas de aumento de imágenes en geométricas y fotométricas no cubre toda la gama de posibles estrategias de aumento. Las técnicas de aumento de imágenes excluidas son el filtrado kernel (enfocar o desenfocar una imagen) y la mezcla de imágenes. Un ejemplo de esto último son los recortes y parches aleatorios. Esta técnica toma muestras aleatorias de secciones de varias imágenes para crear una nueva. Esta nueva imagen es una composición hecha a partir de las secciones muestreadas de las imágenes de entrada. Una técnica relacionada es el borrado aleatorio, que elimina una parte aleatoria de una imagen8. Estas tareas son útiles en tareas de reconocimiento de imágenes, ya que los casos de uso del mundo real pueden requerir que las máquinas identifiquen objetos parcialmente oscurecidos.
El aumento a nivel de instancia es otro tipo de aumento. Dicho aumento copia esencialmente regiones etiquetadas (por ejemplo, cuadros delimitadores) de una imagen y las inserta en otra. Este enfoque entrena a la imagen para identificar objetos sobre diferentes fondos, así como objetos oscurecidos por otros objetos. El aumento a nivel de instancia es un enfoque particularmente destacado para tareas de reconocimiento específicas de una región, como la detección de objetos y la segmentación de imágenes.9.
Al igual que el aumento de imágenes, el aumento de datos de texto consiste en muchas técnicas y métodos que se utilizan en toda una serie de tareas de procesamiento del lenguaje natural (PLN). Algunos recursos dividen el aumento de texto en métodos basados en reglas (o "fáciles") y métodos neuronales. Por supuesto, al igual que ocurre con la división binaria de las técnicas de aumento de imágenes, esta categorización no lo abarca todo.
Los enfoques basados en reglas incluyen técnicas de búsqueda y sustitución relativamente sencillas, como la eliminación o inserción aleatorias. Los enfoques basados en reglas también incluyen la sustitución de sinónimos. En esta estrategia, una o varias palabras de una cadena se sustituyen por sus respectivos sinónimos registrados en tesauros predefinidos, como WordNet o la Paraphrase Database. La pasivación y la inversión de oraciones, en las que se intercambian el objeto y el sujeto, también son ejemplos de enfoques basados en reglas10.
Según su clasificación, los métodos neuronales utilizan redes neuronales para generar nuevas muestras de texto a partir de los datos de entrada. Un método neuronal notable es la retrotraducción. Este utiliza la traducción automática para traducir los datos de entrada a un idioma de destino y luego de nuevo al idioma de entrada original. De este modo, la retrotraducción aprovecha las variaciones lingüísticas que resultan de las traducciones automatizadas para generar variaciones semánticas en un conjunto de datos de un solo idioma con fines de aumento. Las investigaciones sugieren que esto es eficaz para mejorar el rendimiento del modelo de traducción automática11.
Otra estrategia son los aumentos de texto mixtos. Este enfoque implementa métodos de eliminación e inserción basados en reglas mediante incrustaciones de Neural Networks. En concreto, los transformadores preentrenados (por ejemplo, BERT) generan incrustaciones de texto a nivel de palabra u oración, transformando el texto en puntos vectoriales, como en un modelo de bag of words. La transformación del texto en puntos vectoriales generalmente tiene como objetivo capturar la similitud lingüística, es decir, se cree que las palabras u oraciones más cercanas entre sí en el espacio vectorial comparten significados o frecuencias similares. Los aumentos mixtos interpolan cadenas de texto que se encuentran a una distancia determinada entre sí para producir nuevos datos que son un agregado de los datos de entrada12.
Muchos usuarios tienen dificultades para identificar qué estrategias de aumento de datos deben implementar. ¿Varía la eficacia de las técnicas de aumento de datos entre conjuntos de datos y tareas? La investigación comparativa sobre técnicas de aumento de datos sugiere que múltiples formas de aumento tienen un mayor impacto positivo que una sola, pero determinar la combinación óptima de técnicas depende del conjunto de datos y de la tarea13. Pero, ¿cómo se seleccionan las técnicas óptimas?
Para abordar este problema, la investigación ha recurrido al aumento automatizado de datos. Un enfoque de aumento automatizado utiliza el aprendizaje por refuerzo para identificar las técnicas de aumento que devuelven la mayor precisión de validación en un conjunto de datos determinado14. Se ha demostrado que este enfoque implementa estrategias que mejoran el rendimiento tanto en los datos de muestra como fuera de ellos15. Otro enfoque prometedor para el aumento automatizado identifica y aumenta los falsos positivos de los resultados del clasificador. De este modo, el aumento automático identifica las mejores estrategias para corregir los elementos que se clasifican erróneamente con frecuencia16.
Más recientemente, la investigación se ha centrado en redes y modelos generativos para identificar estrategias de aumento óptimas dependientes de la tarea17 y de la clase18. Esto incluye trabajar con redes generativas adversativas (GAN). Las GAN son redes de deep learning que se utilizan normalmente para generar datos sintéticos, y en investigaciones recientes se estudia su uso para el aumento de datos. Algunos experimentos, por ejemplo, sugieren que los aumentos de datos sintéticos de conjuntos de imágenes médicas mejoran el rendimiento de los modelos de clasificación19 y segmentación20 más que los aumentos clásicos. En este sentido, la investigación sobre el aumento de texto aprovecha los modelos de lenguaje de gran tamaño (LLM) y los chatbots para generar datos aumentados. Estos experimentos utilizan LLM para generar muestras aumentadas de datos de entrada con técnicas de mezcla y sinonimización, lo que demuestra un mayor impacto positivo en los modelos de clasificación de texto que en el aumento clásico21.
Los investigadores y desarrolladores adoptan ampliamente técnicas de aumento de datos cuando entrenan modelos para diversas tareas de machine learning. Por el contrario, los datos sintéticos son un área de investigación comparativamente más nueva. Los experimentos comparativos con datos sintéticos frente a datos reales muestran resultados dispares, ya que los modelos entrenados exclusivamente con datos sintéticos a veces superan a los modelos entrenados con datos del mundo real, y otras veces quedan por debajo. Quizá no sea sorprendente que esta investigación sugiera que los datos sintéticos son más útiles cuando reflejan características de los datos del mundo real22.
Obtenga una visión única del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y análisis.
Simplifique el acceso a los datos y automatice su gobierno. Descubra el potencial de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costes de sus cargas de trabajo y el escalado de IA y analítica, con todos sus datos, en cualquier lugar.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de análisis e IA.
Vincule su estrategia de datos y análisis a los objetivos empresariales al seguir estos cuatro pasos clave.
Analice en profundidad por qué pueden persistir los retos de la inteligencia empresarial y qué significa para los usuarios de una organización.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.
f Martin Tanner y Wing Hung Wong. “The Calculation of Posterior Distributions by Data Augmentation” [El cálculo de distribuciones posteriores mediante el aumento de datos]. Journal of the American Statistical Association. Vol. 82. Nº. 398 (1987). pp. 528-540.
2 Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles y Timothy A Mann. “Data Augmentation Can Improve Robustness” [El aumento de datos puede mejorar la solidez]. Advances in Neural Information Processing Systems. Vol. 34. 2021. https://proceedings.neurips.cc/paper_files/paper/2021/hash/fb4c48608ce8825b558ccf07169a3421-Abstract.html.
3 Manisha Saini y Seba Susan. “Tackling class imbalance in computer vision: A contemporary review” [Abordar el desequilibrio de clases en la visión artificial: Una revisión contemporánea]. Artificial Intelligence Review. Vol. 54. 2023. https://link.springer.com/article/10.1007/s10462-023-10557-6.
4 Fabio Perez, Cristina Vasconcelos, Sandra Avila y Eduardo Valle. “Data Augmentation for Skin Lesion Analysis” [Aumento de datos para el análisis de lesiones cutáneas]. OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis. 2018. https://link.springer.com/chapter/10.1007/978-3-030-01201-4_33.
5 Connor Shorten y Taghi M. Khoshgoftaa. “A survey on Image Data Augmentation for Deep Learning” [Un estudio sobre el aumento de datos de imagen para el deep learning]. Journal of Big Data. 2019. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0.
6 Duc Haba. Data Augmentation with Python [Aumento de datos con Python]. Packt Publishing. 2023.
7 Mingle Xu, Sook Yoon, Alvaro Fuentes y Dong Sun Park. “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning” [Un estudio exhaustivo de las técnicas de aumento de imagen para el deep learning]. Patter Recognition. Vol. 137. https://www.sciencedirect.com/science/article/pii/S0031320323000481.
8 Connor Shorten y Taghi M. Khoshgoftaa. “A survey on Image Data Augmentation for Deep Learning” [Un estudio sobre el aumento de datos de imagen para el deep learning]. Journal of Big Data. 2019. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0. Terrance DeVries y Graham W. Taylor. “Improved Regularization of Convolutional Neural Networks with Cutout” [Regularización mejorada de redes neuronales convolucionales con recorte]. 2017. https://arxiv.org/abs/1708.04552.
9 Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue y Thomas S. Huang. “Towards Instance-Level Image-To-Image Translation” [Hacia la traducción de imagen a imagen a nivel de instancia]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. pp. 3683-3692. https://openaccess.thecvf.com/content_CVPR_2019/html/Shen_Towards_Instance-Level_Image-To-Image_Translation_CVPR_2019_paper.html. Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le y Barret Zoph. “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation” [Simple copiar y pegar es un método de aumento de datos potente para la segmentación de instancias]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. pp. 2918-2928. https://openaccess.thecvf.com/content/CVPR2021/html/Ghiasi_Simple_Copy-Paste_Is_a_Strong_Data_Augmentation_Method_for_Instance_CVPR_2021_paper.html.
10 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht. “Text Data Augmentation for Deep Learning” [Aumento de datos de texto para el deep learning]. Journal of Big Data. 2021. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler y Tal Linzen. “Syntactic Data Augmentation Increases Robustness to Inference Heuristics” [El aumento sintáctico de datos aumenta la solidez de la inferencia heurística]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. pp. 2339-2352. https://aclanthology.org/2020.acl-main.212/.
11 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht. “Text Data Augmentation for Deep Learning” [Aumento de datos de texto para el deep learning]. Journal of Big Data. 2021. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Rico Sennrich, Barry Haddow y Alexandra Birch. “Improving Neural Machine Translation Models with Monolingual Data” [Mejora de los modelos de traducción automática neuronal con datos monolingües]. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016. pp. 86-96. https://aclanthology.org/P16-1009/.
12 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht. “Text Data Augmentation for Deep Learning” [Aumento de datos de texto para el deep learning]. Journal of Big Data. 2021. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu y Lifang He. “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks” [Transformador de mezcla: aumento dinámico de datos para tareas de PLN]. Proceedings of the 28th International Conference on Computational Linguistics. 2020. https://aclanthology.org/2020.coling-main.305/. Hongyu Guo, Yongyi Mao y Richong Zhang. “Augmenting Data with Mixup for Sentence Classification: An Empirical Study” [Aumento de datos con mezcla para la clasificación de oraciones: un estudio empírico]. 2019. https://arxiv.org/abs/1905.08941.
13 Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao y Furao Shen. “Image Data Augmentation for Deep Learning: A Survey” [Aumento de datos de imagen para el deep learning: un estudio]. 2023. https://arxiv.org/pdf/2204.08610.pdf. Alhassan Mumuni y Fuseini Mumuni. “Data augmentation: A comprehensive survey of modern approaches” [Aumento de datos: un estudio exhaustivo de los enfoques modernos]. Array. Vol. 16. 2022. https://www.sciencedirect.com/science/article/pii/S2590005622000911. Evgin Goveri. “Medical image data augmentation: techniques, comparisons and interpretations” [Aumento de datos de imágenes médicas: técnicas, comparaciones e interpretaciones]. Artificial Intelligence Review. Vol. 56. 2023. pp. 12561-12605. https://link.springer.com/article/10.1007/s10462-023-10453-z.
14 Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan y Quoc V. Le. “AutoAugment: Learning Augmentation Strategies From Data” [AutoAugment: aprender estrategias de aumento a partir de datos]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. pp. 113-123. https://openaccess.thecvf.com/content_CVPR_2019/papers/Cubuk_AutoAugment_Learning_Augmentation_Strategies_From_Data_CVPR_2019_paper.pdf.
15 Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens y Quoc V. Le. “Learning Data Augmentation Strategies for Object Detection” [Aprendizaje de estrategias de aumento de datos para la detección de objetos]. Proceedings of the 16th European Conference on Computer Vision. 2020. https://link.springer.com/chapter/10.1007/978-3-030-58583-9_34.
16 Sandareka Wickramanayake, Wynne Hsu y Mong Li Lee. “Explanation-based Data Augmentation for Image Classification” [Aumento de datos basado en explicaciones para la clasificación de imágenes]. Advances in Neural Information Processing Systems. Vol. 34. 2021. https://proceedings.neurips.cc/paper_files/paper/2021/hash/af3b6a54e9e9338abc54258e3406e485-Abstract.html.
17 Krishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati y Ender Konukoglu. “Semi-supervised and Task-Driven Data Augmentation” [Aumento de datos semisupervisado y basado en tareas]. Proceedings of the 26th International Conference on Information Processing in Medical Imaging. 2019. https://link.springer.com/chapter/10.1007/978-3-030-20351-1_3.
18 Cédric Rommel, Thomas Moreau, Joseph Paillard y Alexandre Gramfort. “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals” [ADDA: aumento de datos diferenciables automáticamente por clase para señales de EEG]. International Conference on Learning Representations. 2022. https://iclr.cc/virtual/2022/poster/7154.
19 Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger y Hayit Greenspan. “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification” [Aumento de imágenes médicas sintéticas basadas en GAN para un mayor rendimiento de CNN en la clasificación de lesiones hepáticas]. Neurocomputing. 2018. pp. 321-331. https://www.sciencedirect.com/science/article/abs/pii/S0925231218310749.
20 Veit Sandfort, Ke Yan, Perry Pickhardt y Ronald Summers. “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks” [Aumento de datos mediante redes generativas adversativas (CycleGAN) para mejorar la generalización en tareas de segmentación por TC.]. Scientific Reports. 2019. https://www.nature.com/articles/s41598-019-52737-x.
21 Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee y Woomyoung Park. “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation” [GPT3Mix: aprovechamiento de modelos de lenguaje de gran tamaño para el aumento de texto]. Findings of the Association for Computational Linguistics: EMNLP 2021. pp. 2225-2239. https://aclanthology.org/2021.findings-emnlp.192/. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu y Xiang Li. “AugGPT: Leveraging ChatGPT for Text Data Augmentation” [AugGPT: aprovechamiento de ChatGPT para el aumento de datos de texto]. 2023. https://arxiv.org/abs/2302.13007.
22 Bram Vanherle, Steven Moonen, Frank Van Reeth y Nick Michiels. “Analysis of Training Object Detection Models with Synthetic Data” [Análisis de modelos de entrenamiento de detección de objetos con datos sintéticos]. 33rd British Machine Vision Conference. 2022. https://bmvc2022.mpi-inf.mpg.de/0833.pdf. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu y Pierre Nugues. “Object Detector Differences When Using Synthetic and Real Training Data” [Diferencias en el detector de objetos al utilizar datos de entrenamiento sintéticos y reales]. SN Computer Science. Vol. 4. 2023. https://link.springer.com/article/10.1007/s42979-023-01704-5. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba y Mauricio Villegas. “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition” [Adaptación de escritura sin supervisión para el reconocimiento de palabras escritas a mano de sintético a real]. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. pp. 3502-3511. https://openaccess.thecvf.com/content_WACV_2020/html/Kang_Unsupervised_Writer_Adaptation_for_Synthetic-to-Real_Handwritten_Word_Recognition_WACV_2020_paper.html.