¿Qué es el aumento de datos?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

¿Qué es el aumento de datos?

El aumento de datos utiliza datos preexistentes para crear nuevas muestras de datos que pueden mejorar la optimización y la generalización del modelo.

En su sentido más general, el aumento de datos denota métodos para complementar los llamados conjuntos de datos incompletos al proporcionar puntos de datos que faltan para aumentar la analizabilidad del conjunto de datos¹. Esto se manifiesta en el machine learning al generar copias modificadas de datos preexistentes para aumentar el tamaño y la diversidad de un conjunto de datos. Así, con respecto al machine learning, los datos aumentados pueden entenderse como el suministro artificial de datos del mundo real potencialmente ausentes.

El aumento de datos mejora la optimización y generalización del modelo de machine learning. En otras palabras, el aumento de datos puede reducir el sobreajuste y mejorar la solidez del modelo². Que los conjuntos de datos grandes y diversos equivalen a un mejor rendimiento del modelo es un axioma del machine learning. Sin embargo, por varias razones (desde cuestiones éticas y de privacidad hasta el simple esfuerzo que requiere mucho tiempo para recopilar manualmente los datos necesarios), puede resultar complicado obtener datos suficientes. El aumento de datos proporciona un medio eficaz para aumentar el tamaño y la variabilidad de los conjuntos de datos. De hecho, los investigadores utilizan ampliamente el aumento de datos para corregir conjuntos de datos desequilibrados³.

Muchos marcos de deep learning, como PyTorch, Keras y Tensorflow, proporcionan funciones para aumentar los datos, principalmente conjuntos de datos de imágenes. El paquete Python Ablumentations (disponible en Github) también se ha adoptado en muchos proyectos de código abierto. Albumentations permite aumentar los datos de imagen y texto.

Datos aumentados frente a datos sintéticos

Tenga en cuenta que el aumento de datos es distinto de los datos sintéticos. Es cierto que ambos son algoritmos generativos que añaden nuevos datos a una recopilación de datos para mejorar el rendimiento de los modelos de machine learning. Sin embargo, los datos sintéticos se refieren a la generación automática de datos totalmente artificiales. Un ejemplo es el uso de imágenes generadas por ordenador (en contraposición a los datos del mundo real) para entrenar un modelo de detección de objetos. Por el contrario, el aumento de datos copia los datos existentes y transforma esas copias para aumentar la diversidad y la cantidad de datos en un conjunto determinado.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Técnicas de aumento de datos

Existen varios métodos de aumento de datos. Las técnicas específicas utilizadas para aumentar los datos dependen de la naturaleza de los datos con los que trabaja un usuario. Tenga en cuenta que el aumento de datos se suele implementar durante el preprocesamiento en el conjunto de datos de entrenamiento. Algunos estudios investigan el efecto del aumento en el conjunto de validación o prueba, pero las aplicaciones de aumento fuera de los conjuntos de entrenamiento son más raras⁴.

Aumento de imagen

El aumento de datos se ha implementado ampliamente en la investigación para una serie de tareas de visión artificial, desde la clasificación de imágenes hasta la detección de objetos. Como tal, existe una gran cantidad de investigaciones sobre cómo las imágenes aumentadas mejoran el rendimiento de las redes neuronales convolucionales (CNN) de última generación en el procesamiento de imágenes.

Muchos tutoriales y recursos no académicos clasifican el aumento de datos de imágenes en dos categorías: transformaciones geométricas y transformaciones fotométricas (o de espacio de color). Ambas consisten en una manipulación relativamente sencilla de archivos de imagen. La primera categoría denota técnicas que alteran el espacio y el diseño de la imagen original, como el cambio de tamaño, el zoom o los cambios de orientación (por ejemplo, el giro horizontal). Las transformaciones fotométricas alteran los canales RGB (rojo-verde-azul) de una imagen. Algunos ejemplos de transformación fotométrica son el ajuste de saturación y el escalado de grises de una imagen⁵.

Ejemplo de aumento básico de la imagen de un gato

Algunas fuentes clasifican la inyección de ruido con transformaciones geométricas⁶, mientras que otras la clasifican con transformaciones fotométricas⁷. La inyección de ruido inserta píxeles aleatorios negros, blancos o de color en una imagen según una distribución gaussiana.

Ejemplo de inyección de ruido para aumento de imagen

Como ilustra la inyección de ruido, la clasificación binaria de las técnicas de aumento de imágenes en geométricas y fotométricas no cubre toda la gama de posibles estrategias de aumento. Las técnicas de aumento de imágenes excluidas son el filtrado kernel (enfocar o desenfocar una imagen) y la mezcla de imágenes. Un ejemplo de esto último son los recortes y parches aleatorios. Esta técnica toma muestras aleatorias de secciones de varias imágenes para crear una nueva. Esta nueva imagen es una composición hecha a partir de las secciones muestreadas de las imágenes de entrada. Una técnica relacionada es el borrado aleatorio, que elimina una parte aleatoria de una imagen⁸. Estas tareas son útiles en tareas de reconocimiento de imágenes, ya que los casos de uso del mundo real pueden requerir que las máquinas identifiquen objetos parcialmente oscurecidos.

Visualización para recortar aleatoriamente la imagen del Golden Retriever

El aumento a nivel de instancia es otro tipo de aumento. Dicho aumento copia esencialmente regiones etiquetadas (por ejemplo, cuadros delimitadores) de una imagen y las inserta en otra. Este enfoque entrena a la imagen para identificar objetos sobre diferentes fondos, así como objetos oscurecidos por otros objetos. El aumento a nivel de instancia es un enfoque particularmente destacado para tareas de reconocimiento específicas de una región, como la detección de objetos y la segmentación de imágenes.⁹.

Aumento de texto

Al igual que el aumento de imágenes, el aumento de datos de texto consiste en muchas técnicas y métodos que se utilizan en toda una serie de tareas de procesamiento del lenguaje natural (PLN). Algunos recursos dividen el aumento de texto en métodos basados en reglas (o "fáciles") y métodos neuronales. Por supuesto, al igual que ocurre con la división binaria de las técnicas de aumento de imágenes, esta categorización no lo abarca todo.

Los enfoques basados en reglas incluyen técnicas de búsqueda y sustitución relativamente sencillas, como la eliminación o inserción aleatorias. Los enfoques basados en reglas también incluyen la sustitución de sinónimos. En esta estrategia, una o varias palabras de una cadena se sustituyen por sus respectivos sinónimos registrados en tesauros predefinidos, como WordNet o la Paraphrase Database. La pasivación y la inversión de oraciones, en las que se intercambian el objeto y el sujeto, también son ejemplos de enfoques basados en reglas¹⁰.

Visualización de gráficos de aumentos de texto basados en reglas

Según su clasificación, los métodos neuronales utilizan redes neuronales para generar nuevas muestras de texto a partir de los datos de entrada. Un método neuronal notable es la retrotraducción. Este utiliza la traducción automática para traducir los datos de entrada a un idioma de destino y luego de nuevo al idioma de entrada original. De este modo, la retrotraducción aprovecha las variaciones lingüísticas que resultan de las traducciones automatizadas para generar variaciones semánticas en un conjunto de datos de un solo idioma con fines de aumento. Las investigaciones sugieren que esto es eficaz para mejorar el rendimiento del modelo de traducción automática¹¹.

Visualización del aumento de la traducción con la frase I am dancing in the club

Otra estrategia son los aumentos de texto mixtos. Este enfoque implementa métodos de eliminación e inserción basados en reglas mediante incrustaciones de Neural Networks. En concreto, los transformadores preentrenados (por ejemplo, BERT) generan incrustaciones de texto a nivel de palabra u oración, transformando el texto en puntos vectoriales, como en un modelo de bag of words. La transformación del texto en puntos vectoriales generalmente tiene como objetivo capturar la similitud lingüística, es decir, se cree que las palabras u oraciones más cercanas entre sí en el espacio vectorial comparten significados o frecuencias similares. Los aumentos mixtos interpolan cadenas de texto que se encuentran a una distancia determinada entre sí para producir nuevos datos que son un agregado de los datos de entrada¹².

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Investigación reciente

Muchos usuarios tienen dificultades para identificar qué estrategias de aumento de datos deben implementar. ¿Varía la eficacia de las técnicas de aumento de datos entre conjuntos de datos y tareas? La investigación comparativa sobre técnicas de aumento de datos sugiere que múltiples formas de aumento tienen un mayor impacto positivo que una sola, pero determinar la combinación óptima de técnicas depende del conjunto de datos y de la tarea¹³. Pero, ¿cómo se seleccionan las técnicas óptimas?

Aumento automatizado

Para abordar este problema, la investigación ha recurrido al aumento automatizado de datos. Un enfoque de aumento automatizado utiliza el aprendizaje por refuerzo para identificar las técnicas de aumento que devuelven la mayor precisión de validación en un conjunto de datos determinado¹⁴. Se ha demostrado que este enfoque implementa estrategias que mejoran el rendimiento tanto en los datos de muestra como fuera de ellos¹⁵. Otro enfoque prometedor para el aumento automatizado identifica y aumenta los falsos positivos de los resultados del clasificador. De este modo, el aumento automático identifica las mejores estrategias para corregir los elementos que se clasifican erróneamente con frecuencia¹⁶.

Redes generativas

Más recientemente, la investigación se ha centrado en redes y modelos generativos para identificar estrategias de aumento óptimas dependientes de la tarea¹⁷ y de la clase¹⁸. Esto incluye trabajar con redes generativas adversativas (GAN). Las GAN son redes de deep learning que se utilizan normalmente para generar datos sintéticos, y en investigaciones recientes se estudia su uso para el aumento de datos. Algunos experimentos, por ejemplo, sugieren que los aumentos de datos sintéticos de conjuntos de imágenes médicas mejoran el rendimiento de los modelos de clasificación¹⁹ y segmentación²⁰ más que los aumentos clásicos. En este sentido, la investigación sobre el aumento de texto aprovecha los modelos de lenguaje de gran tamaño (LLM) y los chatbots para generar datos aumentados. Estos experimentos utilizan LLM para generar muestras aumentadas de datos de entrada con técnicas de mezcla y sinonimización, lo que demuestra un mayor impacto positivo en los modelos de clasificación de texto que en el aumento clásico²¹.

Los investigadores y desarrolladores adoptan ampliamente técnicas de aumento de datos cuando entrenan modelos para diversas tareas de machine learning. Por el contrario, los datos sintéticos son un área de investigación comparativamente más nueva. Los experimentos comparativos con datos sintéticos frente a datos reales muestran resultados dispares, ya que los modelos entrenados exclusivamente con datos sintéticos a veces superan a los modelos entrenados con datos del mundo real, y otras veces quedan por debajo. Quizá no sea sorprendente que esta investigación sugiera que los datos sintéticos son más útiles cuando reflejan características de los datos del mundo real²².

Ciencia de datos y MLOps para líderes de datos

Únase a otros líderes para impulsar los tres pilares esenciales del MLOps y la IA fiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de ML

Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde los conceptos clave hasta los casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: cómo impulsar el ROI con la IA generativa

¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explore IBM Granite

IBM® Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados para la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.

Cómo prosperar en la era de la IA con seguridad y confianza

Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Notas a pie de página

Enlaces externos a ibm.com

^f Martin Tanner y Wing Hung Wong. “The Calculation of Posterior Distributions by Data Augmentation” [El cálculo de distribuciones posteriores mediante el aumento de datos]. Journal of the American Statistical Association. Vol. 82. Nº. 398 (1987). pp. 528-540.

² Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles, y Timothy A Mann. “Data Augmentation Can Improve Robustness”. Advances in Neural Information Processing Systems. Vol. 34. 2021.

³ Manisha Saini y Seba Susan. “Tackling class imbalance in computer vision: A contemporary review”. Artificial Intelligence Review. Vol. 54. 2023.

⁴ Fabio Perez, Cristina Vasconcelos, Sandra Avila, y Eduardo Valle. “Data Augmentation for Skin Lesion Analysis”. OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis. 2018.

⁵ Connor Shorten y Taghi M. Khoshgoftaa. “A survey on Image Data Augmentation for Deep Learning”. Journal of Big Data. 2019.

⁶ Duc Haba. Data Augmentation with Python [Aumento de datos con Python]. Packt Publishing. 2023.

⁷ Mingle Xu, Sook Yoon, Alvaro Fuentes, y Dong Sun Park. “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning”. Patter Recognition. Vol. 137.

⁸ Connor Shorten y Taghi M. Khoshgoftaa. “A survey on Image Data Augmentation for Deep Learning”. Journal of Big Data. 2019, . Terrance DeVries y Graham W. Taylor. “Improved Regularization of Convolutional Neural Networks with Cutout”. 2017.

⁹ Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue, y Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. PP. 3683-3692. . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, y Barret Zoph. “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. PP. 2918-2928.

¹⁰ Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht. “Text Data Augmentation for Deep Learning”. Journal of Big Data. 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, y Tal Linzen. “Syntactic Data Augmentation Increases Robustness to Inference Heuristics”. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. PP. 2339-2352.

¹¹ Connor Shorten, Taghi M. Khoshgoftaar, y Borko Furht. “Text Data Augmentation for Deep Learning”. Journal of Big Data. 2021. . Rico Sennrich, Barry Haddow, y Alexandra Birch. “Improving Neural Machine Translation Models with Monolingual Data”. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016. PP. 86-96.

¹² Connor Shorten, Taghi M. Khoshgoftaar, y Borko Furht. “Text Data Augmentation for Deep Learning”. Journal of Big Data. 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu, y Lifang He. “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks”. Proceedings of the 28th International Conference on Computational Linguistics. 2020. Hongyu Guo, Yongyi Mao, y Richong Zhang. “Augmenting Data with Mixup for Sentence Classification: An Empirical Study”. 2019.

¹³ Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao, y Furao Shen. “Image Data Augmentation for Deep Learning: A Survey”. 2023. Alhassan Mumuni y Fuseini Mumuni. “Data augmentation: A comprehensive survey of modern approaches”. Array. Vol. 16. 2022. Evgin Goveri. “Medical image data augmentation: techniques, comparisons and interpretations”. Artificial Intelligence Review. Vol. 56. 2023. PP. 12561-12605.

¹⁴ Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, y Quoc V. Le. “AutoAugment: Learning Augmentation Strategies From Data”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. PP. 113-123.

¹⁵ Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, y Quoc V. Le. “Learning Data Augmentation Strategies for Object Detection”. Proceedings of the 16^th European Conference on Computer Vision. 2020.

¹⁶ Sandareka Wickramanayake, Wynne Hsu, y Mong Li Lee. “Explanation-based Data Augmentation for Image Classification”. Advances in Neural Information Processing Systems. Vol. 34. 2021.

¹⁷ rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati, y Ender Konukoglu. “Semi-supervised and Task-Driven Data Augmentation”. Proceedings of the 26^th International Conference on Information Processing in Medical Imaging. 2019.

¹⁸ Cédric Rommel, Thomas Moreau, Joseph Paillard, y Alexandre Gramfort. “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals”. International Conference on Learning Representations. 2022.

¹⁹ Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger, y Hayit Greenspan. “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification”. Neurocomputing. 2018. PP. 321-331.

²⁰ Veit Sandfort, Ke Yan, Perry Pickhardt, y Ronald Summers. “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks”. Scientific Reports. 2019.

²¹ Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, y Woomyoung Park. “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation”. Findings of the Association for Computational Linguistics: EMNLP 2021. PP. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu, y Xiang Li. “AugGPT: Leveraging ChatGPT for Text Data Augmentation”. 2023.

²² Bram Vanherle, Steven Moonen, Frank Van Reeth, y Nick Michiels. “Analysis of Training Object Detection Models with Synthetic Data”. 33^rd British Machine Vision Conference. 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu, y Pierre Nugues. “Object Detector Differences When Using Synthetic and Real Training Data”. SN Computer Science. Vol. 4. 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba, and Mauricio Villegas. “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition”. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. PP. 3502-3511.

¿Qué es el aumento de datos?

¿Qué es el aumento de datos?

Datos aumentados frente a datos sintéticos

Las últimas tendencias en IA, presentadas por expertos

¡Gracias! Está suscrito.

Técnicas de aumento de datos

Aumento de imagen

Aumento de texto

Descifrar la IA: resumen semanal de noticias

Investigación reciente

Aumento automatizado

Redes generativas

Recursos

Notas a pie de página