Las últimas tendencias de IA presentadas por expertos
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
El submuestro disminuye el número de muestras de datos en un conjunto de datos. Al hacerlo, su objetivo es corregir los datos desequilibrados y, por lo tanto, mejorar el rendimiento del modelo.
El submuestreo es una técnica común de procesamiento de datos que aborda los desequilibrios en un conjunto de datos mediante la eliminación de datos de la clase mayoritaria para que coincidan con el tamaño de la clase minoritaria. Esto se opone al upsampling, que implica volver a muestrear puntos de clase minoritaria. Tanto Python scikit-learn como Matlab contienen funciones integradas para implementar técnicas de submuestreo.
El submuestreo para la ciencia de datos a menudo se confunde con el submuestreo en el procesamiento digital de señales (DSP). Los dos son similares en espíritu. El submuestreo en el procesamiento digital de señales (también conocido como "decimación") es el proceso de disminuir el ancho de banda y la frecuencia de muestreo del dispositivo de muestreo, eliminando así parte de los datos originales de la señal original. El proceso de disminución de la frecuencia de muestreo suele realizarse reduciendo la frecuencia de muestreo en algún factor entero, manteniendo sólo una de cada enésima muestra. Para ello se utiliza un filtro de paso bajo, también conocido como filtro antialiasing, que reduce los componentes de alta frecuencia/ruido de una señal de tiempo discreto en el factor entero antes mencionado.
El submuestreo para el equilibrio de datos también puede confundirse con el submuestreo para el procesamiento de imágenes. Cuando los datos contienen muchos elementos, como en las imágenes de resonancia magnética de alta resolución, los cálculos pueden resultar caros. El submuestreo en el procesamiento de imágenes reduce así la dimensionalidad de cada punto de datos mediante la convolución. No es lo mismo que equilibrar el conjunto de datos: es una técnica de optimización que, más adelante, requerirá la interpolación para recuperar los datos originales.
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
La reducción de muestreo es una forma eficaz de dirección los desequilibrios dentro de un conjunto de datos. Un conjunto de datos desequilibrado se define como un conjunto de datos en el que una clase está muy poco representada en el conjunto de datos en relación con la población real, lo que crea un sesgo involuntario. Por ejemplo, imagine que un modelo está entrenado para clasificar las imágenes como si mostraran un gato o un perro. El conjunto de datos utilizado está compuesto por un 90 % de gatos y un 10 % de perros. Los gatos en este escenario están sobrerrepresentados, y si tenemos un clasificador que predice gatos cada vez, producirá una precisión del 90 % para clasificar gatos, pero una precisión del 0 % para clasificar perros. El conjunto de datos desequilibrado en este caso hará que los clasificadores favorezcan la precisión de la clase mayoritaria a expensas de la clase minoritaria. El mismo problema puede surgir con conjuntos de datos de varias clases.1
El proceso de reducción de ejemplificación contrarresta el problema del conjunto de datos desequilibrado. Identifica los puntos de clase mayoritarios que se eliminarán en función de criterios especificados. Estos criterios pueden cambiar con la técnica de submuestreo elegida. Esto equilibra el conjunto de datos al disminuir efectivamente el número de muestras para una clase mayoritaria sobrerrepresentada hasta que el conjunto de datos contenga una proporción igual de puntos en todas las clases.
Si bien los desequilibrios se pueden ver simplemente trazando los recuentos de puntos de datos en cada clase, no nos dice si afectará en gran medida al modelo. Afortunadamente, podemos usar métricas de desempeño para medir qué tan bien una técnica de submuestreo corrige el desequilibrio de clase. La mayoría de estas métricas serán para clasificación binaria, donde solo hay dos clases: una positiva y una negativa. Por lo general, la clase positiva es la clase minoritaria mientras que la clase negativa es la clase mayoritaria. Dos métricas populares son las curvas de característica operativa del receptor (ROC) y las curvas de recuperación de precisión.1
La reducción de muestreo aleatoria es una técnica de eliminación en la que se eligen puntos aleatorios de la clase mayoritaria sin reemplazo y se eliminan del conjunto de datos hasta que el tamaño de la clase mayoritaria sea igual al tamaño de la clase minoritaria. Esta es una manera fácil de eliminar aleatoriamente un subconjunto de datos con fines de equilibrio. Sin embargo, esta técnica puede hacer que desaparezcan patrones o distribuciones importantes en la clase mayoritaria, lo que afecta negativamente el rendimiento del clasificador.2
Near Miss downsampling es una técnica que tiene como objetivo equilibrar la distribución de clases eliminando aleatoriamente ciertos ejemplos de clases mayoritarias.
Conceptualmente, Near Miss opera sobre el principio de que los datos deben mantener en lugares donde las clases mayoritarias y minoritarias están muy cerca, ya que estos lugares nos brindan información clave para distinguir las dos clases.3 Estos puntos se conocen generalmente como puntos de datos "difíciles" de aprender. El submuestreo de cuasi accidentes generalmente funciona en dos pasos:
Hay tres variaciones del algoritmo Near Miss que proporcionan una forma más definitiva de seleccionar instancias de clase mayoritarias para eliminar.
Condensed Nearest Neighbors (CNN para abreviar, que no debe confundir con Convolutional Neural Networks) busca encontrar un subconjunto de un conjunto de datos que pueda usar para capacitar sin pérdida en el rendimiento del modelo. Esto se logra identificando un subconjunto de los datos que se puede emplear para capacitar un modelo que predice correctamente todo el conjunto de datos.
La reducción de ejemplificación de CNN se puede dividir en los siguientes pasos:5
Al igual que Near Miss, este proceso esencialmente elimina todas las instancias de clase mayoritaria lejos del límite de decisión, que, nuevamente, son puntos que son fáciles de clasificar. También garantiza que todos los datos de nuestro conjunto de datos original se puedan predecir correctamente empleando solo los datos dentro de S. De esta manera, el conjunto de datos se puede reducir significativamente mientras se conserva razonablemente bien el límite de decisión.
Esta imagen muestra un ejemplo de aplicación de vecinos más cercanos condensados empleando 1 vecino más cercano y 21 vecinos más cercanos a dos conjuntos de datos. Las dos imágenes superiores son antes de aplicar los vecinos más cercanos condensados, mientras que las dos inferiores son posteriores. Como se puede ver, el límite de decisión se conserva razonablemente bien.
La premisa de la reducción de ejemplificación de Tomek Link es reducir el ruido en los datos eliminando puntos cercanos al límite de decisión y aumentar la separación de clases. La forma en que funciona es que identifica "enlaces tomek", una agrupación de dos puntos de diferentes clases sin un tercer punto existente que esté más cerca de ninguno de los dos.2
Para todos los enlaces tomek, se elimina el punto dentro de la clase mayoritaria. Al eliminar un punto de clase mayoritario que está cerca de un punto de clase minoritaria, la separación de clases aumenta. Un inconveniente de este método es la complejidad computacional de calcular todas las distancias por pares entre puntos de clase mayoritaria y minoritaria.2 El downsampling de Tomek Link es más efectivo cuando se combina con otras técnicas.
La reducción de ejemplificación de vecinos más cercanos editados (ENN) es similar a la reducción de ejemplificación de Tomek Link, donde el objetivo es eliminar ejemplos cerca del límite de decisión para aumentar la separación de clases. En general, este método elimina puntos de datos que difieren en clase de la mayoría de sus vecinos.2 Esto significa que el proceso elimina los puntos de datos de clase mayoritaria con la mayoría de sus vecinos más cercanos pertenecientes a la clase minoritaria, y viceversa. La mayoría en este contexto se puede definir libremente: podría significar que al menos un vecino es de una clase diferente o que la proporción de vecinos en una clase diferente excede un cierto umbral.
La reducción de ejemplificación de ENN generalmente se realiza con 3 vecinos más cercanos, como se ilustra a continuación.
Esta es una estrategia de grano más grueso porque analiza la vecindad general de puntos en lugar de un solo vecino, pero es una forma eficiente de eliminar el ruido dentro de los datos. La reducción de ejemplificación de ENN es más eficaz cuando se combina con otras técnicas.
Los desarrollos actuales en el submuestreo voltean en torno a las integraciones de aprendizaje profundo. Esto se empleó en campos como el procesamiento de imágenes y los datos médicos, que implican el uso de redes neuronales para reducir la muestra de los datos.6 Un ejemplo de esto es SOM-US, que utiliza una red neuronal de dos capas.7 En los últimos años, el aprendizaje activo también se ha aplicado al submuestreo para intentar mitigar los efectos de los datos desequilibrados.8 Los experimentos demostraron que estos modelos funcionan significativamente mejor que las técnicas tradicionales.
La investigación actual sobre el submuestreo también voltea en torno a combinarla con otras técnicas para crear técnicas híbridas. Una combinación es reducir y aumentar la ejemplificación de los datos para obtener los beneficios de ambos: SMOTE+Tomek Link, Agglomerative Hierarchical Clustering (AHC) y SPIDER son algunos ejemplos de estos.9 Las técnicas a nivel de algoritmo también pueden incorporar ideas de técnicas tradicionales de submuestreo, como con Hard Example Mining, donde el entrenamiento solo se centra en los puntos de datos "más difíciles".2 Todos muestran un mejor rendimiento que el uso de cada técnica individualmente.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, septiembre de 2009, https://ieeexplore.ieee.org/document/5128907 (enlace externo a ibm.com).
2 Kumar Abhishek y Mounir Abdelaziz, Machine learning para datos desequilibrados, Packt, noviembre de 2023
3 Ajinkya More, Survey of resampling techniques for improving classification rendimiento in unbalanced conjunto de datos, 22 de agosto de 2016, https://arxiv.org/pdf/1608.06048 (enlace externo a ibm.com).
4 Jianping Zhang e Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study Understanding Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (enlace externo a ibm.com).
5 More, Encuesta de técnicas de remuestreo para mejorar el rendimiento de clasificación en conjuntos de datos desequilibrados, 22 de agosto de 2016, https://arxiv.org/pdf/1608.06048 (el enlace se encuentra fuera de ibm.com). Alberto Fernandez y colaboradores, Learning from Imbalanced Data Sets, Springer, 2018.
6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 2 de septiembre de 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (enlace externo a ibm.com).
7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 de enero de 2024, https://hrcak.srce.hr/clanak/454006 (el enlace se encuentra fuera de ibm.com).
8 Wonjae Lee y Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 de abril de 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (el enlace se encuentra fuera de ibm.com).
9 Alberto Fernandez y colaboradores, Learning from Imbalanced Data Sets, Springer, 2018.