¿Qué es el submuestreo?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

¿Qué es el submuestreo?

El submuestro disminuye el número de muestras de datos en un conjunto de datos. Al hacerlo, su objetivo es corregir los datos desequilibrados y, por lo tanto, mejorar el rendimiento del modelo.

El submuestreo es una técnica común de procesamiento de datos que aborda los desequilibrios en un conjunto de datos mediante la eliminación de datos de la clase mayoritaria para que coincidan con el tamaño de la clase minoritaria. Esto se opone al upsampling, que implica volver a muestrear puntos de clase minoritaria. Tanto Python scikit-learn como Matlab contienen funciones integradas para implementar técnicas de submuestreo.

El submuestreo para la ciencia de datos a menudo se confunde con el submuestreo en el procesamiento digital de señales (DSP). Los dos son similares en espíritu. El submuestreo en el procesamiento digital de señales (también conocido como "decimación") es el proceso de disminuir el ancho de banda y la frecuencia de muestreo del dispositivo de muestreo, eliminando así parte de los datos originales de la señal original. El proceso de disminución de la frecuencia de muestreo suele realizarse reduciendo la frecuencia de muestreo en algún factor entero, manteniendo sólo una de cada enésima muestra. Para ello se utiliza un filtro de paso bajo, también conocido como filtro antialiasing, que reduce los componentes de alta frecuencia/ruido de una señal de tiempo discreto en el factor entero antes mencionado.

El submuestreo para el equilibrio de datos también puede confundirse con el submuestreo para el procesamiento de imágenes. Cuando los datos contienen muchos elementos, como en las imágenes de resonancia magnética de alta resolución, los cálculos pueden resultar caros. El submuestreo en el procesamiento de imágenes reduce así la dimensionalidad de cada punto de datos mediante la convolución. No es lo mismo que equilibrar el conjunto de datos: es una técnica de optimización que, más adelante, requerirá la interpolación para recuperar los datos originales.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Por qué emplear la reducción de resolución?

La reducción de muestreo es una forma eficaz de dirección los desequilibrios dentro de un conjunto de datos. Un conjunto de datos desequilibrado se define como un conjunto de datos en el que una clase está muy poco representada en el conjunto de datos en relación con la población real, lo que crea un sesgo involuntario. Por ejemplo, imagine que un modelo está entrenado para clasificar las imágenes como si mostraran un gato o un perro. El conjunto de datos utilizado está compuesto por un 90 % de gatos y un 10 % de perros. Los gatos en este escenario están sobrerrepresentados, y si tenemos un clasificador que predice gatos cada vez, producirá una precisión del 90 % para clasificar gatos, pero una precisión del 0 % para clasificar perros. El conjunto de datos desequilibrado en este caso hará que los clasificadores favorezcan la precisión de la clase mayoritaria a expensas de la clase minoritaria. El mismo problema puede surgir con conjuntos de datos de varias clases.1

El proceso de reducción de ejemplificación contrarresta el problema del conjunto de datos desequilibrado. Identifica los puntos de clase mayoritarios que se eliminarán en función de criterios especificados. Estos criterios pueden cambiar con la técnica de submuestreo elegida. Esto equilibra el conjunto de datos al disminuir efectivamente el número de muestras para una clase mayoritaria sobrerrepresentada hasta que el conjunto de datos contenga una proporción igual de puntos en todas las clases.

Si bien los desequilibrios se pueden ver simplemente trazando los recuentos de puntos de datos en cada clase, no nos dice si afectará en gran medida al modelo. Afortunadamente, podemos usar métricas de desempeño para medir qué tan bien una técnica de submuestreo corrige el desequilibrio de clase. La mayoría de estas métricas serán para clasificación binaria, donde solo hay dos clases: una positiva y una negativa. Por lo general, la clase positiva es la clase minoritaria mientras que la clase negativa es la clase mayoritaria. Dos métricas populares son las curvas de característica operativa del receptor (ROC) y las curvas de recuperación de precisión.1

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Ventajas y desventajas del submuestreo

Ventajas

  • Menos requisitos de almacenamiento: cuando el almacenamiento cuesta dinero, por ejemplo, para el almacenamiento en la nube, se preferiría el muestreo descendente al muestreo ascendente para evitar aumentar los costos.2
  • Entrenamiento más rápido: El submuestreo reduce el tamaño de los conjuntos de datos y hace que el entrenamiento sea menos intensivo para la CPU o la GPU, lo que resulta más económico y respetuoso con el medio ambiente.
  • Menos propenso al sobreajuste: el sobremuestreo genera datos nuevos a partir de los datos antiguos, lo que puede provocar que los modelos se sobreajusten a los datos dados. La reducción de ejemplificación, al ser lo contrario (elimina datos), no sufre este problema.2

Desventajas

  • Pérdida de información: La eliminación de puntos de la clase mayoritaria puede causar una pérdida de información importante. Esto puede ser un problema si la clasificación de la clase mayoritaria debe ser precisa. Otro problema es si el conjunto de datos se vuelve demasiado pequeño para que el modelo se capacite.2
  • Sesgo introducido: los puntos de muestra de la clase mayoritaria restante pueden ser un conjunto sesgado de los datos originales, lo que afecta negativamente el rendimiento del clasificador.

Técnicas de reducción de ejemplificación

Reducción de ejemplificación aleatoria

La reducción de muestreo aleatoria es una técnica de eliminación en la que se eligen puntos aleatorios de la clase mayoritaria sin reemplazo y se eliminan del conjunto de datos hasta que el tamaño de la clase mayoritaria sea igual al tamaño de la clase minoritaria. Esta es una manera fácil de eliminar aleatoriamente un subconjunto de datos con fines de equilibrio. Sin embargo, esta técnica puede hacer que desaparezcan patrones o distribuciones importantes en la clase mayoritaria, lo que afecta negativamente el rendimiento del clasificador.2

Reducción de resolución de cuasi accidentes

Near Miss downsampling es una técnica que tiene como objetivo equilibrar la distribución de clases eliminando aleatoriamente ciertos ejemplos de clases mayoritarias.

Conceptualmente, Near Miss opera sobre el principio de que los datos deben mantener en lugares donde las clases mayoritarias y minoritarias están muy cerca, ya que estos lugares nos brindan información clave para distinguir las dos clases.3 Estos puntos se conocen generalmente como puntos de datos "difíciles" de aprender. El submuestreo de cuasi accidentes generalmente funciona en dos pasos:

  • Paso 1: Calcular la distancia por pares entre todas las instancias de clase mayoría-minoría.
  • Paso 2: en función de las distancias calculadas, elimine las instancias de la clase mayoritaria que estén más alejadas de los puntos minoritarios.

Hay tres variaciones del algoritmo Near Miss que proporcionan una forma más definitiva de seleccionar instancias de clase mayoritarias para eliminar.

  • Versión 1: Esta versión mantiene las instancias de clase mayoritaria con la distancia promedio más pequeña a sus N instancias de clase minoritaria más cercanas . Los datos resultantes pueden potencialmente estar distribuidos de manera desigual, con algunos puntos de clase mayoritaria cerca de muchos puntos de clase minoritaria y otros cerca de muy pocos, lo que causa baja precisión y recuperación.4
Un diagrama de reducción de muestreo - Near Miss 1
  • Versión 2: esta versión de reducción de ejemplificación de Near Miss mantiene las instancias de clase mayoritaria con la distancia promedio más pequeña a sus N instancias de clase minoritaria más alejadas . A diferencia de la primera versión, esta crea una distribución más uniforme de la clase mayoritaria, lo que genera mejores resultados del clasificador.4
Un diagrama de reducción de resolución: Near Miss 2
  • Versión 3: Esta versión mantiene las muestras de clase mayoritaria más cercanas para las instancias de clase minoritaria más próximas a la clase mayoritaria. Funciona en dos pasos. En primer lugar, se almacenan los M vecinos de clase mayoritaria más cercanos de cada instancia de clase minoritaria. A continuación, de las instancias de clase mayoritarias restantes, se identifican y conservan aquellas con la mayor distancia media. Dado que esta versión mantiene los casos de clase mayoritaria cercanos a muchos casos de clase minoritaria, puede tener una precisión alta pero una recuperaciónbaja.4
Diagrama de reducción de ejemplificación: Near Miss 3

Reducción de la ejemplificación de la regla del vecino más cercano condensada

Condensed Nearest Neighbors (CNN para abreviar, que no debe confundir con Convolutional Neural Networks) busca encontrar un subconjunto de un conjunto de datos que pueda usar para capacitar sin pérdida en el rendimiento del modelo. Esto se logra identificando un subconjunto de los datos que se puede emplear para capacitar un modelo que predice correctamente todo el conjunto de datos.

La reducción de ejemplificación de CNN se puede dividir en los siguientes pasos:5

  1. Cree un nuevo conjunto de datos, S, que contenga todas las instancias de la clase minoritaria y una única instancia muestreada aleatoriamente de la clase mayoritaria.
  2. Capacite un clasificador 1-NN en el nuevo conjunto de datos S.
  3. Para todos los puntos de datos de clase mayoritaria que no están en S, use el clasificador 1-NN para predecir su etiqueta. Si el clasificador 1-NN predice correctamente la etiqueta, descarte el punto. De lo contrario, agréguelo a S.

Al igual que Near Miss, este proceso esencialmente elimina todas las instancias de clase mayoritaria lejos del límite de decisión, que, nuevamente, son puntos que son fáciles de clasificar. También garantiza que todos los datos de nuestro conjunto de datos original se puedan predecir correctamente empleando solo los datos dentro de S. De esta manera, el conjunto de datos se puede reducir significativamente mientras se conserva razonablemente bien el límite de decisión.

Un diagrama con 3 gráficos de una muestra de clase mayoritaria, una muestra de clase minoritaria y una muestra de clase mayoritaria con vecinos de clase minoritaria.

Esta imagen muestra un ejemplo de aplicación de vecinos más cercanos condensados empleando 1 vecino más cercano y 21 vecinos más cercanos a dos conjuntos de datos. Las dos imágenes superiores son antes de aplicar los vecinos más cercanos condensados, mientras que las dos inferiores son posteriores. Como se puede ver, el límite de decisión se conserva razonablemente bien.

Tomek Link

La premisa de la reducción de ejemplificación de Tomek Link es reducir el ruido en los datos eliminando puntos cercanos al límite de decisión y aumentar la separación de clases. La forma en que funciona es que identifica "enlaces tomek", una agrupación de dos puntos de diferentes clases sin un tercer punto existente que esté más cerca de ninguno de los dos.2

Para todos los enlaces tomek, se elimina el punto dentro de la clase mayoritaria. Al eliminar un punto de clase mayoritario que está cerca de un punto de clase minoritaria, la separación de clases aumenta. Un inconveniente de este método es la complejidad computacional de calcular todas las distancias por pares entre puntos de clase mayoritaria y minoritaria.2 El downsampling de Tomek Link es más efectivo cuando se combina con otras técnicas.

Vecinos más cercanos editados

La reducción de ejemplificación de vecinos más cercanos editados (ENN) es similar a la reducción de ejemplificación de Tomek Link, donde el objetivo es eliminar ejemplos cerca del límite de decisión para aumentar la separación de clases. En general, este método elimina puntos de datos que difieren en clase de la mayoría de sus vecinos.2 Esto significa que el proceso elimina los puntos de datos de clase mayoritaria con la mayoría de sus vecinos más cercanos pertenecientes a la clase minoritaria, y viceversa. La mayoría en este contexto se puede definir libremente: podría significar que al menos un vecino es de una clase diferente o que la proporción de vecinos en una clase diferente excede un cierto umbral.

La reducción de ejemplificación de ENN generalmente se realiza con 3 vecinos más cercanos, como se ilustra a continuación.

Un diagrama de reducción de resolución - Boundry Preservation

Esta es una estrategia de grano más grueso porque analiza la vecindad general de puntos en lugar de un solo vecino, pero es una forma eficiente de eliminar el ruido dentro de los datos. La reducción de ejemplificación de ENN es más eficaz cuando se combina con otras técnicas.

Investigación reciente

Los desarrollos actuales en el submuestreo voltean en torno a las integraciones de aprendizaje profundo. Esto se empleó en campos como el procesamiento de imágenes y los datos médicos, que implican el uso de redes neuronales para reducir la muestra de los datos.6 Un ejemplo de esto es SOM-US, que utiliza una red neuronal de dos capas.7 En los últimos años, el aprendizaje activo también se ha aplicado al submuestreo para intentar mitigar los efectos de los datos desequilibrados.8 Los experimentos demostraron que estos modelos funcionan significativamente mejor que las técnicas tradicionales.

La investigación actual sobre el submuestreo también voltea en torno a combinarla con otras técnicas para crear técnicas híbridas. Una combinación es reducir y aumentar la ejemplificación de los datos para obtener los beneficios de ambos: SMOTE+Tomek Link, Agglomerative Hierarchical Clustering (AHC) y SPIDER son algunos ejemplos de estos.9 Las técnicas a nivel de algoritmo también pueden incorporar ideas de técnicas tradicionales de submuestreo, como con Hard Example Mining, donde el entrenamiento solo se centra en los puntos de datos "más difíciles".2 Todos muestran un mejor rendimiento que el uso de cada técnica individualmente.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, septiembre de 2009, https://ieeexplore.ieee.org/document/5128907 (enlace externo a ibm.com).

2 Kumar Abhishek y Mounir Abdelaziz, Machine learning para datos desequilibrados, Packt, noviembre de 2023

3 Ajinkya More, Survey of resampling techniques for improving classification rendimiento in unbalanced conjunto de datos, 22 de agosto de 2016, https://arxiv.org/pdf/1608.06048 (enlace externo a ibm.com).

4 Jianping Zhang e Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study Understanding Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (enlace externo a ibm.com).

5 More, Encuesta de técnicas de remuestreo para mejorar el rendimiento de clasificación en conjuntos de datos desequilibrados, 22 de agosto de 2016, https://arxiv.org/pdf/1608.06048 (el enlace se encuentra fuera de ibm.com). Alberto Fernandez y colaboradores, Learning from Imbalanced Data Sets, Springer, 2018.

6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 2 de septiembre de 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (enlace externo a ibm.com).

7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 de enero de 2024, https://hrcak.srce.hr/clanak/454006 (el enlace se encuentra fuera de ibm.com).

8 Wonjae Lee y Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 de abril de 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (el enlace se encuentra fuera de ibm.com).

9 Alberto Fernandez y colaboradores, Learning from Imbalanced Data Sets, Springer, 2018.