El submuestreo es una forma eficaz de abordar los desequilibrios dentro de un conjunto de datos. Un conjunto de datos desequilibrado se define como un conjunto de datos en el que una clase está muy infrarrepresentada en el conjunto de datos en relación con la población real, lo que crea un sesgo no intencionado. Por ejemplo, imagine que se entrena a una modelo para clasificar las imágenes según las que muestran un gato o un perro. El conjunto de datos utilizado está compuesto por un 90 % de gatos y un 10 % de perros. Los gatos en este escenario están sobrerrepresentados y, si tenemos un clasificador que prediga los gatos siempre, tendrá una precisión del 90 % en la clasificación de los gatos, pero del 0 % de precisión en la clasificación de los perros. En este caso, el conjunto de datos desequilibrado hará que los clasificadores favorezcan la precisión de la clase mayoritaria a expensas de la minoritaria. Puede surgir el mismo problema con conjuntos de datos de varias clases.1
El proceso de submuestreo contrarresta el problema del desequilibrio del conjunto de datos. Identifica los puntos de clase mayoritarios que se van a eliminar en función de criterios especificados. Estos criterios pueden cambiar con la técnica de submuestreo elegida. De este modo, se equilibra el conjunto de datos reduciendo el número de muestras de una clase mayoritaria sobrerrepresentada hasta que el conjunto de datos contenga la misma proporción de puntos en todas las clases.
Aunque los desequilibrios pueden observarse simplemente trazando el recuento de puntos de datos en cada clase, no nos dice si afectarán en gran medida al modelo. Afortunadamente, podemos utilizar métricas de rendimiento para calibrar hasta qué punto una técnica de reducción de la muestra corrige el desequilibrio de clases. La mayoría de estas métricas serán para la clasificación binaria, donde solo hay dos clases: positiva y negativa. Por lo general, la clase positiva es la clase minoritaria, mientras que la clase negativa es la clase mayoritaria. Dos métricas populares son las curvas de característica operativa del receptor (ROC) y las curvas de recuperación de precisión.1