El sobremuestreo es una forma eficaz de abordar el desequilibrio dentro de un conjunto de datos. Un conjunto de datos desequilibrado se define como un conjunto de datos en el que una clase está muy poco representada en el conjunto de datos en relación con la población real, lo que crea un sesgo involuntario. Por ejemplo, imagine que un modelo está entrenado para clasificar las imágenes como si mostraran un gato o un perro. El conjunto de datos utilizado está compuesto por un 90 % de gatos y un 10 % de perros. Los gatos en este escenario están sobrerrepresentados, y si tenemos un clasificador que predice gatos cada vez, producirá una precisión del 90 % para clasificar gatos, pero una precisión del 0 % para clasificar perros. El conjunto de datos desequilibrado en este caso hará que los clasificadores favorezcan la precisión de la clase mayoritaria a expensas de la clase minoritaria. El mismo problema puede surgir con conjuntos de datos de varias clases.1
El proceso de sobremuestreo contrarresta el problema del desequilibrio del conjunto de datos. Rellena el conjunto de datos con puntos sintetizados a partir de características de la clase minoritaria del conjunto de datos original. Esto equilibra el conjunto de datos al aumentar de forma efectiva el número de muestras para una clase minoritaria infrarrepresentada hasta que el conjunto de datos contenga una proporción igual de puntos en todas las clases.
Si bien los desequilibrios se pueden ver simplemente trazando los recuentos de puntos de datos en cada clase, no nos dice si afectará en gran medida al modelo. Afortunadamente, podemos usar métricas de desempeño para medir qué tan bien una técnica de submuestreo corrige el desequilibrio de clase. La mayoría de estas métricas serán para clasificación binaria, donde solo hay dos clases: una positiva y una negativa. Por lo general, la clase positiva es la clase minoritaria mientras que la clase negativa es la clase mayoritaria. Dos métricas populares son las curvas de característica operativa del receptor (ROC) y las curvas de recuperación de precisión.1