El sobremuestreo es una forma eficaz de abordar el desequilibrio dentro de un conjunto de datos. Un conjunto de datos desequilibrado se define como un conjunto de datos en el que una clase está muy infrarrepresentada en el conjunto de datos en relación con la población real, lo que crea un sesgo no intencionado. Por ejemplo, imagine que se entrena a una modelo para clasificar las imágenes según las que muestran un gato o un perro. El conjunto de datos utilizado está compuesto por un 90 % de gatos y un 10 % de perros. Los gatos en este escenario están sobrerrepresentados y, si tenemos un clasificador que prediga los gatos siempre, tendrá una precisión del 90 % en la clasificación de los gatos, pero del 0 % de precisión en la clasificación de los perros. En este caso, el conjunto de datos desequilibrado hará que los clasificadores favorezcan la precisión de la clase mayoritaria a expensas de la minoritaria. Puede surgir el mismo problema con conjuntos de datos de varias clases.1
El proceso de sobremuestreo contrarresta el problema del desequilibrio del conjunto de datos. Rellena el conjunto de datos con puntos sintetizados a partir de características de la clase minoritaria del conjunto de datos original. Esto equilibra el conjunto de datos al aumentar de forma efectiva el número de muestras para una clase minoritaria infrarrepresentada hasta que el conjunto de datos contenga una proporción igual de puntos en todas las clases.
Aunque los desequilibrios pueden observarse simplemente trazando el recuento de puntos de datos en cada clase, no nos dice si afectarán en gran medida al modelo. Afortunadamente, podemos utilizar métricas de rendimiento para calibrar hasta qué punto una técnica de sobremuestreo corrige el desequilibrio de clases. La mayoría de estas métricas serán para la clasificación binaria, donde solo hay dos clases: positiva y negativa. Por lo general, la clase positiva es la clase minoritaria, mientras que la clase negativa es la clase mayoritaria. Dos métricas populares son las curvas de característica operativa del receptor (ROC) y las curvas de recuperación de precisión.1