O upsampling é uma maneira eficaz de lidar com o desequilíbrio em um conjunto de dados. Um conjunto de dados desequilibrado é definido como um conjunto de dados no qual uma classe está muito sub-representada no conjunto de dados em relação à população real, criando vieses não intencionais. Por exemplo, imagine que um modelo seja treinado para classificar imagens como mostrando um gato ou um cachorro. O conjunto de dados utilizado é composto por 90% de gatos e 10% de cães. Os gatos neste cenário estão super-representados e, se tivermos um classificador prevendo gatos todas as vezes, ele produzirá uma precisão de 90% para classificar gatos, mas 0% de precisão para classificar cães. O conjunto de dados desequilibrado, neste caso, fará com que os classificadores privilegiem a precisão para a classe majoritária em detrimento da classe minoritária. O mesmo problema pode surgir com conjuntos de dados multiclasse.1
O processo de aumento da amostragem neutraliza o problema do conjunto de dados desequilibrado. Ele preenche o conjunto de dados com pontos sintetizados a partir de características da classe minoritária do conjunto de dados original. Isso equilibra o conjunto de dados aumentando efetivamente o número de amostras para uma classe minoritária sub-representada até que o conjunto de dados contenha uma proporção igual de pontos em todas as classes.
Embora os desequilíbrios possam ser vistos simplesmente plotando as contagens de pontos de dados em cada classe, isso não nos diz se isso afetará muito o modelo. Felizmente, podemos usar métricas de desempenho para avaliar o quanto uma técnica de upsampling corrige o desequilíbrio de classe. A maioria dessas métricas será para classificação binária, em que há apenas duas classes: uma positiva e uma negativa. Normalmente, a classe positiva é a classe minoritária, enquanto a classe negativa é a classe majoritária. Duas métricas populares são as curvas ROC (Receiver Operating Characteristic, característica de operação do receptor) e as curvas de precisão-recall.1