O upsampling é uma maneira eficaz de lidar com o desequilíbrio em um conjunto de dados. Um conjunto de dados desequilibrado é definido como um conjunto no qual uma classe está fortemente sub-representada em relação à população real, criando um viés não intencional. Por exemplo, imagine um modelo treinado para classificar imagens de gatos ou cães. O conjunto de dados utilizado é composto por 90% de gatos e 10% de cães. Nesse cenário, os gatos estão super-representados, e se tivermos um classificador que prevê gatos o tempo todo, ele terá 90% de precisão para classificar gatos, mas 0% para classificar cães. O conjunto de dados desequilibrado, nesse caso, fará com que os classificadores favoreçam a precisão para a classe majoritária em detrimento da classe minoritária. O mesmo problema pode ocorrer com conjuntos de dados multiclasses.1
O processo de aumento da amostragem neutraliza o problema do conjunto de dados desequilibrado. Ele preenche o conjunto de dados com pontos sintetizados a partir de características da classe minoritária do conjunto de dados original. Isso equilibra o conjunto de dados aumentando efetivamente o número de amostras para uma classe minoritária sub-representada até que o conjunto de dados contenha uma proporção igual de pontos em todas as classes.
Embora seja possível observar desequilíbrios ao representar graficamente a contagem de pontos em cada classe, isso não indica se afetará muito o modelo. Felizmente, podemos usar métricas de desempenho para avaliar o quanto uma técnica de upsampling corrige o desequilíbrio de classe. A maioria dessas métricas é aplicada em classificações binárias, com apenas duas classes: positiva e negativa. Normalmente, a classe positiva é a minoritária, e a negativa, majoritária. Duas métricas populares são as curvas ROC (Receiver Operating Characteristic) e as curvas de precisão-recall.1