O downsampling é uma forma eficaz de lidar com os desequilíbrios em um conjunto de dados. Um conjunto de dados desequilibrado é definido como um conjunto no qual uma classe está fortemente sub-representada em relação à população real, criando um viés não intencional. Por exemplo, imagine um modelo treinado para classificar imagens de gatos ou cães. O conjunto de dados utilizado é composto por 90% de gatos e 10% de cães. Nesse cenário, os gatos estão super-representados, e se tivermos um classificador que prevê gatos o tempo todo, ele terá 90% de precisão para classificar gatos, mas 0% para classificar cães. O conjunto de dados desequilibrado, nesse caso, fará com que os classificadores favoreçam a precisão para a classe majoritária em detrimento da classe minoritária. O mesmo problema pode ocorrer com conjuntos de dados multiclasses.1
O processo de subamostragem neutraliza o problema do conjunto de dados desequilibrado. Ele identifica pontos da classe majoritária para remover com base em critérios específicos. Esses critérios podem mudar com a técnica de subamostragem escolhida. Isso equilibra o conjunto de dados ao reduzir efetivamente o número de amostras da classe majoritária super-representada até que o conjunto de dados contenha uma proporção igual de pontos entre todas as classes.
Embora seja possível observar desequilíbrios ao representar graficamente a contagem de pontos em cada classe, isso não indica se afetará muito o modelo. Felizmente, podemos utilizar métricas de desempenho para avaliar quão bem uma técnica de downsampling corrige o desequilíbrio de classes. A maioria dessas métricas é aplicada em classificações binárias, com apenas duas classes: positiva e negativa. Normalmente, a classe positiva é a minoritária, e a negativa, majoritária. Duas métricas populares são as curvas ROC (Receiver Operating Characteristic) e as curvas de precisão-recall.1