Le sous-échantillonnage est un moyen efficace de remédier aux déséquilibres d’un jeu de données. Un jeu de données déséquilibré est défini comme un jeu de données dans lequel une classe est fortement sous-représentée par rapport à la population réelle, ce qui crée un biais involontaire. Imaginez, par exemple, qu’un modèle soit formé pour classer les images selon qu’elles représentent un chat ou un chien. Le jeu de données utilisé est composé de 90 % de chats et de 10 % de chiens. Dans ce scénario, les chats sont surreprésentés, et si nous avons un classificateur qui prédit des chats à chaque fois, il obtiendra une précision de 90 % pour la classification des chats, mais une précision de 0 % pour la classification des chiens. Dans ce cas, le jeu de données déséquilibré amènera les classificateurs à favoriser la précision de la classe majoritaire au détriment de la classe minoritaire. Le même problème peut se poser avec les jeux de données multi-classes.1
Le processus de sous-échantillonnage permet de remédier au problème des jeux de données déséquilibrés. Il identifie les points de classe majoritaire à supprimer en fonction de critères spécifiés. Ces critères peuvent changer avec la technique de sous-échantillonnage choisie. Cette méthode permet d’équilibrer le jeu de données en diminuant efficacement le nombre d’échantillons pour une classe de majorité surreprésentée, jusqu’à ce que le jeu de données contienne un rapport égal de points dans toutes les classes.
Si les déséquilibres peuvent être observés en traçant simplement le nombre de points de données dans chaque classe, cela ne nous permet pas de savoir s’ils auront une incidence importante sur le modèle. Heureusement, nous pouvons utiliser des indicateurs de performance pour évaluer dans quelle mesure une technique de sous-échantillonnage corrige le déséquilibre des classes. La plupart de ces indicateurs seront destinées à la classification binaire, où il n’y a que deux classes : une positive et une négative. En général, la classe positive est la classe de la minorité, tandis que la classe négative est la classe de la majorité. Deux indicateurs populaires sont les courbes ROC (Receiver Operating Characteristic) et les courbes de précision et de rappel.1