Qu'est-ce que le sous-échantillonnage ?

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Qu’est-ce que le sous-échantillonnage ?

Le sous-échantillonnage réduit le nombre d’échantillons de données dans un jeu de données. Ce faisant, il vise à corriger les données déséquilibrées et à améliorer ainsi les performances du modèle.

Le sous-échantillonnage est une technique courante de traitement de données qui, en supprimant les déséquilibres d’un jeu de données, consiste à supprimer les données de la classe majoritaire pour qu’elles correspondent à la taille de la classe majoritaire. Cette approche s’oppose au suréchantillonnage, qui consiste à rééchantillonner les points de classe majoritaire. Python scikit-learn et Matlab contiennent tous deux des fonctions intégrées pour mettre en œuvre des techniques de sous-échantillonnage.

Le sous-échantillonnage pour la science des données est souvent confondu avec le sous-échantillonnage dans le traitement du signal numérique (DSP). Les deux sont similaires dans l'esprit. Le sous-échantillonnage pour le traitement du signal numérique (également appelé décimation) est le processus qui consiste à réduire la bande passante et le taux d’échantillonnage de l’échantillonneur, supprimant ainsi une partie des données d’origine du signal d’origine. Le processus de diminution de la fréquence d’échantillonnage consiste souvent à réduire le taux d’échantillonnage d’un facteur entier, en ne conservant qu’un échantillon sur énième . Pour ce faire, on utilise un filtre passe-bas, également appelé filtre anti-aliasing, pour réduire les composantes haute fréquence/bruit d'un signal en temps discret par le facteur entier mentionné précédemment.

Le sous-échantillonnage visant à rééquilibrer les données est parfois confondu avec le sous-échantillonnage utilisé dans le traitement d’images. Lorsque les données contiennent de nombreuses caractéristiques, comme dans le cas des images IRM de haute résolution, les calculs peuvent s’avérer coûteux. Le sous-échantillonnage employé dans le traitement d’images permet de réduire la dimensionnalité de chaque point de données par convolution. Contrairement au rééquilibrage des jeux de données, cette technique d’optimisation nécessite par la suite une interpolation pour récupérer les données d’origine.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Pourquoi utiliser le sous-échantillonnage ?

Le sous-échantillonnage est un moyen efficace de remédier aux déséquilibres d’un jeu de données. Un jeu de données déséquilibré est défini comme un jeu de données dans lequel une classe est fortement sous-représentée par rapport à la population réelle, ce qui crée un biais involontaire. Imaginez, par exemple, qu’un modèle soit formé pour classer les images selon qu’elles représentent un chat ou un chien. Le jeu de données utilisé est composé de 90 % de chats et de 10 % de chiens. Dans ce scénario, les chats sont surreprésentés, et si nous avons un classificateur qui prédit des chats à chaque fois, il obtiendra une précision de 90 % pour la classification des chats, mais une précision de 0 % pour la classification des chiens. Dans ce cas, le jeu de données déséquilibré amènera les classificateurs à favoriser la précision de la classe majoritaire au détriment de la classe minoritaire. Le même problème peut se poser avec les jeux de données multi-classes.¹

Le processus de sous-échantillonnage permet de remédier au problème des jeux de données déséquilibrés. Il identifie les points de classe majoritaire à supprimer en fonction de critères spécifiés. Ces critères peuvent changer avec la technique de sous-échantillonnage choisie. Cette méthode permet d’équilibrer le jeu de données en diminuant efficacement le nombre d’échantillons pour une classe de majorité surreprésentée, jusqu’à ce que le jeu de données contienne un rapport égal de points dans toutes les classes.

Si les déséquilibres peuvent être observés en traçant simplement le nombre de points de données dans chaque classe, cela ne nous permet pas de savoir s’ils auront une incidence importante sur le modèle. Heureusement, nous pouvons utiliser des indicateurs de performance pour évaluer dans quelle mesure une technique de sous-échantillonnage corrige le déséquilibre des classes. La plupart de ces indicateurs seront destinées à la classification binaire, où il n’y a que deux classes : une positive et une négative. En général, la classe positive est la classe de la minorité, tandis que la classe négative est la classe de la majorité. Deux indicateurs populaires sont les courbes ROC (Receiver Operating Characteristic) et les courbes de précision et de rappel.¹

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Avantages et inconvénients du sous-échantillonnage

Avantages

Moins d’exigences de stockage : lorsque le stockage coûte cher, par exemple pour le stockage dans le cloud, le sous-échantillonnage est préférable au suréchantillonnage pour éviter d’augmenter les coûts.²
Entraînement plus rapide: le sous-échantillonnage réduit les jeux de données et rend l'entraînement moins intensif sur le processeur ou le GPU, ce qui est plus économique et plus écologique.
Moins de risques de surajustement : le suréchantillonnage génère de nouvelles données à partir des anciennes données, ce qui peut entraîner un surajustement des modèles aux données. Le sous-échantillonnage, qui fonctionne de la manière inverse (en supprimant les données), ne souffre pas de ce problème.²

Inconvénients

Perte d’informations : la suppression de points de la classe majoritaire peut entraîner une perte d’informations importante. Cela peut poser problème si la classification de la classe majoritaire doit être précise. Un autre problème se pose si le jeu de données devient trop petit pour que le modèle puisse s’y entraîner.²
Biais introduit : les points d’échantillon de classe majoritaire restants peuvent être un ensemble biaisé des données d’origine, ce qui a un impact négatif sur les performances du classificateur.

Techniques de sous-échantillonnage

Échantillonnage aléatoire

Le sous-échantillonnage aléatoire est une technique de suppression qui consiste à choisir des points aléatoires dans la classe majoritaire sans remplacement et supprimés du jeu de données jusqu’à ce que la taille de la classe majoritaire soit égale à la taille de la classe majoritaire. Il s’agit d’un moyen simple de supprimer de manière aléatoire un sous-ensemble de données à des fins d’équilibrage. Cependant, cette technique peut faire disparaître des modèles ou des distributions importants dans la classe majoritaire, ce qui affecte négativement les performances du classificateur.²

Sous-échantillonnage Near Miss

Le sous-échantillonnage évité de justesse est une technique qui consiste à rééquilibrer la distribution des classes en éliminant au hasard certains exemples de classes majoritaires.

Conceptuellement, Near Miss fonctionne sur le principe selon lequel les données doivent être conservées dans des endroits où les classes majoritaires et présidées sont très proches, car ces endroits nous fournissent des informations clés pour distinguer les deux classes.³ Ces points sont généralement connus sous le nom de points de données « difficiles » à apprendre. Le sous-échantillonnage Near Miss s’opère généralement en deux étapes :

Étape 1 : calculez la distance par paires entre toutes les instances de classe majoritaire-minoritaire.
Étape 2 : en fonction des distances calculées, supprimez les instances de la classe majoritaire qui sont plus éloignées des points marginalisés.

Il existe trois variantes de l’algorithme de Near Miss qui offrent un moyen plus simple de sélectionner les instances de classe majoritaire à supprimer.

Version 1 : cette version conserve les instances de classe majoritaire avec la distance moyenne la plus petite par rapport à leurs instances de classe majoritaire N plus proches. Les données résultantes peuvent potentiellement être réparties de manière inégale, certains points de classe majoritaire étant proches de nombreux points de classe minoritaire et d’autres étant proches de très peu, ce qui entraîne à la fois une faible précision et un faible rappel.⁴

Schéma de sous-échantillonnage - Near Miss 1

Version 2 : cette version du sous-échantillonnage Near Miss conserve les instances de classe majoritaires avec la plus petite distance moyenne par rapport à leurs instances de classe minoritaires N les plus éloignées . Contrairement à la première version, cette version crée une distribution plus uniforme de la classe majoritaire, produisant de meilleurs résultats du classificateur. ⁴

Schéma de sous-échantillonnage - Near Miss 2

Version 3 : cette version conserve les échantillons de la classe majoritaire les plus proches pour les instances de la classe minoritaire les plus proches de la classe majoritaire. Elle opère en deux étapes. Tout d’abord, les M plus proches voisins de classe majoritaire de chaque instance de classe majoritaire sont conservés. Ensuite, parmi les instances de classes majoritaires restantes, celles dont la distance moyenne est la plus élevée sont identifiées et conservées. Comme cette version conserve les instances de classe majoritaire qui sont proches de nombreuses instances de classe majoritaire, elle peut offrir une précision élevée mais un faible rappel.⁴

Schéma de sous-échantillonnage - Near Miss 3

Sous-échantillonnage de la règle des plus proches voisins condensé

Les plus proches voisins condensé (CNN, à ne pas confondre avec les réseaux neuronaux convolutifs) cherchent à trouver un sous-ensemble d’un jeu de données qui peut être utilisé pour un entraînement sans perte de performance du modèle. Pour ce faire, on identifie un sous-ensemble de données qui peut être utilisé pour entraîner un modèle qui prédit correctement le jeu de données dans son ensemble.

Le sous-échantillonnage CNN peut être décomposé en plusieurs étapes :⁵

Créez un nouveau jeu de données, S, qui contient toutes les instances de la classe majoritaire et une seule instance de la classe majoritaire échantillonnée de manière aléatoire.
Entraîner un classificateur 1-NN sur le nouveau jeu de données S.
Pour tous les points de données de la classe majoritaire qui ne figure pas dans S, utilisez le classificateur 1-NN pour prédire leur étiquette. Si le classificateur 1-NN prédit correctement l'étiquette, écartez le point. Sinon, ajoutez-le à S.

Comme Near Miss, ce processus supprime essentiellement toutes les instances de la classe majoritaire situées loin de la limite de décision, qui, encore une fois, sont des points faciles à classer. Elle garantit également que chaque donnée de notre jeu de données original peut être correctement prédite en utilisant uniquement les données de S. De cette façon, le jeu de données peut être réduit de manière significative tout en préservant raisonnablement la limite de décision.

Un Schéma avec 3 graphiques de l’échantillon de la classe majoritaire, de l’échantillon de la classe minoritaire et de l’échantillon de la classe majoritaire avec des voisins de classe minoritaire.

Cette image montre un exemple d'application des plus proches voisins condensés en utilisant 1 plus proche voisin et 21 plus proches voisins à deux jeux de données. Les deux images du premier sont avant l'application des plus proches voisins condensés tandis que les deux du bas sont après. Comme on peut le voir, la limite de décision est raisonnablement bien conservée.

Tomek Link

Le sous-échantillonnage Tomek Link consiste à réduire le bruit dans les données en supprimant les points proches de la limite de décision et à augmenter la séparation des classes. Il s’agit d’identifier les « liens Tomek », c’est-à-dire un regroupement de deux points provenant de différentes classes, sans troisième point existant qui soit le plus proche de l’un ou de l’autre.²

Pour tous les liens de Tomek, le point de la classe majoritaire est supprimé. En supprimant un point de classe majoritaire qui est proche d’un point de classe majoritaire, la séparation des classes augmente. L’inconvénient de cette méthode est la complexité de calcul de toutes les distances par paires entre les points des classes majoritaires et des classes minoritaires.² Le sous-échantillonnage des liens de Tomek est plus efficace lorsqu’il est combiné à d’autres techniques.

Edited Nearest Neighbors

Le sous-échantillonnage Edited Nearest Neighbors (ENN) est similaire au sous-échantillonnage des liens de Tomek, où l’objectif est de supprimer les exemples situés près de la limite de décision afin d’améliorer la séparation des classes. En général, cette méthode supprime les points de données dont la classe diffère de celle d’une majorité de leurs voisins.² Cela signifie que le processus supprime les points de données de la classe majoritaire dont la majorité des voisins les plus proches appartiennent à la classe minoritaire, et vice versa. Dans ce contexte, la majorité peut être définie librement : elle peut signifier qu’au moins un voisin appartient à une classe différente ou que la proportion de voisins appartenant à une classe différente dépasse un certain seuil.

Le sous-échantillonnage ENN est généralement effectué avec les 3 plus proches voisins, comme illustré ci-dessous.

Schéma du sous-échantillonnage - Préservation des limites

Il s’agit d’une stratégie à granularité plus grossière, puisqu’elle consiste à examiner le voisinage des points, et non un seul voisin, et qui s’avère efficace pour éliminer le bruit dans les données. Le sous-échantillonnage ENN est plus efficace lorsqu’il est combiné à d’autres techniques.

Recherches récentes

Les développements actuels en matière de sous-échantillonnage s’articulent autour des intégrations d’apprentissage profond. Elle est utilisée dans des domaines tels que le traitement d’images et les données médicales, qui impliquent l’utilisation de réseaux neuronaux pour sous-échantillonner les données.⁶ Par exemple, le SOM-US utilise un réseau neuronal à deux couches.⁷ Ces dernières années, l’apprentissage actif a également été appliqué au sous-échantillonnage pour essayer d’atténuer les effets des données déséquilibrées.⁸ Les expérimentations ont montré que ces modèles sont nettement plus performants que les techniques traditionnelles.

Les recherches actuelles sur le sous-échantillonnage visent également à le combiner avec d’autres techniques afin de créer des techniques hybrides. Une des combinaisons consiste à sous-échantillonner et à suréchantillonner les données pour bénéficier des avantages des deux systèmes : SMOTE+Tomek Link, Agglomerative Hierarchical Clustering (AHC) et SPIDER en sont quelques exemples.⁹ Les techniques au niveau de l’algorithme peuvent également incorporer les idées des techniques traditionnelles de sous-échantillonnage, comme le Hard Example Mining, où l’entraînement se concentre uniquement sur les points de données « les plus difficiles ».² Toutes montrent de meilleures performances que l’utilisation de chaque technique prise individuellement.

Science des données et MLOps pour les responsables des données

Unissez vos forces à celles d’autres responsables pour promouvoir les trois piliers essentiels du MLOps et d’une IA digne de confiance : confiance dans les données, confiance dans les modèles et confiance dans les processus.

Ressources

Renforcez votre expertise en matière de ML

Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Le machine learning, expliqué

Techsplainers by IBM présente les fondements du machine learning, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Mettre l’IA au travail : mise en place d'un retour sur investissement grâce à l'IA générative

Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.

Choisir le bon modèle de fondation

Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.

Découvrir IBM Granite

IBM® Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.

Comment prospérer en toute confiance dans cette nouvelle ère de l’IA

Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai

Réserver une démo en direct

Notes de bas de page

¹ Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, septembre 2009, https://ieeexplore.ieee.org/document/5128907 (lien externe à ibm.com).

² Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

³ Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 août 2016, https://arxiv.org/pdf/1608.06048 (lien externe à ibm.com).

⁴ Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (lien externe à ibm.com).

⁵ More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 août 2016, https://arxiv.org/pdf/1608.06048 (lien externe à ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

⁶ Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 2 septembre 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (lien externe à ibm.com).

⁷ Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 janvier 2024, https://hrcak.srce.hr/clanak/454006 (lien externe à ibm.com).

⁸ Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 avril 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (lien externe à ibm.com).

⁹ Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

Qu'est-ce que le sous-échantillonnage ?

Auteurs

Qu’est-ce que le sous-échantillonnage ?

Les dernières tendances en matière d’IA, vues par des experts

Merci ! Vous êtes abonné(e).

Pourquoi utiliser le sous-échantillonnage ?

Décryptage de l’IA : Tour d’horizon hebdomadaire

Avantages et inconvénients du sous-échantillonnage

Avantages

Inconvénients

Techniques de sous-échantillonnage

Échantillonnage aléatoire

Sous-échantillonnage Near Miss

Sous-échantillonnage de la règle des plus proches voisins condensé

Tomek Link

Edited Nearest Neighbors

Recherches récentes

Ressources

Notes de bas de page