Une extension populaire, Borderline SMOTE, est utilisée pour lutter contre le problème du bruit artificiel des jeux de données et pour créer des points de données plus « difficiles ». Les points de données plus « difficiles » sont des points de données proches de la limite de décision, et donc plus difficiles à classer. Ces points plus difficiles sont plus utiles pour l'apprentissage du modèle.2

Le système Borderline SMOTE identifie les points de la classe de la minorité qui sont proches de nombreux points de la classe de la majorité et les place dans un jeu DANGER. Les points DANGER sont les points de données les plus difficiles à apprendre, encore une fois parce qu’ils sont plus difficiles à classer que les points entourés de points appartenant à la classe de la minorité. Ce processus de sélection exclut les points dont les plus proches voisins sont uniquement des points de classe majoritaire, considérés comme du bruit. De là, l’algorithme SMOTE continue normalement en utilisant ce jeu DANGER.3