Beim Downsampling wird die Anzahl der Datenproben in einem Datensatz verringert. Auf diese Weise sollen unausgewogene Daten korrigiert und damit die Leistung des Modells verbessert werden.
Downsampling ist eine gängige Datenverarbeitungstechnik, die Ungleichgewichte in einem Datensatz durch Entfernen von Daten aus der Mehrheitsklasse ausgleicht, sodass die Größe der Minderheitsklasse erreicht wird. Dies steht im Gegensatz zum Upsampling, bei dem Punkte der Minderheitsklasse neu gesampelt werden. Sowohl Python scikit-learn als auch Matlab enthalten integrierte Funktionen zur Implementierung von Downsampling-Techniken.
Downsampling für Data Science wird oft mit Downsampling in der digitalen Signalverarbeitung (Digital Signal Processing, DSP) verwechselt. Die beiden sind im Grunde ähnlich. Beim Downsampling für die digitale Signalverarbeitung (auch Dezimierung genannt) werden die Bandbreite und die Abtastrate des Samplers verringert, wodurch einige der Originaldaten aus dem Originalsignal entfernt werden. Der Prozess der Verringerung der Stichprobenhäufigkeit wird oft durch die Reduzierung der Stichprobenrate um einen ganzzahligen Faktor durchgeführt, wobei nur eine von jeder n-ten Stichprobe beibehalten wird. Dies geschieht mithilfe eines Tiefpassfilters, auch als Anti-Aliasing-Filter bekannt, um die Hochfrequenz-/Rauschkomponenten eines zeitdiskreten Signals um den zuvor erwähnten ganzzahligen Faktor zu reduzieren.
Downsampling zum Datenausgleich kann auch mit Downsampling zur Bildverarbeitung verwechselt werden. Wenn Daten viele Merkmale enthalten, wie bei hochauflösenden MRT-Bildern, können Berechnungen teuer werden. Downsampling in der Bildverarbeitung reduziert somit die Dimensionalität jedes Datenpunkts durch Faltung. Dies ist nicht dasselbe wie das Ausbalancieren des Datensatzes: Es handelt sich um eine Optimierungstechnik, die später eine Interpolation erfordert, um die Originaldaten wiederherzustellen.
Downsampling ist eine effektive Methode zur Beseitigung von Ungleichgewichten innerhalb eines Datensatzes. Ein unausgewogener Datensatz ist als ein Datensatz definiert, in dem eine Klasse im Vergleich zur wahren Population stark unterrepräsentiert ist, was wiederum zu unbeabsichtigten Verzerrungen führt. Stellen Sie sich zum Beispiel Folgendes vor: Ein Modell wird darauf trainiert, Bilder zu klassifizieren, die eine Katze oder einen Hund zeigen. Der verwendete Datensatz besteht zu 90 % aus Katzen und zu 10 % aus Hunden. Katzen sind in diesem Szenario also überrepräsentiert. Und wenn wir einen Klassifikator haben, der jedes Mal Katzen vorhersagt, wird er eine Genauigkeit von 90 % bei der Klassifizierung von Katzen, aber 0 % bei der Klassifizierung von Hunden erreichen. In diesem Fall führt der unausgewogene Datensatz dazu, dass Klassifikatoren die Genauigkeit der Mehrheitsklasse auf Kosten der Minderheitsklasse bevorzugen. Das gleiche Problem kann bei Datensätzen mit mehreren Klassen auftreten.1
Der Prozess des Downsampling wirkt dem Problem des unausgewogenen Datensatzes entgegen. Es werden Punkte der Mehrheitsklasse identifiziert, die basierend auf bestimmten Kriterien entfernt werden müssen. Diese Kriterien können sich je nach gewählter Downsampling-Technik ändern. Dadurch wird der Datensatz ausgeglichen, indem die Anzahl der Stichproben für eine überrepräsentierte Mehrheitsklasse effektiv verringert wird, bis der Datensatz ein gleichmäßiges Verhältnis der Punkte über alle Klassen hinweg enthält.
Ungleichgewichte lassen sich durch einfaches Auftragen der Anzahl der Datenpunkte in jeder Klasse erkennen. Dies sagt jedoch nichts darüber aus, ob sie das Modell stark beeinträchtigen werden. Glücklicherweise können wir anhand von Leistungskennzahlen messen, wie gut eine Downsampling-Technik das Ungleichgewicht zwischen den Klassen korrigiert. Die meisten dieser Metriken beziehen sich auf binäre Klassifizierungen, bei denen es nur zwei Klassen gibt: eine positive und eine negative. Normalerweise ist die positive Klasse die Minderheitsklasse, während die negative Klasse die Mehrheitsklasse ist. Zwei beliebte Metriken sind ROC-Kurven (Receiver Operating Characteristic) und Precision-Recall-Kurven.1
Das zufällige Downsampling ist eine Löschtechnik, bei der zufällige Punkte in der Mehrheitsklasse ohne Ersatz ausgewählt und aus dem Datensatz gelöscht werden, bis die Größe der Mehrheitsklasse der Größe der Minderheitsklasse entspricht. Dies ist eine einfache Möglichkeit, eine Teilmenge von Daten zu Ausgleichszwecken nach dem Zufallsprinzip zu löschen. Diese Technik kann jedoch dazu führen, dass wichtige Muster oder Häufigkeitsverteilungen in der Mehrheitsklasse verschwinden, was sich negativ auf die Leistung des Klassifikators auswirkt.2
Near-Miss-Downsampling ist eine Technik, die darauf abzielt, die Klassenverteilung auszugleichen, indem bestimmte Beispiele für Mehrheitsklassen nach dem Zufallsprinzip eliminiert werden.
Konzeptionell arbeitet Near Miss nach dem Prinzip, dass Daten an Orten aufbewahrt werden sollten, an denen die Mehrheits- und Minderheitsklassen sehr nahe beieinander liegen, da diese Orte uns wichtige Informationen zur Unterscheidung der beiden Klassen liefern.3 Diese Punkte werden im Allgemeinen als „schwer“ zu erlernende Datenpunkte bezeichnet.Das Near-Miss-Downsampling erfolgt im Allgemeinen in zwei Schritten:
Es gibt drei Varianten des Near-Miss-Algorithmus, die eine eindeutigere Methode zur Auswahl der zu entfernenden Mehrheitsklasseninstanzen bieten.
Condensed Nearest Neighbors (kurz CNN, nicht zu verwechseln mit Convolutional Neural Networks) versucht, eine Teilmenge eines Datensatzes zu finden, die ohne Verlust der Modellleistung für das Training verwendet werden kann. Dazu wird eine Teilmenge der Daten ermittelt, die zum Trainieren eines Modells verwendet werden kann, das den gesamten Datensatz korrekt vorhersagt.
CNN-Downsampling kann in die folgenden Schritte unterteilt werden:5
Wie bei der Methode „Near Miss“ werden bei diesem Verfahren im Wesentlichen alle Instanzen der Mehrheitsklasse entfernt, die weit von der Entscheidungsgrenze entfernt sind, also Punkte, die sich leicht klassifizieren lassen. Es stellt auch sicher, dass alle Daten in unserem ursprünglichen Datensatz korrekt vorhergesagt werden können, indem nur die Daten innerhalb von S verwendet werden. Auf diese Weise kann der Datensatz erheblich verkleinert werden, während die Entscheidungsgrenze einigermaßen gut erhalten bleibt.
Dieses Bild zeigt ein Beispiel für die Anwendung von verdichteten nächsten Nachbarn unter Verwendung von 1 nächsten Nachbarn und 21 nächsten Nachbarn auf zwei Datensätze. Die oberen beiden Bilder wurden vor der Anwendung der verdichteten nächsten Nachbarn erstellt, die unteren beiden danach. Wie man sehen kann, bleibt die Entscheidungsgrenze relativ gut erhalten.
Das Prinzip des Tomek-Link-Downsampling besteht darin, das Rauschen in den Daten durch Entfernen von Punkten in der Nähe der Entscheidungsgrenze zu reduzieren und die Klassentrennung zu erhöhen. Es funktioniert so, dass es „Tomek-Links“ identifiziert – eine Gruppierung von zwei Punkten aus verschiedenen Klassen, ohne dass es einen dritten Punkt gibt, der einer der beiden am nächsten liegt.2
Für alle Tomek-Links wird der Punkt innerhalb der Mehrheitsklasse gelöscht. Durch das Entfernen eines Mehrheitsklassenpunkts, der nahe an einem Minderheitsklassenpunkt liegt, erhöht sich die Klassentrennung. Ein Nachteil dieser Methode ist die hohe Rechenkomplexität bei der Berechnung aller paarweisen Abstände zwischen den Punkten der Mehrheits- und der Minderheitsklasse.2Tomek-Link-Downsampling ist am effektivsten, wenn es mit anderen Techniken kombiniert wird.
Die Nearest-Neighbors-Downsampling-Methode (ENN) ähnelt der Tomek-Link-Downsampling-Methode, bei der das Ziel darin besteht, Beispiele in der Nähe der Entscheidungsgrenze zu entfernen, um die Klassentrennung zu verbessern. Im Allgemeinen werden bei dieser Methode Datenpunkte entfernt, die sich in ihrer Klasse von der Mehrheit ihrer Nachbarn unterscheiden.2 Das bedeutet, dass der Prozess Datenpunkte der Mehrheitsklasse entfernt, bei denen die Mehrheit der nächsten Nachbarn zur Minderheitsklasse gehört, und umgekehrt. Die Mehrheit kann in diesem Zusammenhang frei definiert werden: Sie kann bedeuten, dass mindestens ein Nachbar einer anderen Klasse angehört oder dass der Anteil der Nachbarn einer anderen Klasse einen bestimmten Schwellenwert überschreitet.
ENN-Downsampling wird normalerweise mit 3 nächsten Nachbarn durchgeführt, wie unten dargestellt.
Dies ist eine Strategie mit gröberer Körnung, da sie die allgemeine Nachbarschaft von Punkten und nicht einen einzelnen Nachbarn betrachtet, aber es ist eine effiziente Methode, um Rauschen in den Daten zu beseitigen. ENN-Downsampling ist am effektivsten, wenn es mit anderen Techniken kombiniert wird.
Aktuelle Entwicklungen im Bereich Downsampling drehen sich um die Integration von Deep Learning. Dies wurde in Bereichen wie der Bildverarbeitung und medizinischen Daten verwendet, bei denen neuronale Netze zum Downsampling der Datengrundlage eingesetzt werden.6 Ein Beispiel hierfür ist SOM-US, das ein zweischichtiges neuronales Netz verwendet.7 In den letzten Jahren wurde aktives Lernen auch auf Downsampling angewendet, um die Auswirkungen unausgewogener Daten zu mildern.8 Experimente haben gezeigt, dass diese Modelle deutlich besser abschneiden als herkömmliche Techniken.
Aktuelle Forschungsarbeiten im Bereich Downsampling befassen sich auch mit der Kombination mit anderen Techniken, um Hybridtechniken zu entwickeln. Eine Möglichkeit besteht darin, die Daten sowohl herunter- als auch hochzusampeln, um die Vorteile beider Verfahren zu nutzen: SMOTE+Tomek Link, Agglomerative Hierarchical Clustering (AHC) und SPIDER sind einige Beispiele hierfür.9 Techniken auf Algorithmenebene können auch Ideen aus traditionellen Downsampling-Techniken einbeziehen, wie z. B. beim Hard Example Mining, bei dem sich das Training nur auf die „schwierigeren“ Datenpunkte konzentriert.2 Alle zeigen eine bessere Leistung als die Verwendung jeder Technik einzeln.
1 Haobo He und Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (Link befindet sich außerhalb von ibm.com.)
2 Kumar Abhishek und Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023
3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22. August 2016, https://arxiv.org/pdf/1608.06048 (Link befindet sich außerhalb von ibm.com.)
4 Jianping Zhang und Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (Link befindet sich außerhalb von ibm.com.)
5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22. August 2016, https://arxiv.org/pdf/1608.06048 (Link befindet sich außerhalb von ibm.com.) Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.
6 Md Adnan Arefeen, Sumaiya Tabassum Nimi und M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (Link befindet sich außerhalb von ibm.com.)
7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30. Januar 2024, https://hrcak.srce.hr/clanak/454006 (link resides outside ibm.com.)
8 Wonjae Lee und Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26. April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (Link befindet sich außerhalb von ibm.com.)
9 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.