Downsampling ist eine effektive Methode zur Beseitigung von Ungleichgewichten innerhalb eines Datensatzes. Ein unausgewogener Datensatz ist als ein Datensatz definiert, in dem eine Klasse im Vergleich zur wahren Population stark unterrepräsentiert ist, was wiederum zu unbeabsichtigten Verzerrungen führt. Stellen Sie sich zum Beispiel Folgendes vor: Ein Modell wird darauf trainiert, Bilder zu klassifizieren, die eine Katze oder einen Hund zeigen. Der verwendete Datensatz besteht zu 90 % aus Katzen und zu 10 % aus Hunden. Katzen sind in diesem Szenario also überrepräsentiert. Und wenn wir einen Klassifikator haben, der jedes Mal Katzen vorhersagt, wird er eine Genauigkeit von 90 % bei der Klassifizierung von Katzen, aber 0 % bei der Klassifizierung von Hunden erreichen. In diesem Fall führt der unausgewogene Datensatz dazu, dass Klassifikatoren die Genauigkeit der Mehrheitsklasse auf Kosten der Minderheitsklasse bevorzugen. Das gleiche Problem kann bei Datensätzen mit mehreren Klassen auftreten.1
Der Prozess des Downsampling wirkt dem Problem des unausgewogenen Datensatzes entgegen. Es werden Punkte der Mehrheitsklasse identifiziert, die basierend auf bestimmten Kriterien entfernt werden müssen. Diese Kriterien können sich je nach gewählter Downsampling-Technik ändern. Dadurch wird der Datensatz ausgeglichen, indem die Anzahl der Stichproben für eine überrepräsentierte Mehrheitsklasse effektiv verringert wird, bis der Datensatz ein gleichmäßiges Verhältnis der Punkte über alle Klassen hinweg enthält.
Ungleichgewichte lassen sich durch einfaches Auftragen der Anzahl der Datenpunkte in jeder Klasse erkennen. Dies sagt jedoch nichts darüber aus, ob sie das Modell stark beeinträchtigen. Glücklicherweise können wir anhand von Leistungskennzahlen messen, wie gut eine Downsampling-Technik das Ungleichgewicht zwischen den Klassen korrigiert. Die meisten dieser Metriken beziehen sich auf binäre Klassifizierungen, bei denen es nur zwei Klassen gibt: eine positive und eine negative. Normalerweise ist die positive Klasse die Minderheitsklasse, während die negative Klasse die Mehrheitsklasse ist. Zwei beliebte Metriken sind ROC-Kurven (Receiver Operating Characteristic) und Precision-Recall-Kurven.1