Im Allgemeinen bezeichnet die Datenerweiterung Methoden zur Ergänzung sogenannter unvollständiger Datensätze durch fehlende Datenpunkte, um die Analysierbarkeit des Datensatzes zu erhöhen.1 Dies zeigt sich beim maschinellen Lernen durch die Erstellung modifizierter Kopien bereits vorhandener Daten, um die Größe und Vielfalt eines Datensatzes zu erhöhen. In Bezug auf das maschinelle Lernen können erweiterte Daten also als künstliche Bereitstellung potenziell fehlender Daten aus der realen Welt verstanden werden.
Die Datenerweiterung verbessert die Optimierung und Verallgemeinerung von Modellen des maschinellen Lernens. Mit anderen Worten: Durch Datenerweiterung kann Überanpassung reduziert und die Modellrobustheit verbessert werden.2 Es ist ein Grundsatz des maschinellen Lernens, dass große, vielfältige Datensätze eine bessere Modellleistung bedeuten. Aus einer Reihe von Gründen, z. B. der Ethik, des Datenschutz und weil das manuelle Zusammentragen der Daten zeitaufwendig ist, kann es jedoch schwierig sein, genügend Daten zu beschaffen. Die Datenerweiterung ist effektiv, wenn man den Umfang und die Variabilität des Datensatzes erhöhen möchte. In der Tat verwenden Forscher häufig Datenerweiterungen, um unausgewogene Datensätze zu korrigieren.3
Viele Deep-Learning-Frameworks wie PyTorch, Keras und Tensorflow bieten Funktionen zur Anreicherung von Daten, vor allem von Bilddatensätzen. Das Python-Paket Albumentations (verfügbar auf Github) wird auch in vielen Open-Source-Projekten eingesetzt. Bei Albumentations werden Bild- und Textdaten angereichert.