Die Mannigfaltigkeitsannahme besagt, dass der höherdimensionale Eingaberaum mehrere niedrigdimensionale Mannigfaltigkeiten umfasst, auf denen alle Datenpunkte liegen, und dass Datenpunkte auf derselben Mannigfaltigkeit dasselbe Label haben.
Stellen Sie sich als intuitives Beispiel ein zu einer Kugel zusammengeknülltes Stück Papier vor. Die Position aller Punkte auf der kugelförmigen Oberfläche kann nur mit dreidimensionalen x-, y-, z- Koordinaten zugeordnet werden. Aber wenn diese zerknitterte Kugel jetzt wieder zu einem Blatt Papier zusammengedrückt wird, können dieselben Punkte jetzt mit zweidimensionalen x,y-Koordinaten abgebildet werden. Dies wird als Dimensionalitätsreduktion bezeichnet und kann mathematisch mit Methoden wie Autoencodern oder Konvolutionen erreicht werden.
Beim maschinellen Lernen entsprechen Dimensionen nicht den bekannten physikalischen Dimensionen, sondern jedem Attribut oder Merkmal von Daten. Beim maschinellen Lernen hat beispielsweise ein kleines RGB-Bild mit einer Größe von 32x32 Pixeln 3.072 Dimensionen: 1.024 Pixel, von denen jeder drei Werte (für Rot, Grün und Blau) hat. Der Vergleich von Datenpunkten mit so vielen Dimensionen ist eine Herausforderung, sowohl wegen der Komplexität und der erforderlichen Rechenressourcen als auch weil der größte Teil dieses hochdimensionalen Raums keine Informationen enthält, die für die jeweilige Aufgabe von Bedeutung sind.
Die Mannigfaltigkeitsannahme besagt, dass, wenn ein Modell die richtige Dimensionalitätsreduktionsfunktion lernt, um irrelevante Informationen zu verwerfen, verteilte Datenpunkte zu einer aussagekräftigeren Darstellung konvergieren, für die die anderen SSL-Annahmen zuverlässiger sind.