Vorausschauende Lernmethoden, die auch als autoassoziatives selbstüberwachtes Lernen bezeichnet werden, trainieren ein Modell, das einen Teil eines einzelnen Datenmusters vorhersagt, wenn es Informationen über dessen andere Teile enthält. Modelle, die mit diesen Methoden trainiert wurden, sind in der Regel generative und nicht diskriminative Modelle.
Yann LeCun hat selbstüberwachte Methoden als eine strukturierte Praxis des „Ausfüllens der Lücken“ beschrieben. Im Großen und Ganzen beschrieb er den Prozess des Lernens sinnvoller Darstellungen aus der zugrundeliegenden Struktur von nicht gelabelten Daten mit einfachen Worten: „Tun Sie so, als gäbe es einen Teil der Eingabe, den Sie nicht kennen, und sagen Sie diesen voraus.“ 4 Zum Beispiel:
- Sagen Sie einen beliebigen Teil der Eingabe aus einem anderen Teil voraus
- Sagen Sie die Zukunft aus der Vergangenheit voraus
- Sagen Sie das Maskierte aus dem Sichtbarenvoraus
- Prognostizieren Sie alle verdeckten Teile aus allen verfügbaren Teilen
Selbstüberwachte Systeme, die auf diesen Philosophien aufbauen, nutzen häufig bestimmte Modellarchitekturen und Trainingstechniken.
Autoencoder
Ein Autoencoder ist ein neuronales Netzwerk, das darauf trainiert ist, Eingabedaten zu komprimieren (oder zu kodieren) und dann die ursprüngliche Eingabe mithilfe dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren). Sie sind darauf trainiert, Rekonstruktionsfehler zu minimieren, indem sie die ursprüngliche Eingabe selbst als Ground Truth verwenden.
Obwohl die Architekturen von Autoencodern variieren, führen sie in der Regel eine Form von Engpass ein: Während die Daten das Encodernetzwerk durchlaufen, wird die Datenkapazität jeder Schicht schrittweise reduziert. Dadurch wird das Netz gezwungen, nur die wichtigsten Muster zu lernen, die in den Eingabedaten verborgen sind – die so genannten latenten Variablen oder der latente Raum – sodass das Decoder-Netz die ursprüngliche Eingabe trotz der nun geringeren Informationen genau rekonstruieren kann.
Durch Änderungen an diesem Framework können Autoencoder nützliche Merkmale und Funktionen erlernen.
- Denoising-Autoencoder erhalten teilweise verfälschte Eingabedaten und werden darauf trainiert, die ursprüngliche Eingabe wiederherzustellen, indem sie unbrauchbare Informationen („Rauschen“) entfernen. Dies reduziert die Überanpassung und macht solche Modelle für Aufgaben wie das Wiederherstellen beschädigter Eingabebilder und Audiodaten nützlich.
- Während die meisten Autoencoder diskrete Modelle des latenten Raums kodieren, lernen Variational Autoencoder (VAEs) kontinuierliche Modelle des latenten Raums: Durch die Kodierung latenter Repräsentationen von Eingabedaten als Wahrscheinlichkeitsverteilung kann der Decoder neue Daten durch die Entnahme eines Zufallsvektors aus dieser Verteilung erzeugen.
Autoregression
Autoregressive Modelle verwenden früheres Verhalten, um zukünftiges Verhalten vorherzusagen. Sie gehen von der Logik aus, dass alle Daten mit einer inhärenten sequentiellen Ordnung – wie Sprache, Audio oder Video – mit Regression modelliert werden können.
Autoregressionsalgorithmen modellieren Zeitreihen-Daten mit den Werten des/der vorherigen Zeitschritte/s, um den Wert des folgenden Zeitschritts vorherzusagen. Bei herkömmlichen Regressionsalgorithmen hingegen, wie sie beispielsweise für die lineare Regression verwendet werden, werden unabhängige Variablen verwendet, um einen Zielwert vorherzusagen (oder abhängige Variable). Bei der Autoregression sind die unabhängige und die abhängige Variable im Wesentlichen ein und dasselbe: Man spricht von einer Autoregression, da die Regression an der Variablen selbst durchgeführt wird.
Autoregression wird vor allem in kausalen Sprachmodellen wie GPT, LLaMa und Claude-Familien von LLMs verwendet, die bei Aufgaben wie Textgenerierung und Fragenbeantwortung hervorstechen. Beim Vortraining erhalten die Sprachmodelle den Anfang von Beispielsätzen aus nicht gelabelten Trainingsdaten und sollen das nächste Wort vorhersagen, wobei das „tatsächliche“ nächste Wort des Beispielsatzes als Ground Truth dient.
Maskierung
Eine weitere selbstüberwachte Lernmethode besteht darin, bestimmte Teile einer nicht gelabelten Datenprobe zu maskieren und Modelle mit der Vorhersage oder Rekonstruktion der fehlenden Informationen zu beauftragen. Verlustfunktionen verwenden die ursprüngliche Eingabe (vor der Maskierung) als Ground Truth. Maskierte Autoencoder sind beispielsweise eine Umkehrung der Denoising-Autoencoder: Sie lernen, fehlende Informationen vorherzusagen und wiederherzustellen, anstatt fremde Informationen zu entfernen.
Maskierung wird auch beim Training von maskierten Sprachmodellen verwendet: In Beispielsätzen werden zufällige Wörter ausgelassen und die Modelle werden darauf trainiert, diese zu ersetzen. Obwohl maskierte Sprachmodelle wie BERT (und die vielen darauf aufbauenden Modelle wie BART und RoBERTa) bei der Texterzeugung oft weniger geschickt sind als autoregressive Modelle, haben sie den Vorteil, dass sie bidirektional sind: Sie können nicht nur das nächste Wort vorhersagen, sondern auch frühere oder später in einer Sequenz gefundene Wörter. Dadurch eignen sie sich gut für Aufgaben, die ein ausgeprägtes kontextuelles Verständnis erfordern, wie Übersetzung, Zusammenfassung und Suche.
Vorhersage einer inhärenten Beziehung
Die Vorhersage einer inhärenten Beziehung trainiert ein Modell, um sein Verständnis einer Datenprobe beizubehalten, nachdem diese auf irgendeine Weise transformiert wurde. Zum Beispiel das Drehen eines Eingabebilds und die Beauftragung eines Modells mit der Vorhersage des Änderungsgrades und der Drehrichtung relativ zur ursprünglichen Eingabe.5