Startseite
Themen
Selbstüberwachtes Lernen
Veröffentlicht: 5. Dezember 2023
Mitwirkende: Dave Bergmann
Selbstüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der unüberwachtes Lernen für Aufgaben verwendet wird, die normalerweise überwachtes Lernen erfordern. Anstatt sich auf gelabelte Datensätze für Überwachungssignale zu verlassen, erzeugen selbstüberwachte Modelle implizite Labels aus unstrukturierten Daten.
Selbstüberwachtes Lernen (SSL) ist besonders nützlich in Bereichen wie Computer Vision und Verarbeitung natürlicher Sprache (NLP), die große Mengen an gelabelten Daten erfordern, um modernste künstliche Intelligenz-Modelle (KI) zu trainieren. Da diese gelabelten Datensätze zeitaufwändig von menschlichen Experten kommentiert werden müssen, kann sich das Sammeln ausreichender Daten als äußerst schwierig erweisen. Selbstüberwachte Ansätze können zeit- und kosteneffizienter sein, da sie das manuelle Labeln von Trainingsdaten teilweise oder vollständig ersetzen.
Um ein Deep-Learning-Modell für Aufgaben zu trainieren, die Genauigkeit erfordern, wie z. B. Klassifizierung oder Regression, muss man in der Lage sein, die Ausgabevorhersagen des Modells für eine bestimmte Eingabe mit den „korrekten“ Vorhersagen für diese Eingabe zu vergleichen; das wird üblicherweise als Ground Truth bezeichnet. Normalerweise dienen manuell gelabelte Trainingsdaten als Ground Truth: Da diese Methode ein direktes menschliches Eingreifen erfordert, wird sie „überwachtes“ Lernen genannt. Beim selbstüberwachten Lernen sind die Aufgaben so konzipiert, dass die „Ground Truth“ aus nicht gelabelten Daten abgeleitet werden kann.
In SSL lassen sich Aufgaben in zwei Kategorien einteilen: Voraufgaben und nachgelagerte Aufgaben.In einer Voraufgabe wird SSL verwendet, um ein KI-System darauf zu trainieren, sinnvolle Darstellungen von unstrukturierten Daten zu lernen. Diese gelernten Repräsentationen können anschließend als Eingabe für eine nachgelagerte Aufgabe verwendet werden, z. B. eine überwachte Lernaufgabe oder eine Verstärkungslernaufgabe. Die Wiederverwendung eines vorab trainierten Modells für eine neue Aufgabe wird als „Transferlernen“ bezeichnet.
Selbstüberwachtes Lernen wird beim Training einer Vielzahl anspruchsvoller Deep-Learning-Architekturen für verschiedene Aufgaben eingesetzt, von transformatorbasierten großen Sprachmodellen (LLMs) wie BERT und GPT über Bildsynthesemodelle wie Variational Autoencoder (VAEs) und Generative Adversial Netzwerke (GANs) bis hin zu Computer-Vision-Modellen wie SimCLR und Momentum Contrast (MoCo).
Ein Enterprise Studio der nächsten Generation für KI-Entwickler, um KI-Modelle zu trainieren, zu prüfen, zu optimieren und bereitzustellen.
Obwohl das selbstüberwachte Lernen technisch gesehen eine Untergruppe des unüberwachten Lernens ist (da es keine gelabelten Datensätze benötigt), ist es eng mit dem überwachten Lernen verwandt, da es die Leistung anhand einer Ground Truth optimiert.
Diese unvollkommene Übereinstimmung mit den beiden konventionellen Paradigmen des maschinellen Lernens führte dazu, dass die verschiedenen Techniken, die heute unter dem Begriff „selbstüberwachtes Lernen“ zusammengefasst werden, eine eigene Kategorisierung erhielten.
Die Prägung des Begriffs wird häufig Yann LeCun zugeschrieben, dem mit dem Turing-Preis ausgezeichneten Informatiker und Schlüsselfigur in der Entwicklung des Deep Learnings,1 der es für notwendig erklärte, SSL von wirklich unüberwachtem Lernen (das er als „einen belasteten und verwirrenden Begriff“ bezeichnete) abzugrenzen.2 Der Name (und das formale Konzept) haben ihren Ursprung möglicherweise in einer Veröffentlichung von Raina et al. aus dem Jahr 2007 mit dem Titel „Self-taught learning: Transfer learning from unlabeled data“.3 Einige Frameworks für maschinelles Lernen, die heute als SSL gelten, wie z. B. Autoencoder, sind einige Jahre älter als der Begriff selbst.
Selbstüberwachtes Lernen ist eine Untergruppe des unüberwachten Lernens: Alle selbstüberwachten Lerntechniken sind unüberwachtes Lernen, aber die meisten unüberwachten Lernverfahren beinhalten keine Selbstüberwachung.
Weder unüberwachtes noch selbstüberwachtes Lernen verwenden Labels im Trainingsprozess: Beide Methoden lernen intrinsische Korrelationen und Muster in nicht gelabelten Daten statt extern auferlegter Korrelationen aus annotierten Datensätzen. Abgesehen von diesem gemeinsamen Fokus auf nicht gelabelte Daten spiegeln die Unterschiede zwischen selbstüberwachtem und unüberwachtem Lernen weitgehend die Unterschiede zwischen unüberwachtem und überwachtem Lernen wider.
Probleme, bei denen konventionelles unüberwachtes Lernen verwendet wird, messen die Ergebnisse nicht anhand einer bereits bekannten Ground Truth. Beispielsweise könnte ein unbeaufsichtigtes Assoziationsmodell eine E-Commerce-Empfehlungsmaschine antreiben, indem es lernt, welche Produkte häufig zusammen gekauft werden. Der Nutzen des Modells ergibt sich nicht aus der Replikation menschlicher Vorhersagen, sondern aus der Entdeckung von Korrelationen, die für menschliche Beobachter nicht offensichtlich sind.
Beim selbstüberwachten Lernen werden die Ergebnisse anhand einer Ground Truth gemessen, auch wenn diese implizit aus nicht gelabelten Trainingsdaten abgeleitet wird. Wie überwachte Modelle werden auch selbstüberwachte Modelle mit Hilfe einer Verlustfunktion optimiert: ein Algorithmus, der die Divergenz („Verlust“) zwischen der Ground Truth und den Modellvorhersagen misst. Während des Trainings verwenden selbstüberwachte Modelle den Gradientenabstieg während der Backpropagation, um die Modellgewichte so anzupassen, dass der Verlust minimiert wird (und damit die Genauigkeit verbessert).
Aufgrund dieses entscheidenden Unterschieds konzentrieren sich die beiden Methoden auf unterschiedliche Anwendungsfälle: Unüberwachte Modelle werden für Aufgaben wie Clustering, Anomalieerkennung und Dimensionalitätsreduzierung verwendet, die keine Verlustfunktion erfordern, wohingegen selbstüberwachte Modelle für Klassifizierungs- und Regressionsaufgaben verwendet werden, die für überwachtes Lernen typisch sind.
Während überwachtes und selbstüberwachtes Lernen weitgehend für dieselben Aufgaben verwendet werden und beide eine Ground Truth benötigen, um die Leistung über eine Verlustfunktion zu optimieren, werden selbstüberwachte Modelle auf nicht gelabelten Daten trainiert. Beim überwachten Lernen hingegen werden gelabelte Datensätze für das Training benötigt.
Gelabelte Datensätze sind beim Modelltraining äußerst effektiv: Durch das Kommentieren von Trainingsdaten kann ein Modell direkt die wichtigsten Merkmale und Korrelationen lernen, die diese Anmerkungen widerspiegeln. Durch die Minimierung der Divergenz zwischen den Modellvorhersagen und den von Hand kommentierten „Vorhersagen“ menschlicher Experten während des Trainings lernen überwachte Modelle, korrekte Schlüsse über neue (nicht gelabelte) Eingabedaten zu ziehen.
Obwohl modernste überwachte Ansätze eine hohe Genauigkeit erzielen können, ist die Annotation großer Mengen von Trainingsdaten oft ein Engpass im Forschungsprozess. Beispielsweise muss bei Computer-Vision-Aufgaben wie der Instanzsegmentierung, die pixelspezifische Vorhersagen erfordern, die Annotation von Trainingsdaten auf Pixelebene erfolgen. Dies ist kostspielig und zeitaufwändig und schränkt sowohl die Menge der verfügbaren Trainingsdaten als auch die Möglichkeiten der meisten Unternehmen und Forscher ein, diese zu erhalten.
Im Gegensatz dazu verwenden selbstüberwachte Modelle verschiedene Techniken, um Überwachungssignale aus der Struktur der Eingabedaten selbst zu gewinnen und verzichten dabei völlig auf Labels. So können beispielsweise Teile eines Satzes nach dem Zufallsprinzip ausgeblendet (oder „maskiert“) und ein selbstüberwachtes Modell mit der Vorhersage der ausgeblendeten Wörter beauftragt werden, wobei der ursprüngliche (nicht gelabelte) Satz als Ground Truth dient.
Im Gegensatz zum selbstüberwachten Lernen, bei dem keine von Menschen gelabelten Daten verwendet werden, werden beim halbüberwachten Lernen sowohl gelabelte als auch nicht gelabelte Daten zum Trainieren von Modellen verwendet. Ein halbüberwachtes Modell könnte beispielsweise eine kleine Menge gelabelter Datenpunkte verwenden, um daraus die Labels für den Rest eines ansonsten nicht gelabelten Trainingsdatensatzes abzuleiten, und dann den gesamten Datensatz für das überwachte Lernen verwenden. Obwohl die Beweggründe ähnlich sind, da beide Ansätze den Bedarf an großen gelabelten Datensätzen beim überwachten Lernen umgehen, unterscheiden sich ihre jeweiligen Methoden.
Selbstüberwachte Lernaufgaben sind so konzipiert, dass eine Verlustfunktion nicht gelabelte Eingabedaten als Ground Truth verwenden kann. Dadurch kann das Modell genaue, aussagekräftige Darstellungen der Eingabedaten ohne Labels oder Anmerkungen lernen.
Das Ziel des selbstüberwachten Lernens besteht darin, den Bedarf an gelabelten Daten zu minimieren oder ganz zu ersetzen. Während gelabelte Daten relativ knapp und teuer sind, sind nicht gelabelte Daten reichlich vorhanden und relativ günstig. Im Wesentlichen liefern Voraufgaben „Pseudo-Labels“ aus nicht gelabelten Daten. Die Bezeichnung „Voraufgabe“ impliziert, dass die Trainingsaufgabe nicht (notwendigerweise) für sich selbst nützlich ist: Sie ist nur deshalb nützlich, weil sie Modellen Datenrepräsentationen beibringt, die für die Zwecke von nachgelagerten Aufgaben nützlich sind. Voraufgaben werden daher oft auch als Repräsentationslernen bezeichnet.
Modelle, die mit SSL trainiert wurden, werden oft für ihre spezifischen nachgelagerten Aufgaben fein abgestimmt: Diese Feinabstimmung beinhaltet oft echtes überwachtes Lernen (wenn auch mit einem Bruchteil der gelabelten Daten, die zum Trainieren eines Modells mit überwachtem Lernen allein benötigt werden).
Obwohl die SSL-Disziplin sowohl in der Methodik als auch in den Anwendungsfällen vielfältig ist, verwenden die mit SSL trainierten Modelle eine (oder beide) von zwei maschinellen Lerntechniken: vorausschauendes Lernen und kontrastives Lernen.
Vorausschauende Lernmethoden, die auch als autoassoziatives selbstüberwachtes Lernen bezeichnet werden, trainieren ein Modell, das einen Teil eines einzelnen Datenmusters vorhersagt, wenn es Informationen über dessen andere Teile enthält. Modelle, die mit diesen Methoden trainiert wurden, sind in der Regel generative und nicht diskriminative Modelle.
Yann LeCun hat selbstüberwachte Methoden als eine strukturierte Praxis des „Ausfüllens der Lücken“ beschrieben. Im Großen und Ganzen beschrieb er den Prozess des Lernens sinnvoller Darstellungen aus der zugrundeliegenden Struktur von nicht gelabelten Daten mit einfachen Worten: „Tun Sie so, als gäbe es einen Teil der Eingabe, den Sie nicht kennen, und sagen Sie diesen voraus.“ 4 Zum Beispiel:
Selbstüberwachte Systeme, die auf diesen Philosophien aufbauen, nutzen häufig bestimmte Modellarchitekturen und Trainingstechniken.
Autoencoder
Ein Autoencoder ist ein neuronales Netzwerk, das darauf trainiert ist, Eingabedaten zu komprimieren (oder zu kodieren) und dann die ursprüngliche Eingabe mithilfe dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren). Sie sind darauf trainiert, Rekonstruktionsfehler zu minimieren, indem sie die ursprüngliche Eingabe selbst als Ground Truth verwenden.
Obwohl die Architekturen von Autoencodern variieren, führen sie in der Regel eine Form von Engpass ein: Während die Daten das Encodernetzwerk durchlaufen, wird die Datenkapazität jeder Schicht schrittweise reduziert. Dadurch wird das Netz gezwungen, nur die wichtigsten Muster zu lernen, die in den Eingabedaten verborgen sind – die so genannten latenten Variablen oder der latente Raum – sodass das Decoder-Netz die ursprüngliche Eingabe trotz der nun geringeren Informationen genau rekonstruieren kann.
Durch Änderungen an diesem Framework können Autoencoder nützliche Merkmale und Funktionen erlernen.
Autoregression
Autoregressive Modelle verwenden früheres Verhalten, um zukünftiges Verhalten vorherzusagen. Sie gehen von der Logik aus, dass alle Daten mit einer inhärenten sequentiellen Ordnung – wie Sprache, Audio oder Video – mit Regression modelliert werden können.
Autoregressionsalgorithmen modellieren Zeitreihen-Daten mit den Werten des/der vorherigen Zeitschritte/s, um den Wert des folgenden Zeitschritts vorherzusagen. Bei herkömmlichen Regressionsalgorithmen hingegen, wie sie beispielsweise für die lineare Regression verwendet werden, werden unabhängige Variablen verwendet, um einen Zielwert vorherzusagen (oder abhängige Variable). Bei der Autoregression sind die unabhängige und die abhängige Variable im Wesentlichen ein und dasselbe: Man spricht von einer Autoregression, da die Regression an der Variablen selbst durchgeführt wird.
Autoregression wird vor allem in kausalen Sprachmodellen wie GPT, LLaMa und Claude-Familien von LLMs verwendet, die bei Aufgaben wie Textgenerierung und Fragenbeantwortung hervorstechen. Beim Vortraining erhalten die Sprachmodelle den Anfang von Beispielsätzen aus nicht gelabelten Trainingsdaten und sollen das nächste Wort vorhersagen, wobei das „tatsächliche“ nächste Wort des Beispielsatzes als Ground Truth dient.
Maskierung
Eine weitere selbstüberwachte Lernmethode besteht darin, bestimmte Teile einer nicht gelabelten Datenprobe zu maskieren und Modelle mit der Vorhersage oder Rekonstruktion der fehlenden Informationen zu beauftragen. Verlustfunktionen verwenden die ursprüngliche Eingabe (vor der Maskierung) als Ground Truth. Maskierte Autoencoder sind beispielsweise eine Umkehrung der Denoising-Autoencoder: Sie lernen, fehlende Informationen vorherzusagen und wiederherzustellen, anstatt fremde Informationen zu entfernen.
Maskierung wird auch beim Training von maskierten Sprachmodellen verwendet: In Beispielsätzen werden zufällige Wörter ausgelassen und die Modelle werden darauf trainiert, diese zu ersetzen. Obwohl maskierte Sprachmodelle wie BERT (und die vielen darauf aufbauenden Modelle wie BART und RoBERTa) bei der Texterzeugung oft weniger geschickt sind als autoregressive Modelle, haben sie den Vorteil, dass sie bidirektional sind: Sie können nicht nur das nächste Wort vorhersagen, sondern auch frühere oder später in einer Sequenz gefundene Wörter. Dadurch eignen sie sich gut für Aufgaben, die ein ausgeprägtes kontextuelles Verständnis erfordern, wie Übersetzung, Zusammenfassung und Suche.
Vorhersage einer inhärenten Beziehung
Die Vorhersage einer inhärenten Beziehung trainiert ein Modell, um sein Verständnis einer Datenprobe beizubehalten, nachdem diese auf irgendeine Weise transformiert wurde. Zum Beispiel das Drehen eines Eingabebilds und die Beauftragung eines Modells mit der Vorhersage des Änderungsgrades und der Drehrichtung relativ zur ursprünglichen Eingabe.5
Kontrastive, selbstüberwachte Lernmethoden stellen Modellen mehrere Datenproben zur Verfügung und geben ihnen die Aufgabe, die Beziehung zwischen ihnen vorherzusagen. Bei den mit diesen Methoden trainierten Modellen handelt es sich in der Regel um diskriminative Modelle und nicht um generative Modelle.
Kontrastive Modelle arbeiten in der Regel mit Daten-Daten-Paaren für das Training, während autoassoziative Modelle mit Daten-Label-Paaren arbeiten (bei denen das Label selbst aus den Daten generiert wird). Anhand dieser Daten-Daten-Paare trainieren kontrastive Methoden Modelle, um zwischen ähnlichen und unähnlichen Dingen zu unterscheiden.
Diese Paare werden häufig durch Datenerweiterung erstellt, indem verschiedene Arten von Transformationen oder Störungen auf nicht gelabelte Daten angewendet werden, um neue Instanzen oder erweiterte Ansichten zu erstellen. Zu den gängigen Erweiterungstechniken für Bilddaten gehören beispielsweise Rotation, zufälliges Zuschneiden, Spiegeln, Rauschen, Filtern und Färben. Durch die Datenerweiterung wird die Datenvariabilität erhöht und das Modell verschiedenen Perspektiven ausgesetzt. Dadurch wird sichergestellt, dass das Modell lernt, aussagekräftige, dynamische semantische Darstellungen zu erfassen.
Instanzunterscheidung
Auf Instanzunterscheidung basierende Modelle gestalten das Training als eine Reihe von binären Klassifizierungsaufgaben: Unter Verwendung eines Datenmusters als Ziel (oder „Anker“) werden andere Datenmuster als „positiv“ (übereinstimmend) oder „negativ“ (nicht übereinstimmend) eingestuft.
In der Computer Vision beginnen solche Methoden – wie SimCLR oder MoCo – typischerweise mit einer Reihe nicht gelabelter Rohbilder und wenden eine zufällige Kombination von Transformationen an, um Paare (oder Sätze) erweiterter Bildbeispiele zu generieren. Jedes dieser erweiterten Bilder wird dann in eine Vektordarstellung kodiert, und eine kontrastive Verlustfunktion wird verwendet, um den Unterschied in den Vektordarstellungen zwischen positiven Übereinstimmungen – Paaren von erweiterten Bildern, die von demselben Originalbild abgeleitet sind – zu minimieren und den Unterschied zwischen negativen Übereinstimmungen zu maximieren.
Instanzunterscheidungsmethoden trainieren daher Modelle, um Repräsentationen verschiedener Kategorien zu erlernen, die dank zufälliger Datenergänzungen robust gegenüber trivialen Variationen (wie Farbe, Perspektive oder sichtbare Teile in einem bestimmten Bild) sind. Diese Darstellungen lassen sich daher sehr gut auf nachgelagerte Aufgaben verallgemeinern.
Nicht-kontrastives Lernen
Etwas kontraintuitiv bezieht sich „nicht-kontrastives Lernen“ auf eine Methode, die eng mit dem kontrastiven Lernen verwandt ist (und nicht, wie man vermuten könnte, ein allgemeiner Sammelbegriff für Methoden, die nicht zum kontrastiven Lernen gehören). Die Modelle werden nur mit positiven Paaren trainiert und lernen, den Unterschied zwischen ihren Darstellungen zu minimieren – daher sind sie nicht-kontrastiv.
Im Vergleich zum kontrastiven Lernen sind nicht-kontrastive Ansätze relativ einfach: Da sie nur mit positiven Mustern arbeiten, benötigen sie kleinere Batch-Größen für Trainingsepochen und keine Speicherbank für negative Muster. Dies spart Speicher und Rechenkosten während des Vortrainings.
Nicht-kontrastive Modelle wie Bootstrap Your Own Latent (BYOL)6 und Barlow Twins7 haben Ergebnisse erzielt, die mit denen von kontrastiven und rein überwachten Ergebnissen konkurrieren.
Multimodales Lernen
Bei gegebenen Datenpunkten unterschiedlicher Art – Modalitäten – können kontrastive Methoden die Zuordnung zwischen diesen Modalitäten lernen. Contrastive Language-Image Pre-training (CLIP) beispielsweise trainiert gemeinsam einen Bild- und einen Text-Encoder, um vorherzusagen, welche Bildunterschrift zu welchem Bild passt, wobei Millionen von leicht verfügbaren, nicht gelabelten (Bild, Text) Paaren aus dem Internet verwendet werden. Nach dem Vortraining wird die Verarbeitung natürlicher Sprache (NLP) verwendet, um die im Training erlernten visuellen Konzepte zu referenzieren (oder sogar um neue visuelle Konzepte zu beschreiben), was CLIP-trainierte Modelle für eine Vielzahl von Anwendungen zum Transferlernen äußerst nützlich macht.
Kontrastives Lernen wurde auch verwendet, um Ausrichtungen zwischen Video und Text,8 Video und Audio,9 sowie Sprache und Text zu lernen.10
Selbstüberwachtes Lernen wurde zum Vortraining von künstlichen Intelligenz-Modellen für ein breites Spektrum von Aufgaben und Disziplinen verwendet.
Erfahren Sie mehr darüber, wie selbstüberwachtes Lernen in die größere Welt des maschinellen Lernens passt.
Erfahren Sie mehr darüber, welche Art von maschinellem Lernmodell für Sie am besten geeignet ist: überwachtes oder unüberwachtes Lernen?
Lernen Sie, wie überwachtes Lernen funktioniert und wie Sie damit hochpräzise maschinelle Lernmodelle für eine Vielzahl von Aufgaben erstellen können.
Erfahren Sie, wie unüberwachtes Lernen funktioniert und wie es zum Untersuchen und Clustern von Daten für verschiedene Anwendungsfälle verwendet werden kann.
Alle Links befinden sich außerhalb von ibm.com
1 „Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award,“ Association for Computing Machinery, 27.3.2019
2 Facebook, Yann LeCun, 30.4.2019
3 „Self-taught learning: transfer learning from unlabeled data,“ Proceedings of the 24th international conference on machine learning, 20.6.2007
4 Lecture: Energy based models and self-supervised learning, YouTube, 2020 hochgeladen
5 „Learning to see by moving,“ arXiv, 14.9.2015
6 „Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning,“ arXiv, 10.9.2020
7 „Barlow Twins: Self-Supervised Learning via Redunancy Reduction,“ arXiv, 14.6.2021
8 „VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding,“ arXiv, 1.10.2021
9 „Active Contrasting Learning of Audio-Visual Video Representations,“ Proceedings of the International Conference on Learning Representations, 2021
10 „Cross-modal Contrastive Learning for Speech Translation,“ arXiv, 5.5.2022
11 „Understanding searches better than ever before,“ Google, 25.10.2019
12 „End-to-End Query Term Weighting,“ Google, 2023
13 „WaveNet: A Generative Model for Raw Audio,“ arXiv, 19.9.2016
14 „Wave2vec: State-of-the-art speech recognition through self-supervision,“ Meta, 19.9.2019
15 „Self-supervised learning for medical image classification: a systematic review and implementation guidelines,“ Nature, 26.4.2023
16 „Momentum Contrast for Unsupervised Visual Representation Learning,“ arXiv, 13.11.2019 (zuletzt überarbeitet am 23.3.2020)
17 „Deep Projective Rotation Estimation through Relative Supervision,“ arXiv, 21.11.2022
18 „Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms,“ arXiv, 29.5.2021
19 „Masked Motion Encoding for Self-Supervised Video Representation Learning,“ The Computer Vision Foundation, Oktober 2022
20 „High-Resolution Image Synthesis with Latent Diffusion Models,“ arXiv, 20.12.2021 (zuletzt überarbeitet am 13.4.2022)
21 „DALL-E: Creating images from text,“ OpenAI, 5.1.2021