Mein IBM

Anmelden

Was ist selbstüberwachtes Lernen?

5. Dezember 2023

Autoren

Dave Bergmann

Senior Writer, AI Models

IBM

Was ist selbstüberwachtes Lernen?

Selbstüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der unüberwachtes Lernen für Aufgaben verwendet wird, die normalerweise überwachtes Lernen erfordern. Anstatt sich auf gelabelte Datensätze für Überwachungssignale zu verlassen, erzeugen selbstüberwachte Modelle implizite Labels aus unstrukturierten Daten.

Selbstüberwachtes Lernen (SSL) ist besonders nützlich in Bereichen wie Computer Vision und Verarbeitung natürlicher Sprache (NLP), die große Mengen an gelabelten Daten erfordern, um modernste künstliche Intelligenz-Modelle (KI) zu trainieren. Da diese gelabelten Datensätze zeitaufwändig von menschlichen Experten kommentiert werden müssen, kann sich das Sammeln ausreichender Daten als äußerst schwierig erweisen. Selbstüberwachte Ansätze können zeit- und kosteneffizienter sein, da sie das manuelle Labeln von Trainingsdaten teilweise oder vollständig ersetzen.

Um ein Deep-Learning-Modell für Aufgaben zu trainieren, die Genauigkeit erfordern, wie z. B. Klassifizierung oder Regression, muss man in der Lage sein, die Ausgabevorhersagen des Modells für eine bestimmte Eingabe mit den „korrekten“ Vorhersagen für diese Eingabe zu vergleichen; das wird üblicherweise als Ground Truth bezeichnet. Normalerweise dienen manuell gelabelte Trainingsdaten als Ground Truth: Da diese Methode ein direktes menschliches Eingreifen erfordert, wird sie „überwachtes“ Lernen genannt. Beim selbstüberwachten Lernen sind die Aufgaben so konzipiert, dass die „Ground Truth“ aus nicht gelabelten Daten abgeleitet werden kann.

In SSL lassen sich Aufgaben in zwei Kategorien einteilen: Voraufgaben und nachgelagerte Aufgaben.In einer Voraufgabe wird SSL verwendet, um ein KI-System darauf zu trainieren, sinnvolle Darstellungen von unstrukturierten Daten zu lernen. Diese gelernten Repräsentationen können anschließend als Eingabe für eine nachgelagerte Aufgabe verwendet werden, z. B. eine überwachte Lernaufgabe oder eine Verstärkungslernaufgabe. Die Wiederverwendung eines vorab trainierten Modells für eine neue Aufgabe wird als „Transferlernen“ bezeichnet.

Selbstüberwachtes Lernen wird beim Training einer Vielzahl anspruchsvoller Deep-Learning-Architekturen für verschiedene Aufgaben eingesetzt, von transformatorbasierten großen Sprachmodellen (LLMs) wie BERT und GPT über Bildsynthesemodelle wie Variational Autoencoder (VAEs) und Generative Adversial Netzwerke (GANs) bis hin zu Computer-Vision-Modellen wie SimCLR und Momentum Contrast (MoCo).

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Abonnieren Sie noch heute

Selbstüberwachtes Lernen vs. überwachtes Lernen vs. unüberwachtes Lernen

Obwohl das selbstüberwachte Lernen technisch gesehen eine Untergruppe des unüberwachten Lernens ist (da es keine gelabelten Datensätze benötigt), ist es eng mit dem überwachten Lernen verwandt, da es die Leistung anhand einer Ground Truth optimiert.

Diese unvollkommene Übereinstimmung mit den beiden konventionellen Paradigmen des maschinellen Lernens führte dazu, dass die verschiedenen Techniken, die heute unter dem Begriff „selbstüberwachtes Lernen“ zusammengefasst werden, eine eigene Kategorisierung erhielten.

Die Prägung des Begriffs wird häufig Yann LeCun zugeschrieben, dem mit dem Turing-Preis ausgezeichneten Informatiker und Schlüsselfigur in der Entwicklung des Deep Learnings,¹ der es für notwendig erklärte, SSL von wirklich unüberwachtem Lernen (das er als „einen belasteten und verwirrenden Begriff“ bezeichnete) abzugrenzen.² Der Name (und das formale Konzept) haben ihren Ursprung möglicherweise in einer Veröffentlichung von Raina et al. aus dem Jahr 2007 mit dem Titel „Self-taught learning: Transfer learning from unlabeled data“.³ Einige Frameworks für maschinelles Lernen, die heute als SSL gelten, wie z. B. Autoencoder, sind einige Jahre älter als der Begriff selbst.

Selbstüberwachtes Lernen vs. unüberwachtes Lernen

Selbstüberwachtes Lernen ist eine Untergruppe des unüberwachten Lernens: Alle selbstüberwachten Lerntechniken sind unüberwachtes Lernen, aber die meisten unüberwachten Lernverfahren beinhalten keine Selbstüberwachung.

Weder unüberwachtes noch selbstüberwachtes Lernen verwenden Labels im Trainingsprozess: Beide Methoden lernen intrinsische Korrelationen und Muster in nicht gelabelten Daten statt extern auferlegter Korrelationen aus annotierten Datensätzen. Abgesehen von diesem gemeinsamen Fokus auf nicht gelabelte Daten spiegeln die Unterschiede zwischen selbstüberwachtem und unüberwachtem Lernen weitgehend die Unterschiede zwischen unüberwachtem und überwachtem Lernen wider.

Probleme, bei denen konventionelles unüberwachtes Lernen verwendet wird, messen die Ergebnisse nicht anhand einer bereits bekannten Ground Truth. Beispielsweise könnte ein unbeaufsichtigtes Assoziationsmodell eine E-Commerce-Empfehlungsmaschine antreiben, indem es lernt, welche Produkte häufig zusammen gekauft werden. Der Nutzen des Modells ergibt sich nicht aus der Replikation menschlicher Vorhersagen, sondern aus der Entdeckung von Korrelationen, die für menschliche Beobachter nicht offensichtlich sind.

Beim selbstüberwachten Lernen werden die Ergebnisse anhand einer Ground Truth gemessen, auch wenn diese implizit aus nicht gelabelten Trainingsdaten abgeleitet wird. Wie überwachte Modelle werden auch selbstüberwachte Modelle mit Hilfe einer Verlustfunktion optimiert: ein Algorithmus, der die Divergenz („Verlust“) zwischen der Ground Truth und den Modellvorhersagen misst. Während des Trainings verwenden selbstüberwachte Modelle den Gradientenabstieg während der Backpropagation, um die Modellgewichte so anzupassen, dass der Verlust minimiert wird (und damit die Genauigkeit verbessert).

Aufgrund dieses entscheidenden Unterschieds konzentrieren sich die beiden Methoden auf unterschiedliche Anwendungsfälle: Unüberwachte Modelle werden für Aufgaben wie Clustering, Anomalieerkennung und Dimensionalitätsreduzierung verwendet, die keine Verlustfunktion erfordern, wohingegen selbstüberwachte Modelle für Klassifizierungs- und Regressionsaufgaben verwendet werden, die für überwachtes Lernen typisch sind.

Selbstüberwachtes Lernen vs. überwachtes Lernen

Während überwachtes und selbstüberwachtes Lernen weitgehend für dieselben Aufgaben verwendet werden und beide eine Ground Truth benötigen, um die Leistung über eine Verlustfunktion zu optimieren, werden selbstüberwachte Modelle auf nicht gelabelten Daten trainiert. Beim überwachten Lernen hingegen werden gelabelte Datensätze für das Training benötigt.

Gelabelte Datensätze sind beim Modelltraining äußerst effektiv: Durch das Kommentieren von Trainingsdaten kann ein Modell direkt die wichtigsten Merkmale und Korrelationen lernen, die diese Anmerkungen widerspiegeln. Durch die Minimierung der Divergenz zwischen den Modellvorhersagen und den von Hand kommentierten „Vorhersagen“ menschlicher Experten während des Trainings lernen überwachte Modelle, korrekte Schlüsse über neue (nicht gelabelte) Eingabedaten zu ziehen.

Obwohl modernste überwachte Ansätze eine hohe Genauigkeit erzielen können, ist die Annotation großer Mengen von Trainingsdaten oft ein Engpass im Forschungsprozess. Beispielsweise muss bei Computer-Vision-Aufgaben wie der Instanzsegmentierung, die pixelspezifische Vorhersagen erfordern, die Annotation von Trainingsdaten auf Pixelebene erfolgen. Dies ist kostspielig und zeitaufwändig und schränkt sowohl die Menge der verfügbaren Trainingsdaten als auch die Möglichkeiten der meisten Unternehmen und Forscher ein, diese zu erhalten.

Im Gegensatz dazu verwenden selbstüberwachte Modelle verschiedene Techniken, um Überwachungssignale aus der Struktur der Eingabedaten selbst zu gewinnen und verzichten dabei völlig auf Labels. So können beispielsweise Teile eines Satzes nach dem Zufallsprinzip ausgeblendet (oder „maskiert“) und ein selbstüberwachtes Modell mit der Vorhersage der ausgeblendeten Wörter beauftragt werden, wobei der ursprüngliche (nicht gelabelte) Satz als Ground Truth dient.

Selbstüberwachtes vs. halbüberwachtes Lernen

Im Gegensatz zum selbstüberwachten Lernen, bei dem keine von Menschen gelabelten Daten verwendet werden, werden beim halbüberwachten Lernen sowohl gelabelte als auch nicht gelabelte Daten zum Trainieren von Modellen verwendet. Ein halbüberwachtes Modell könnte beispielsweise eine kleine Menge gelabelter Datenpunkte verwenden, um daraus die Labels für den Rest eines ansonsten nicht gelabelten Trainingsdatensatzes abzuleiten, und dann den gesamten Datensatz für das überwachte Lernen verwenden. Obwohl die Beweggründe ähnlich sind, da beide Ansätze den Bedarf an großen gelabelten Datensätzen beim überwachten Lernen umgehen, unterscheiden sich ihre jeweiligen Methoden.

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Die neuesten Podcast-Folgen ansehen

Wie funktioniert selbstüberwachtes Lernen?

Selbstüberwachte Lernaufgaben sind so konzipiert, dass eine Verlustfunktion nicht gelabelte Eingabedaten als Ground Truth verwenden kann. Dadurch kann das Modell genaue, aussagekräftige Darstellungen der Eingabedaten ohne Labels oder Anmerkungen lernen.

Das Ziel des selbstüberwachten Lernens besteht darin, den Bedarf an gelabelten Daten zu minimieren oder ganz zu ersetzen. Während gelabelte Daten relativ knapp und teuer sind, sind nicht gelabelte Daten reichlich vorhanden und relativ günstig. Im Wesentlichen liefern Voraufgaben „Pseudo-Labels“ aus nicht gelabelten Daten. Die Bezeichnung „Voraufgabe“ impliziert, dass die Trainingsaufgabe nicht (notwendigerweise) für sich selbst nützlich ist: Sie ist nur deshalb nützlich, weil sie Modellen Datenrepräsentationen beibringt, die für die Zwecke von nachgelagerten Aufgaben nützlich sind. Voraufgaben werden daher oft auch als Repräsentationslernen bezeichnet.

Modelle, die mit SSL trainiert wurden, werden oft für ihre spezifischen nachgelagerten Aufgaben fein abgestimmt: Diese Feinabstimmung beinhaltet oft echtes überwachtes Lernen (wenn auch mit einem Bruchteil der gelabelten Daten, die zum Trainieren eines Modells mit überwachtem Lernen allein benötigt werden).

Obwohl die SSL-Disziplin sowohl in der Methodik als auch in den Anwendungsfällen vielfältig ist, verwenden die mit SSL trainierten Modelle eine (oder beide) von zwei maschinellen Lerntechniken: vorausschauendes Lernen und kontrastives Lernen.

Vorausschauendes Lernen

Vorausschauende Lernmethoden, die auch als autoassoziatives selbstüberwachtes Lernen bezeichnet werden, trainieren ein Modell, das einen Teil eines einzelnen Datenmusters vorhersagt, wenn es Informationen über dessen andere Teile enthält. Modelle, die mit diesen Methoden trainiert wurden, sind in der Regel generative und nicht diskriminative Modelle.

Yann LeCun hat selbstüberwachte Methoden als eine strukturierte Praxis des „Ausfüllens der Lücken“ beschrieben. Im Großen und Ganzen beschrieb er den Prozess des Lernens sinnvoller Darstellungen aus der zugrundeliegenden Struktur von nicht gelabelten Daten mit einfachen Worten: „Tun Sie so, als gäbe es einen Teil der Eingabe, den Sie nicht kennen, und sagen Sie diesen voraus.“⁴ Zum Beispiel:

Sagen Sie einen beliebigen Teil der Eingabe aus einem anderen Teil voraus
Sagen Sie die Zukunft aus der Vergangenheit voraus
Sagen Sie das Maskierte aus dem Sichtbarenvoraus
Prognostizieren Sie alle verdeckten Teile aus allen verfügbaren Teilen

Selbstüberwachte Systeme, die auf diesen Philosophien aufbauen, nutzen häufig bestimmte Modellarchitekturen und Trainingstechniken.

Autoencoder

Ein Autoencoder ist ein neuronales Netzwerk, das darauf trainiert ist, Eingabe zu komprimieren (oder zu kodieren) und dann die ursprüngliche Eingabe mithilfe dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren). Sie sind darauf trainiert, Rekonstruktionsfehler zu minimieren, indem sie die ursprüngliche Eingabe selbst als Ground Truth verwenden.

Obwohl die Architekturen von Autoencodern variieren, führen sie in der Regel eine Form von Engpass ein: Während die Daten das Encodernetzwerk durchlaufen, wird die Datenkapazität jeder Schicht schrittweise reduziert. Dadurch wird das Netz gezwungen, nur die wichtigsten Muster zu lernen, die in den Eingabedaten verborgen sind – die so genannten latenten Variablen oder der latente Raum – sodass das Decoder-Netz die ursprüngliche Eingabe trotz der nun geringeren Informationen genau rekonstruieren kann.

Durch Änderungen an diesem Framework können Autoencoder nützliche Merkmale und Funktionen erlernen.

Denoising-Autoencoder erhalten teilweise verfälschte Eingabedaten und werden darauf trainiert, die ursprüngliche Eingabe wiederherzustellen, indem sie unbrauchbare Informationen („Rauschen“) entfernen. Dies reduziert die Überanpassung und macht solche Modelle für Aufgaben wie das Wiederherstellen beschädigter Eingabebilder und Audiodaten nützlich.
Während die meisten Autoencoder diskrete Modelle des latenten Raums kodieren, lernen Variational Autoencoder (VAEs) kontinuierliche Modelle des latenten Raums: Durch die Kodierung latenter Repräsentationen von Eingabedaten als Wahrscheinlichkeitsverteilung kann der Decoder neue Daten durch die Entnahme eines Zufallsvektors aus dieser Verteilung erzeugen.

Autoregression

Autoregressive Modelle verwenden früheres Verhalten, um zukünftiges Verhalten vorherzusagen. Sie gehen von der Logik aus, dass alle Daten mit einer inhärenten sequentiellen Ordnung – wie Sprache, Audio oder Video – mit Regression modelliert werden können.

Autoregressionsalgorithmen modellieren Zeitreihen-Daten mit dem/den Wert/en des/der vorherigen Zeitschritte/s, um den Wert des folgenden Zeitschritts vorherzusagen. Bei herkömmlichen Regressionsalgorithmen hingegen, wie sie beispielsweise für die lineare Regression verwendet werden, werden unabhängige Variablen verwendet, um einen Zielwert vorherzusagen (oder abhängige Variable). Bei der Autoregression sind die unabhängige und die abhängige Variable im Wesentlichen ein und dasselbe: Man spricht von einer Autoregression, da die Regression an der Variablen selbst durchgeführt wird.

Autoregression wird vor allem in kausalen Sprachmodellen wie GPT, LLaMa und Claude-Familien von LLMs verwendet, die bei Aufgaben wie Textgenerierung und Fragenbeantwortung hervorstechen. Beim Vortraining erhalten die Sprachmodelle den Anfang von Beispielsätzen aus nicht gelabelten Trainingsdaten und sollen das nächste Wort vorhersagen, wobei das „tatsächliche“ nächste Wort des Beispielsatzes als Ground Truth dient.

Maskierung

Eine weitere selbstüberwachte Lernmethode besteht darin, bestimmte Teile einer nicht gelabelten Datenprobe zu maskieren und Modelle mit der Vorhersage oder Rekonstruktion der fehlenden Informationen zu beauftragen. Verlustfunktionen verwenden die ursprüngliche Eingabe (vor der Maskierung) als Ground Truth. Maskierte Autoencoder sind beispielsweise eine Umkehrung der Denoising-Autoencoder: Sie lernen, fehlende Informationen vorherzusagen und wiederherzustellen, anstatt fremde Informationen zu entfernen.

Maskierung wird auch beim Training von maskierten Sprachmodellen verwendet: In Beispielsätzen werden zufällige Wörter ausgelassen und die Modelle werden darauf trainiert, diese zu ersetzen. Obwohl maskierte Sprachmodelle wie BERT (und die vielen darauf aufbauenden Modelle wie BART und RoBERTa) bei der Texterzeugung oft weniger geschickt sind als autoregressive Modelle, haben sie den Vorteil, dass sie bidirektional sind: Sie können nicht nur das nächste Wort vorhersagen, sondern auch frühere oder später in einer Sequenz gefundene Wörter. Dadurch eignen sie sich gut für Aufgaben, die ein ausgeprägtes kontextuelles Verständnis erfordern, wie Übersetzung, Zusammenfassung und Suche.

Vorhersage von inhärenten Beziehungen

Die Vorhersage einer inhärenten Beziehung trainiert ein Modell, um sein Verständnis einer Datenprobe beizubehalten, nachdem diese auf irgendeine Weise transformiert wurde; zum Beispiel das Drehen eines Eingabebilds und die Beauftragung eines Modells mit der Vorhersage des Änderungsgrades und der Drehrichtung relativ zur ursprünglichen Eingabe.⁵

Kontrastives Lernen

Kontrastive, selbstüberwachte Lernmethoden stellen Modellen mehrere Datenproben zur Verfügung und geben ihnen die Aufgabe, die Beziehung zwischen ihnen vorherzusagen. Bei den mit diesen Methoden trainierten Modellen handelt es sich in der Regel um diskriminative Modelle und nicht um generative Modelle.

Kontrastive Modelle arbeiten in der Regel mit Daten-Daten-Paaren für das Training, während autoassoziative Modelle mit Daten-Label-Paaren arbeiten (bei denen das Label selbst aus den Daten generiert wird). Anhand dieser Daten-Daten-Paare trainieren kontrastive Methoden Modelle, um zwischen ähnlichen und unähnlichen Dingen zu unterscheiden.

Diese Paare werden häufig durch Datenerweiterung erstellt, indem verschiedene Arten von Transformationen oder Störungen auf nicht gelabelte Daten angewendet werden, um neue Instanzen oder erweiterte Ansichten zu erstellen. Zu den gängigen Erweiterungstechniken für Bilddaten gehören beispielsweise Rotation, zufälliges Zuschneiden, Spiegeln, Rauschen, Filtern und Färben. Durch die Datenerweiterung wird die Datenvariabilität erhöht und das Modell verschiedenen Perspektiven ausgesetzt. Dadurch wird sichergestellt, dass das Modell lernt, aussagekräftige, dynamische semantische Darstellungen zu erfassen.

Instanzunterscheidung

Auf Instanzunterscheidung basierende Modelle gestalten das Training als eine Reihe von binären Klassifizierungsaufgaben: Unter Verwendung eines Datenmusters als Ziel (oder „Anker“) werden andere Datenmuster als „positiv“ (übereinstimmend) oder „negativ“ (nicht übereinstimmend) eingestuft.

In der Computer Vision beginnen solche Methoden – wie SimCLR oder MoCo – typischerweise mit einer Reihe nicht gelabelter Rohbilder und wenden eine zufällige Kombination von Transformationen an, um Paare (oder Sätze) erweiterter Bildbeispiele zu generieren. Jedes dieser erweiterten Bilder wird dann in eine Vektordarstellung kodiert, und eine kontrastive Verlustfunktion wird angewendet, um den Unterschied in den Vektordarstellungen zwischen positiven Übereinstimmungen – Paaren von erweiterten Bildern, die von demselben Originalbild abgeleitet sind – zu minimieren und den Unterschied zwischen negativen Übereinstimmungen zu maximieren.

Instanzunterscheidungsmethoden trainieren daher Modelle, um Repräsentationen verschiedener Kategorien zu erlernen, die dank zufälliger Datenergänzungen robust gegenüber trivialen Variationen (wie Farbe, Perspektive oder sichtbare Teile in einem bestimmten Bild) sind. Diese Darstellungen lassen sich daher sehr gut auf nachgelagerte Aufgaben verallgemeinern.

Nicht-kontrastives Lernen

Etwas kontraintuitiv bezieht sich „nicht-kontrastives Lernen“ auf eine Methode, die eng mit dem kontrastiven Lernen verwandt ist (und ist nicht, wie man vermuten könnte, ein allgemeiner Sammelbegriff für Methoden, die nicht zum kontrastiven Lernen gehören). Die Modelle werden nur mit positiven Paaren trainiert und lernen, den Unterschied zwischen ihren Darstellungen zu minimieren – daher sind sie nicht-kontrastiv.

Im Vergleich zum kontrastiven Lernen sind nicht-kontrastive Ansätze relativ einfach: Da sie nur mit positiven Mustern arbeiten, benötigen sie kleinere Batch-Größen für Trainingsepochen und keine Speicherbank für negative Muster. Dies spart Speicher und Rechenkosten während des Vortrainings.

Nicht-kontrastive Modelle wie Bootstrap Your Own Latent (BYOL)⁶ und Barlow Twins⁷ haben Ergebnisse erzielt, die mit denen von kontrastiven und rein überwachten Ergebnissen konkurrieren.

Multimodales Lernen

Bei gegebenen Datenpunkten unterschiedlicher Art – Modalitäten – können kontrastive Methoden die Zuordnung zwischen diesen Modalitäten lernen. Contrastive Language-Image Pre-training (CLIP) beispielsweise trainiert gemeinsam einen Bild- und einen Text-Encoder, um vorherzusagen, welche Bildunterschrift zu welchem Bild passt, wobei Millionen von leicht verfügbaren, nicht gelabelten (Bild, Text) Paaren aus dem Internet verwendet werden. Nach dem Vortraining wird die Verarbeitung natürlicher Sprache (NLP) verwendet, um die im Training erlernten visuellen Konzepte zu referenzieren (oder sogar um neue visuelle Konzepte zu beschreiben), was CLIP-trainierte Modelle für eine Vielzahl von Anwendungen zum Transferlernen äußerst nützlich macht.

Kontrastives Lernen wurde auch verwendet, um Ausrichtungen zwischen Video und Text,⁸ Video und Audio,⁹ sowie Sprache und Text zu lernen.¹⁰

Anwendungsfälle für selbstüberwachtes Lernen

Selbstüberwachtes Lernen wurde zum Vortraining von künstlichen Intelligenz-Modellen für ein breites Spektrum von Aufgaben und Disziplinen verwendet.

Selbstüberwachtes Lernen für NLP

Innerhalb eines Jahres nach seiner Einführung im Jahr 2018 implementierte Google das maskierte BERT-Sprachmodell als NLP-Engine für gerankte und angezeigte Snippets in der Suche.¹¹ Seit 2023 nutzt Google weiterhin die BERT-Architektur, um seine realen Suchanwendungen zu betreiben.¹²

Die LLaMa-, GPT- und Claude-Familien von LLMs sind autoregressive Sprachmodelle. GPT3 wurde in erster Linie mit selbstüberwachtem Lernen trainiert; InstructGPT und die nachfolgenden GPT-3.5-Modelle, die zum Start von ChatGPT verwendet wurden, haben die vortrainierten Modelle mit Hilfe von Verstärkungslernen mit menschlichem Feedback (RLHF) feinabgestimmt.

Autoregressive Modelle werden auch für audiobasierte NLP-Aufgaben wie Speech to Text- und Text to Speech-Modelle wie WaveNet verwendet.¹³ Facebook (Meta) verwendet wav2vec für die Spracherkennung, wobei zwei übereinander gestapelte, tiefe konvolutionale neuronale Netze verwendet werden, um die rohe Audioeingabe in eine Vektordarstellung zu übertragen. Beim selbstüberwachten Vortraining werden diese Vektoren als Eingaben für vorausschauende Aufgaben verwendet.¹⁴

Selbstüberwachtes Lernen für Computer Vision

Selbstüberwachtes Lernen ist eine schnell wachsende Untergruppe von Deep-Learning-Techniken für die medizinische Bildgebung, für die fachmännisch kommentierte Bilder relativ selten sind. In PubMed, Scopus und ArXiv stiegen die Veröffentlichungen, die sich auf die Verwendung von SSL für die Klassifizierung medizinischer Bilder beziehen, von 2019 bis 2021 um über 1.000 Prozent.¹⁵

SSL-basierte Methoden können häufig die Genauigkeit von Modellen, die mit vollständig überwachten Methoden geschult wurden, erreichen oder übertreffen. Beispielsweise übertraf das ursprüngliche MoCo überwachte Modelle bei sieben Objekterkennungs- und Bildsegmentierungsaufgaben in den PASCAL-, VOC- und COCO-Datensätzen.¹⁶ Bei einer Feinabstimmung mit gelabelten Daten für nur ein Prozent aller Trainingsdaten haben mit SSL vorab trainierte Modelle eine Genauigkeit von über 80 Prozent im ImageNet-Datensatz erreicht. Dies kann mit der Leistung von Benchmark-Modellen für überwachtes Lernen wie ResNet50 mithalten.

Die Fähigkeit, eine erfolgreiche Objekterkennung und Bildsegmentierung trotz Änderungen der Objektausrichtung aufrechtzuerhalten, ist für viele Robotertechnikaufgaben unerlässlich. Selbstüberwachtes Lernen wurde als wirksame Methode vorgeschlagen, um Computer-Vision-Modellen beizubringen, Rotationen zu verstehen, ohne zeitintensive Sammlung gelabelter Daten.^{17 18}

Maskierung wurde verwendet, um Modellen beizubringen, die Bewegungsbahn in Videos zu verstehen.¹⁹

Selbstüberwachtes Lernen für Bildverarbeitung und Bildsynthese

Denoising-Autoencoder sind ein wesentlicher Bestandteil beim Training einiger hochmoderner Bildsynthesemodelle wie Stable Diffusion.²⁰

Die autoregressive Modellierung wurde für die Bildsynthese in Modellen wie PixelRNN und PixelCNN verwendet. Der Erfolg von PixelCNN führte dazu, dass es zur Grundlage für WaveNet wurde.

Konvolutionale Autoencoder werden für eine Vielzahl von Bildverarbeitungsaufgaben wie Inpainting und die Einfärbung von Graustufenbildern verwendet.

Variational Autoencoder (VAEs) sind ein wichtiges Werkzeug für die Bildsynthese. Das ursprüngliche DALL-E-Modell von OpenAI verwendete eine VAE zum Generieren von Bildern. Sowohl DALL-E 1 als auch DALL-E 2 verwenden CLIP für die Übersetzung natürlicher Spracheingaben in visuelle Informationen.²¹

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Überwachte Lernmodelle

Entdecken Sie beaufsichtigte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren.

Praktische Anwendung von generativer KI

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Fußnoten

¹ „Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award“, Association for Computing Machinery, 27. März 2019
² Facebook, Yann LeCun, 30. April 2019
³ „Self-taught learning: transfer learning from unlabeled data“, Proceedings of the 24th international conference on machine learning, 20. Juni 2007
⁴ Lecture: Energy based models and self-supervised learning, YouTube, Upload 2020
⁵ „Learning to see by moving“, arXiv, 14. Sep. 2015
⁶ „Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning“, arXiv, 10. Sep. 2020
⁷ „Barlow Twins: Self-Supervised Learning via Redunancy Reduction“, arXiv, 14. Juni 2021
⁸ „VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding“, arXiv, 1. Okt. 2021
⁹ „Active Contrasting Learning of Audio-Visual Video Representations“, Proceedings of the International Conference on Learning Representations, 2021
¹⁰ „Cross-modal Contrastive Learning for Speech Translation“, arXiv, 5. Mai 2022
¹¹ „Understanding searches better than ever before“, Google, 25. Okt. 2019
¹² „End-to-End Query Term Weighting“, Google, 2023
¹³ „WaveNet: A Generative Model for Raw Audio“, arXiv, 19. Sep. 2016
¹⁴ „Wave2vec: State-of-the-art speech recognition through self-supervision“, Meta, 19. Sep. 2019
¹⁵ „Self-supervised learning for medical image classification: a systematic review and implementation guidelines“, Nature, 26. April 2023
¹⁶ „Momentum Contrast for Unsupervised Visual Representation Learning“, arXiv, 13. Nov. 2019 (letzte Überarbeitung 23. März 2020)
¹⁷ „Deep Projective Rotation Estimation through Relative Supervision“, arXiv, 21. Nov. 2022
¹⁸ „Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms“, arXiv, 29. Mai 2021
¹⁹ „Masked Motion Encoding for Self-Supervised Video Representation Learning“, The Computer Vision Foundation, Okt. 2022
²⁰ "„High-Resolution Image Synthesis with Latent Diffusion Models“, arXiv, 20. Dez. 2021 (letzte Überarbeitung 13. April 2022)
²¹ EDALL-E: „Creating images from text“, OpenAI, 5. Jan. 2021