Was ist latenter Raum?

Autoren

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Was ist latenter Raum?

Ein latenter Raum beim maschinellen Lernen (ML) ist eine komprimierte Darstellung von Datenpunkten, bei der nur die wesentlichen Merkmale erhalten bleiben, die die zugrunde liegende Struktur der Daten bestimmen. Die effektive Modellierung des latenten Raums ist ein integraler Bestandteil des Deep Learning, einschließlich der meisten generativen KI-Algorithmen (GenAI).

Durch die Abbildung von Datenpunkten auf den latenten Raum lassen sich komplexe Daten effizient und aussagekräftig ausdrücken. So wird die Fähigkeit von Modellen des maschinellen Lernens, die Daten zu verstehen und zu verarbeiten, verbessert und gleichzeitig der Rechenaufwand verringert. Zu diesem Zweck ist mit der Kodierung latenter Raumdarstellungen in der Regel ein gewisses Maß an Reduzierung der Dimensionalität verbunden: die Komprimierung hochdimensionaler Daten auf einen niedrigdimensionalen Raum, bei dem irrelevante oder redundante Informationen weggelassen werden.

Latente Räume spielen in vielen Bereichen der Data Science eine wichtige Rolle. Zudem ist die Kodierung latenter Räume ein wesentlicher Schritt in vielen modernen Algorithmen der künstlichen Intelligenz (KI). Beispielsweise berechnen alle generativen Modelle wie Variational Autoencoder (VAEs) und Generative Adversarial Networks (GANs) den latenten Raum von Trainingsdaten, um dann daraus durch Interpolation neue Datenproben zu generieren. Computer-Vision-Modelle, die für Klassifizierungsaufgaben wie Objekterkennung oder Bildsegmentierung trainiert wurden, ordnen Eingabedaten dem latenten Raum zu, um die Eigenschaften zu isolieren, die für genaue Vorhersagen relevant sind.

Große Sprachmodelle (LLMs), von Einbettungsmodellen, die eine semantische Suche ermöglichen, bis hin zu autoregressiven Modellen wie IBM Granite™ oder solchen, die ChatGPT von OpenAI unterstützen, manipulieren den latenten Raum, um komplexe Verbindungen zwischen verschiedenen Wörtern in bestimmten Kontexten zu untersuchen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Was bedeutet „latenter Raum“?

Das Wort Raum hat im Kontext des maschinellen Lernens eine vielfältigere Bedeutung als im allgemeinen Sprachgebrauch. Im Großen und Ganzen bezieht sich ein „Raum“ in ML auf einen bestimmten Modus der Abbildung, des Vergleichs oder der Probenahme von Datenpunkten. Beispielsweise:

  • Der „Eingaberaum ist die Bandbreite der in den Eingabedaten enthaltenen Möglichkeiten.
  • Der „Ausgaberaum ist die Bandbreite an Möglichkeiten für die Ausgabe des Modells.
  • Bei Bilddaten ist der „Pixelraum der Bereich der Möglichkeiten für numerische Pixelwerte.
  • Beim verstärkenden Lernen ist der „Aktionsraum“ die Reihe möglicher Aktionen, die als nächstes ergriffen werden könnten, z. B. die legalen Züge, die zu einem bestimmten Zeitpunkt in einem Brettspiel verfügbar sind.

Mathematisch gesehen wird ein Raum in erster Linie durch das definiert, was seinen Dimensionen entspricht, d. h. welche Merkmale– also Variablen – zur Beschreibung von Datenpunkten in diesem Raum verwendet werden. Werden Datenpunkte einem bestimmten Raum zugeordnet, werden Datenpunkte mit ähnlichen Werten für die Variablen, die den Raum definieren, aufgrund einer Metrik wie Kosinusähnlichkeit, euklidischer Distanz oder Skalarprodukt einander ähnlich oder nahe beieinander sein. 

Beim maschinellen Lernen müssen Datenpunkte numerisch dargestellt werden. Am häufigsten werden Datenpunkte als Vektoren dargestellt (oder „eingebettet“). Den Raum, in dem Datenpunkte durch ihre Vektordarstellungen verglichen werden, bezeichnen wir daher als den „Vektoreinbettungsraum“ (oderEinbettungsraum“). Die numerischen Darstellungen, in denen jedes Element im Vektor einer individuellen Dimension des Einbettungsraums entspricht, werden Vektoreinbettungen genannt. Algorithmen für maschinelles Lernen verwenden in der Regel entweder Vektoreinbettungen als Eingabe oder beginnen mit der Konvertierung von Eingabedaten in Vektoreinbettungen.

Merkmalsraum vs. latenter Raum

Der Merkmalsraum ist der Vektorraum, der nicht mit dem Bereich der Möglichkeiten für Datenpunkte, sondern für die Werte aussagekräftiger Merkmale, die eine bestimmte Gruppe von Datenpunkten charakterisieren könnten, verbunden ist. Bei Modellen, die Bilddaten verarbeiten, kann zum Beispiel jede Dimension des Merkmalsraums bestimmten Formen, Texturen oder Farbmustern entsprechen, die in den Trainingsdaten des Modells vorhanden sind.

Der Merkmalsraum lässt in der Regel Informationen aus Dimensionen des Einbettungsraums aus, die keine Merkmale enthalten. Um das Beispiel der Bilddaten fortzufahren, würde der Merkmalsraum Hintergründe oder leeren Raum ausschließen. Der Prozess der Isolierung bedeutsamer Merkmale aus dem größeren Einbettungsraum wird als Merkmalsextraktion bezeichnet.

„Merkmalsraum“ und „latenter Raum“ werden häufig synonym verwendet, sind aber nicht immer gleichbedeutend. Da die Merkmalsextraktion in der Regel eine komprimierte Darstellung von Daten beinhaltet, bei der nicht nützliche Informationen weggelassen werden, sind die Konzepte eng miteinander verbunden. Einige Merkmale sind jedoch möglicherweise nicht unbedingt für die zugrunde liegende Struktur der Daten relevant. Daher ist der latente Raum in der Regel eine niedrigdimensionale Darstellung des Merkmalsraums, der nur die Teilmenge der Merkmale enthält, die durch maschinelles Lernen als für die jeweilige Aufgabe am relevantesten identifiziert werden.

Was bedeutet „latent“ beim maschinellen Lernen?

In einem latenten Raum entspricht jede Dimension einer latenten Variablen der ursprünglichen Daten. Latente Variablen sind zugrundeliegende Merkmale, die Aufschluss über die Art und Weise der Datenverteilung geben, aber häufig nicht direkt beobachtbar sind. 

Stellen Sie sich als anschauliches Beispiel eine Brücke mit einem Sensor vor, der das Gewicht jedes vorbeifahrenden Fahrzeugs misst. Viele verschiedene Fahrzeuge, vom leichten Cabrio bis zum schweren Lastwagen, befahren die Brücke, doch es gibt keine Kamera zur Erkennung des Fahrzeugtyps. Dennoch wissen wir, dass der Fahrzeugtyp maßgeblichen Einfluss auf das Gewicht hat. In diesem Beispiel ist das Fahrzeuggewicht eine beobachtbare Variable und der Fahrzeugtyp eine latente Variable: Durch die Untersuchung von Mustern im Fahrzeuggewicht können wir Rückschlüsse darauf ziehen, welche Fahrzeugtypen die Brücke befahren.

Da nicht jede „versteckte“ Variable wichtig ist, wird daher nicht jede verborgene Variable in dem latenten Raum dargestellt, der von einem maschinellen Lernmodell kodiert wird. In der Praxis lernt das Modell, den latenten Raum zu kodieren, der für die genaue Ausführung der Aufgabe, für die es trainiert wird, am förderlichsten ist.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Reduzierung von latentem Raum und Dimensionalität

Die Kodierung einer Latenzraumdarstellung beinhaltet in der Regel die Komprimierung von hochdimensionalen Daten in einen niedrigdimensionalen Raum durch einen Prozess, der als Reduzierung der Dimensionalität bezeichnet wird.

Betrachten Sie die Bilder in MNIST, einem Open-Source-Datensatz mit Zehntausenden von 28 x 28 Graustufenbildern handgeschriebener Ziffern. Jedes kleine 28 x 28-Bild könnte als eine 784-dimensionale Vektoreinbettung dargestellt werden, wobei jede Dimension einem einzelnen Pixel entspricht und einen Wert zwischen 0 (für Schwarz) und 1 (für Weiß) aufweist. Würde es sich um Farbbilder handeln, hätten diese Vektoreinbettungen Dimensionn von 2.352: 3 Dimensionen für jedes der 784 Pixel, entsprechend den jeweiligen Rot-, Grün- und Blauwerten (RGB).

Die tatsächlichen Ziffern machen jedoch nur einen Bruchteil der Pixelfläche aus. Der größte Teil des Bildes besteht aus leerem Hintergrund. Durch die Reduzierung von Bildern (und den sie darstellenden Vektoren) auf nur die Dimensionen, die die tatsächlichen Informationen enthalten – den latenten Raum– kann die Fähigkeit eines maschinellen Lernmodells, die Bilder genau und effizient zu verarbeiten, erheblich verbessert werden.

Autoencoder (und andere Encoder-Decoder-Frameworks)

Eine Art von neuronaler Netzarchitektur, die speziell für die Reduzierung der Dimensionalität und die Komprimierung von Eingabedaten in einen latenten Raum entwickelt wurde, ist der Autoencoder.

Autoencoder sind selbstüberwachte Systeme, deren Trainingsziel darin besteht, Eingabedaten durch Reduzierung der Dimensionalität zu komprimieren (oder zu kodieren) und dann ihre ursprüngliche Eingabe genau aus dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren). In einem Standard-Autoencoder enthält jede Ebene des Encoders zunehmend weniger Knoten als die vorherige Ebene. Wenn die Vektoreinbettung der Eingabedaten an die nächste Encoderebene weitergegeben wird, werden sie durch den Prozess des „Stauchens“ in weniger Dimensionen komprimiert. Das Decoder-Netzwerk rekonstruiert dann die ursprüngliche Eingabe, indem es nur den vom Encoder erzeugten latenten Vektor verwendet.

Autoencoder werden auf die Minimierung des Rekonstruktionsverlustes trainiert, der angibt, wie stark die Rekonstruktion des Decoders von der ursprünglichen Eingabe abweicht. Da der Encoder nur eine begrenzte Menge an Informationen an den Decoder weitergeben kann, ist er zur Extraktion nur der wichtigsten Merkmale der Daten gezwungen. Das heißt, ein Autoencoder lernt auf natürliche Weise eine effektive Abbildung des latenten Raums der Eingabedaten.

Diagramm eines Autoencoder-basierten neuronalen Netzes

Diese Fähigkeit bietet Autoencodern neben der Datenkomprimierung viele interessante Anwendungsfälle. Zum Beispiel können Autoencoder für die Erkennung von Anomalien verwendet werden, da sie Auffälligkeiten registrieren können, die für einen menschlichen Beobachter nicht sichtbar sind. Stellen Sie sich eine gefälschte Uhr vor: Selbst für ein geschultes Auge könnte sie dem echten Objekt perfekt ähneln. Nur wenn man sie zerlegt und versucht, die zugrundeliegenden Zahnräder und die Mechanik im Inneren zu rekonstruieren, d. h. ihren latenten Raum, lassen sich Elemente erkennen, die nicht mit denen der echten Uhr, die sie kopiert, übereinstimmen. 

Ein Hauptvorteil von Autoencodern gegenüber anderen Algorithmen zur Reduzierung der Dimensionalität, z. B. der linearen Diskriminanzanalyse oder der Hauptkomponentenanalyse (Principal Component Analysis, PCA), besteht darin, dass Autoencoder nichtlineare Beziehungen zwischen verschiedenen Variablen modellieren können.

Viele andere neuronale Netze verwenden eine ähnliche Encoder-Decoder-Architektur, bei der das Encoder-Netz die Dimensionalität der Eingabedaten reduziert und der Decoder diese latente Kodierung zur Erstellung von Vorhersagen verarbeitet. Ein Autoencoder ist eine beliebige Implementierung dieser Struktur, bei der das Modell auf die Rekonstruktion von Eingabedaten trainiert wird.

Latenter Raum in Variational Autoencoders (VAEs) und anderen generativen Modellen

Variational Autoencoders (VAEs) verwenden die Autoencoder-Architektur zur Kodierung des latenten Raums in einer Weise, die für generative Aufgaben wie die Bildgenerierung verwendet werden kann.

Im Gegensatz zu den meisten Autoencodern, bei denen es sich um „deterministische“ Modelle handelt, die einen einzelnen Vektor diskreter Werte für jede latente Variable der Trainingsdaten kodieren, sind VAES „probabilistische“ Modelle, die den latenten Raum als einen Bereich von Möglichkeiten kodieren. Durch Interpolation aus diesem Bereich der kodierten Möglichkeiten können VAEs neue Datenproben synthetisieren, die zwar einzigartig und originell sind, aber den ursprünglichen Trainingsdaten ähneln.

Um die Generierung völlig neuer Datenmuster zu ermöglichen (anstatt einfach nur Stichproben aus Trainingsdaten neu zu erstellen oder zu kombinieren), muss der latente Raum zwei Arten der Regelmäßigkeit aufweisen:

  • Kontinuität: Nahe gelegene Punkte im latenten Raum sollten bei der Dekodierung ähnliche Inhalte liefern.
  • Vollständigkeit: Jeder Punkt, der aus dem latenten Raum entnommen wird, sollte bei der Dekodierung aussagekräftige Inhalte liefern.

Eine einfache Möglichkeit zur Erzwingung von Kontinuität und Vollständigkeit im latenten Raum ist die Normalverteilung (Gaußsche Verteilung). Daher kodieren VAEs 2 verschiedene Vektoren für jedes latente Attribut von Trainingsdaten: einen Mittelwertvektor, „μ“ und einen Vektor der Standardabweichungen, „σ“. Im Wesentlichen stellen diese 2 Vektoren den Bereich der Möglichkeiten für jede latente Variable und die erwartete Varianz innerhalb jedes Bereichs von Möglichkeiten dar. 

VAEs erreichen dies durch Hinzufügen einer zusätzlichen Verlustfunktion neben dem Rekonstruktionsverlust: Kullback-Leibler-Divergenz (oder KL-Divergenz). Genauer gesagt wird die VAE so trainiert, dass die Divergenz zwischen einer Standard-Gauß-Verteilung und dem erlernten latenten Raum durch Minimierung des Rekonstruktionsverlustes minimiert wird.

Diagramm zur Demonstration des Rekonstruktionsverlusts und der KL-Divergenz in Autoencodern

Latenter Raum in anderen Bildgenerierungsmodellen

Andere Modellarchitekturen für die Bildgenerierung verwenden zwar andere Trainingsziele als den Rekonstruktionsverlust, aber sie verwenden in der Regel Regularisierungsbedingungen zur Erzwingung der Kontinuität und Vollständigkeit des latenten Raums. Die meisten, aber nicht alle, passen den latenten Raum an eine Normalverteilung an.

Generative Adversarial Networks (GANs)

Generative Adversarial Networks (GANs) trainieren 2 neuronale Netze – ein „Diskriminator“-Netzwerk und ein Generatornetzwerk – in einem adversarischen Spiel. Dem Diskriminator wird ein Bild gezeigt und er wird darauf trainiert, vorherzusagen, ob es sich um ein Originalbild oder um ein Bild aus dem Trainingsdatensatz handelt. Der Generator wird so trainiert, dass er den Diskriminator überlistet, indem er aus dem latenten Raum Stichproben zur Generierung von Originalproben nimmt.

Der Generator gilt als trainiert, wenn der Diskriminator nicht mehr in der Lage ist, zwischen Trainingsbildern und generierten Bildern zu unterscheiden.

Latente Diffusionsmodelle

Latente Diffusionsmodelle, die zuerst durch das ursprüngliche Modell der stabilen Diffusion eingeführt wurden, kombinieren im Wesentlichen Diffusionsmodelle mit VAEs. Während Standard-Diffusionsmodelle direkt auf den Pixelraum einwirken, verwenden latente Diffusionsmodelle zunächst eine VAE-ähnliche Architektur zur Kodierung der Eingabedaten in eine niedrigdimensionale latente Darstellung und wenden dann Diffusion auf den latenten Raum an. Diese Innovation hat die Geschwindigkeit und Effizienz von Diffusionsmodellen erheblich erhöht.

Visualisierung des latenten Raums

Die Beziehungen zwischen verschiedenen Datenpunkten im latenten Raum sind von Natur aus schwer vorstellbar oder zu visualisieren. Unsere Sinne und Erfahrungen sind auf ein dreidimensionales Verständnis der Welt beschränkt. Daher kann sich unser Verstand kein Diagramm vorstellen, das Punkte entlang von Dutzenden, Hunderten oder sogar Tausenden von Dimensionen darstellt.

Um dieser Herausforderung zu begegnen, wenden Data Scientists Techniken zur Reduzierung der Dimensionalität wie T-verteilte stochastische Nachbareinbettung (t-SNE) oder Uniform Manifold Approximation and Projection (UMAP) an. Diese in der Datenvisualisierung weit verbreiteten Techniken bilden hochdimensionale Daten in einem 2-dimensionalen (oder 3-dimensionalen) Diagramm ab, in dem ähnliche Objekte nahe beieinander und unähnliche Objekte weit voneinander entfernt sind. Die Visualisierung des latenten Raums einer VAE, die weiter oben in diesem Artikel vorgestellt wurde, wurde zum Beispiel mit t-SNE erstellt.

Die Forschung im Bereich der Bildmodelle hat auch interessante Erkenntnisse über die Natur des latenten Raums ergeben, die zu Fortschritten bei der Manipulation des latenten Raums für generative Modelle beigetragen haben. Der viel zitierte Artikel „Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks“ untersuchte beispielsweise Techniken wie das Rechnen mit latenten Vektoren zur intuitiven Generierung neuer Bilder mit bestimmten Eigenschaften.

Latenter Raum in der Verarbeitung natürlicher Sprache (NLP)

Genauso wie Vektoreinbettungen für Bilder auf die Darstellung der Daten abzielen, die sich aus der ursprünglichen Verteilung der Pixelwerte eines Bildes ergeben, zielen Worteinbettungen auf die Erfassung der semantischen Bedeutung eines bestimmten Wortes ab.

Im Gegensatz zu einem Bild ist die semantische Bedeutung eines Wortes jedoch nicht statisch: Sie ist dynamisch, mit Konnotationen und Beziehungen, die sich durch die Wörter, die es umgeben, verändern können. Daher verwenden Transformer-Modelle einen Selbstbeobachtungs-Mechanismus, um zu berechnen, wie sich der Kontext auf die Bedeutung eines Wortes auswirkt, und seine Einbettung entsprechend zu aktualisieren. Zwischen der Eingabeebene, die einen Prompt aufnimmt, und der Ausgabeebene, in der neuer Text generiert wird, werden die ursprünglichen Worteinbettungen in eine Reihe latenter Darstellungen umgewandelt, während das Modell sein kontextuelles Verständnis kontinuierlich verfeinert.

Obwohl sich das Innenleben von großen Sprachmodellen (LLMs) bisher als ziemlich schwierig zu interpretieren erwiesen hat, hat die laufende Forschung die Aktivierung des latenten Raums beim kontextbezogenen Lernen und andere entstehende Fähigkeiten von LLMs untersucht.1, 2

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten

1 "Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning," Proceedings of the 37th Conference on Neural Information Processing Systems (NeurIPS 2023), Dezember 2023.

2 „A Latent Space Theory for Emergent Abilities in Large Language Models“, arXiv, 13. September 2023.