Was ist lineare Algebra für maschinelles Lernen?

Autor

Fangfang Lee

Developer Advocate

IBM

Was ist lineare Algebra für maschinelles Lernen?

Beim maschinellen Lernen (ML) beinhaltet die lineare Algebra die Verwendung mathematischer Operationen zur Darstellung und Bearbeitung von Daten, Parametern und Berechnungen innerhalb von ML-Modellen. Sie stellt die Sprache und die Werkzeuge bereit, um auszudrücken, wie Daten durch Modelle fließen und wie Modelle „lernen“.

Leistungsstarke moderne Algorithmen für maschinelles Lernen und generative KI basieren im Kern auf linearer Algebra. Ob es darum geht, ein neuronales Netz zu trainieren, ein Empfehlungssystem aufzubauen oder die Hauptkomponentenanalyse (PCA) auf einen komplexen und hochdimensionalen Datensatz anzuwenden – die Anwender nutzen die lineare Algebra, um umfangreiche Berechnungen durchzuführen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Warum lineare Algebra wichtig ist

Von den Anfängen bis zu den jüngsten Fortschritten im Bereich Deep Learning war lineare Algebra in der ML-Landschaft allgegenwärtig. Viele ML-Kernmodelle werden im Wesentlichen durch die Prinzipien der linearen Algebra ausgedrückt und gelöst. In der Praxis sind Daten selten eine einfache, einzelne Zahl; vielmehr liegen Daten oft in Form von Datensätzen vor: Sammlungen von oft unübersichtlichen Datenpunkten. Die lineare Algebra bietet die Werkzeuge, um diese Daten effizient zu organisieren, zu bearbeiten und zu analysieren.

Es ermöglicht Anwendern, Objekte wie Vektoren, Matrizen und Tensoren zu manipulieren, um strukturierte (oft tabellarische Daten) und unstrukturierte Daten wie Bilder oder Videos darzustellen. Diese scheinbar abstrakten Konzepte sind die Sprache der Daten für Informatik und Data Scientists. So kann beispielsweise ein Bild als Matrix von Pixelwerten dargestellt werden, und eine Sammlung von Funktionen, die ein Haus beschreiben (z. B. Umgebung, Alter und Quadratmeterzahl), können als Vektor in einem linearen Regressionsmodell dargestellt werden. Die lineare Regression modelliert die Ausgabe als lineare Kombination der Eingabefunktionen und ist damit ein klassisches Beispiel dafür, wie die lineare Algebra in der realen Welt funktioniert.  

Wichtige Konzepte der linearen Algebra

In den Bereichen maschinelles Lernen und Data Science ist die lineare Algebra das Rahmenwerk, das zum Beschreiben von und Arbeiten mit Daten verwendet wird. Sie erklärt, wie Zahlen angeordnet, kombiniert und transformiert werden – sei es die Multiplikation von Matrizen in einem Neural Network, die Suche nach Eigenwerten in der PCA oder die Reduzierung von Dimensionen mit Singular Value Decomposition (SVD).  

Datendarstellung und -manipulation

Auf ihrer grundlegendsten Ebene bietet die lineare Algebra die Werkzeuge, um Daten in strukturierter Form darzustellen und damit zu arbeiten. Die meisten Workflows für maschinelles Lernen beginnen mit der Organisation von Daten in numerischen Formaten, und jede Struktur – Skalar, Vektor, Matrix und Tensor – dient einem anderen Zweck.

  • Ein Skalar ist der einfachste Baustein, der ein einzelner numerischer Wert ist, wie 5 oder 2,3. Skalare repräsentieren oft Parameter, Skalierungsfaktoren oder einzelne Messungen.

  • Ein Vektor ist eine geordnete Anordnung von Zahlen, die normalerweise als Spalte oder Zeile geschrieben wird. Vektoren können alles darstellen, von einer Liste von Funktionen, die einen einzelnen Datenpunkt beschreiben, bis hin zu den Koordinaten einer Position im Raum. Der Vektor [3,5,7] könnte z. B. die Anzahl der Besuche, Käufe und Retouren eines Kunden darstellen.

  • Eine Matrix ist ein zweidimensionales Array von Zahlen, die in Zeilen und Spalten angeordnet sind. Ein Datensatz, bei dem jede Zeile ein Datenpunkt und jede Spalte eine Funktion ist, bildet auf natürliche Weise eine Matrix. Matrizen sind für die lineare Algebra von zentraler Bedeutung, da sie eine effiziente Speicherung von Daten ermöglichen. Operationen wie Skalarmultiplikation (jedes Element einer Matrix mit einer konstanten Zahl multiplizieren) und Matrixmultiplikation (Kombination zweier Matrizen, um eine Transformation anzuwenden oder Beziehungen zu berechnen) sind in Algorithmen allgegenwärtig.

  • Ein Tensor ist eine Verallgemeinerung von Skalaren, Vektoren und Matrizen auf höhere Dimensionen. Beispielsweise kann ein Farbbild als 3D-Tensor gespeichert werden, bei dem Höhe, Breite und Farbkanäle drei separate Achsen bilden. Im Deep Learning sind Tensoren die Standarddatenstruktur für die Eingabe von Informationen in neuronale Netze.

Das Skalarprodukt ist eine Möglichkeit, zwei Vektoren zu multiplizieren, um einen einzelnen Skalar zu erzeugen. Es wird häufig verwendet, um Ähnlichkeiten zwischen Vektoren zu berechnen, was ein entscheidender Schritt in vielen Empfehlungssystemen ist. Die Transposition einer Matrix, bei der die Zeilen und Spalten gespiegelt werden, ist eine weitere grundlegende Operation, die es ermöglicht, Dimensionen für die Multiplikation auszurichten und strukturelle Muster in Daten aufzudecken.

Die lineare Algebra ermöglicht es, komplexe Datensätze in einer Weise auszudrücken, die Algorithmen verstehen und verarbeiten können, und ermöglicht so die Konstruktion komplexer Modelle unter Verwendung einer Fülle von Datensätzen aus der realen Welt. 

A comparison chart illustrating scalar, vector, matrix, and tensor concepts. The image uses colorful numerical representations to differentiate each mathematical structure. Numbers such as '1', '2', '5', and '6' are clearly visible within the matrix and tensor examples.

Algorithmen verstehen

Viele Algorithmen für maschinelles Lernen basieren auf einem System linearer Gleichungen. Die lineare Regression ist ein einfacher, aber leistungsstarker Algorithmus, der zur Vorhersage kontinuierlicher Werte verwendet wird. Der Prozess der Suche nach der „besten“ Anpassungslinie oder -ebene, die den Fehler zwischen vorhergesagten und tatsächlichen Werten minimiert, läuft oft auf die Lösung eines Systems linearer Gleichungen hinaus. Bei der Vorhersage von Immobilienpreisen auf der Grundlage der Quadratmeterzahl und der Anzahl der Zimmer müssen beispielsweise Koeffizienten (Gewichtungen) gefunden werden, die Gleichungen wie diese erfüllen:

 price=w1*squarefootage+w2*numberofbedrooms+b

... wo  w1w2 und  b  die unbekannten Koeffizienten sind, nach denen aufgelöst werden soll. Dies kann mithilfe von Matrizen dargestellt und gelöst werden. Techniken wie die „kleinste Quadrate“ werden verwendet, um die Näherungslösungen für diese Systeme zu finden, wenn es keine exakte Lösung gibt, was bei realen, verrauschten Daten häufig der Fall ist. Mit anderen Worten, die Approximation einer Verlustfunktion wird als eine Sammlung linearer Gleichungen dargestellt, die mit Infinitesimalrechnung gelöst wurden.

Komplexere Algorithmen, wie sie in Deep Learning und neuronalen Netzen zu finden sind, verlassen sich stark auf Operationen wie massive Matrixmultiplikation, um Informationen durch verschiedene Schichten zu verarbeiten. Jede Schicht in einem neuronalen Netzwerk führt eine lineare Transformation auf ihre Eingabe durch, die im Wesentlichen eine Matrixtransformation ist, bei der der Eingabevektor mit einer Gewichtungsmatrix multipliziert wird. Dadurch kann das Netz komplexe Muster und Beziehungen innerhalb der Daten erlernen.

Reduzierung der Dimensionalität

Viele reale Datensätze enthalten eine große Anzahl von Funktionen (oder Variablen) für jeden Datenpunkt: manchmal Hunderte, Tausende oder sogar Millionen. Dies wird als hochdimensionale Daten bezeichnet. Obwohl man meinen könnte, dass mehr Merkmale die Modelle genauer machen, erschweren sie oft das Lernen. Hochdimensionale Daten können rechenintensiv, speicherintensiv und anfällig für Überanpassung sein, bei der ein Modell Rauschen speichert, anstatt sinnvolle Muster zu lernen.

Eine weitere Herausforderung ist der Fluch der Dimensionalität. Mit zunehmender Anzahl der Dimensionen werden Datenpunkte im Funktionsraum immer seltener, und der Begriff der „Nähe“ zwischen den Punkten verliert an Bedeutung. Diese Knappheit erschwert es Algorithmen, Zusammenhänge zuverlässig zu erkennen. Daher ist es entscheidend, die richtigen Werkzeuge zu haben, um die Anzahl der Funktionen zu reduzieren und die Signale aus dem Rauschen zu extrahieren. Dimensionsreduktion ist der Prozess der Umwandlung von Daten aus einem hochdimensionalen Raum in einen niedrigdimensionalen, wobei so viel wie möglich von der ursprünglichen Struktur und wichtigen Informationen erhalten bleiben. Durch die Verringerung der Anzahl der Funktionen können Anwender Modelle vereinfachen, die Generalisierung verbessern, Berechnungen beschleunigen und oft hilfreiche Datenvisualisierungen erstellen.

Die lineare Algebra ist die Grundlage vieler Dimensionsreduktionstechniken. Die Hauptkomponentenanalyse verwendet beispielsweise Konzepte wie Eigenwerte und Eigenvektoren, um neue Achsen (Hauptkomponenten) zu finden, die maximale Varianz in den Daten erfassen und ein aussagekräftiges Attribut im hochdimensionalen Datensatz darstellen. Durch die Projektion der Daten auf die ersten Hauptkomponenten behalten Anwender die wichtigsten Muster bei, während weniger nützliche Variationen verworfen werden.

Stellen Sie sich beispielsweise einen Datensatz vor, der Tausende von Kunden mit jeweils 100 verschiedenen Merkmalen (Alter, Einkommen, Ausgaben in verschiedenen Kategorien usw.) beschreibt. Die gleichzeitige Analyse aller 100 Merkmale wäre langsam und komplex, und viele von ihnen könnten redundant sein (zum Beispiel überschneidet sich das Interesse an „Sportausrüstung“ oft mit dem an „Outdoor-Ausrüstung“). PCA kann den Datensatz auf nur 2 oder 3 Komponenten reduzieren, die den größten Teil der Variation im Kundenverhalten zusammenfassen, was die Visualisierung und effizientere Ausführung nachgelagerter Algorithmen erleichtert.

Kurz gesagt, bei der Dimensionsreduktion werden komplexe Daten in ihre informativsten Teile zerlegt, und die lineare Algebra liefert die mathematische Maschinerie, um dies zu ermöglichen.

Hauptkomponentenanalyse

Eigenwerte, Eigenvektoren und Eigenzerlegung beschreiben zusammen die grundlegenden Verhaltensweisen einer linearen Transformation oder eines linearen Systems:

  • Eigenvektor: Stellen Sie sich eine lineare Transformation vor (wie das Strecken oder Drehen eines Vektorraums). Ein Eigenvektor einer quadratischen Matrix ist ein Vektor ungleich Null, der sich bei Anwendung dieser Transformation nur um einen Skalierungsfaktor ändert. Er ändert nicht seine Richtung. Es handelt sich um eine spezielle Richtung in den Daten, die unter der Transformation stabil bleibt.
  • Eigenwert: Dies ist der skalare Faktor, um den ein Eigenvektor skaliert wird. Er zeigt, wie stark der Eigenvektor während der Transformation gedehnt oder gestaucht wird. Bei der PCA entsprechen größere Eigenwerte den Hauptkomponenten, die mehr Varianz in den Daten erfassen.
  • Eigenwertzerlegung: Dies ist der Prozess der Zerlegung einer quadratischen Matrix in eine Menge ihrer Eigenvektoren und Eigenwerte. Wenn man für eine gegebene Matrix ihre Eigenvektoren und Eigenwerte finden kann, kann man daraus die ursprüngliche Matrix rekonstruieren. In der PCA ermöglicht die Eigenwertzerlegung der Kovarianzmatrix der Daten die Identifizierung der Hauptkomponenten (Eigenvektoren), die die Varianz in den Daten am besten darstellen, geordnet nach ihren entsprechenden Eigenwerten.

Eine weitere leistungsstarke Technik, die Singularwertzerlegung (SVD), spielt ebenfalls eine entscheidende Rolle bei der Dimensionsreduktion und ist grundlegend für Bereiche wie die Matrixfaktorisierung in Empfehlungssystemen. Obwohl sie mit der Eigenwertzerlegung verwandt ist, kann die CVD auf jede beliebige Matrix (nicht nur auf quadratische Matrizen) angewendet werden und bietet eine allgemeinere Möglichkeit, eine Matrix in ihre Bestandteile zu zerlegen, die zugrunde liegenden Strukturen freizulegen und die Dimensionen effektiv zu reduzieren. In Empfehlungssystemen hilft SVD beispielsweise dabei, eine Interaktionsmatrix zwischen Benutzer und Artikeln in niedrigdimensionale Matrizen zu zerlegen, die latenten Funktionen von Benutzern und Artikeln darstellen, die dann zur Vorhersage neuer Empfehlungen verwendet werden.

Optimierung

Viele ML-Modelle beinhalten Optimierungsprobleme, bei denen das Ziel darin besteht, die besten Parameter für ein Modell zu finden, die eine Fehlerfunktion minimieren oder eine Wahrscheinlichkeitsfunktion maximieren. Algorithmen wie der Gradientenabstieg, der häufig beim Trainieren von Neural Networks und anderen ML-Algorithmen verwendet wird, basieren auf linearer Algebra, um Gradienten (Vektoren, die in die Richtung des steilsten Anstiegs einer Funktion zeigen) zu berechnen und Modellparameter iterativ zu aktualisieren.

Optimierung zu verstehen bedeutet auch, die Eigenschaften der Matrizen zu verstehen, die in diese Berechnungen einfließen. An dieser Stelle werden Konzepte wie Determinante und Identitätsmatrix relevant. Die Determinante einer quadratischen Matrix ist eine einzelne Zahl, die entscheidende Informationen über die Matrix liefert. Beispielsweise bedeutet eine Determinante ungleich Null, dass die Matrix invertierbar ist (d. h. sie hat eine entsprechende Matrixinversions-Operation), was für die eindeutige Lösung linearer Gleichungssysteme entscheidend ist. Wenn die Determinante Null ist, hat das System möglicherweise keine eindeutige Lösung oder unendlich viele, was auf Probleme wie lineare Unabhängigkeit hinweist (bei denen ein Vektor in einer Menge als Linearkombination anderer ausgedrückt werden kann). Eine Identitätsmatrix (eine quadratische Matrix mit Einsen auf der Hauptdimension und Nullen an anderer Stelle) ist etwas Besonderes, denn wenn Sie eine beliebige Matrix mit der Identitätsmatrix multiplizieren, bleibt die ursprüngliche Matrix unverändert und verhält sich wie die Zahl „1“ bei der Skalarmultiplikation.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Werkzeuge und weitere Erkundung

Die gute Nachricht ist, dass ML-Praktiker diese komplexen Berechnungen nicht manuell durchführen müssen. Bibliotheken wie NumPy in Python bieten hochoptimierte Funktionen für all diese linearen Algebra-Konzepte und machen sie zum De-facto-Standard für numerische Berechnungen im maschinellen Lernen. Beispiel: numpy.linalg.eig() kann Eigenwerte und Eigenvektoren berechnen, und numpy.dot () kann Punktprodukte und Matrixmultiplikationen problemlos bewältigen. Frameworks wie TensorFlow (beliebt bei Deep Learning) nutzen ebenfalls stark die lineare Algebra unter der Oberfläche und abstrahieren die Details auf niedriger Ebene, damit sich die Benutzer auf die Erstellung von Modellen konzentrieren können.

Diese Einführung umreißt die lineare Algebra für maschinelles Lernen nur sehr grob. Konzepte wie lineare Transformation und Matrixtransformation beschreiben, wie Daten manipuliert und umgestaltet werden können, z. B. durch Drehen eines Bildes oder Skalieren seiner Funktionen. Das Verständnis von Matrizentypen wie der Identitätsmatrix (die Vektoren beim Multiplizieren unverändert lässt) und der orthogonalen Matrix (bei der die Umkehrung einfach die Transponierte ist, was die Berechnungen vereinfacht) ist ebenfalls von Vorteil. Während man in ML in der Regel nicht von Hand die Gaußsche Eliminierung (ein Algorithmus zur Lösung linearer Gleichungen) durchführt, zeigt das Verständnis der Prinzipien, wie diese Systeme rechnerisch gelöst werden. Die lineare Unabhängigkeit ist auch kritisch für das Verständnis der Einzigartigkeit von Lösungen und der Basis eines Vektorraums (der Menge aller möglichen Linearkombinationen einer Reihe von Vektoren).

Letztendlich ermöglicht ein solides Verständnis der Konzepte der linearen Algebra ML-Anwendern nicht nur, vorkonfigurierte ML-Algorithmen zu verwenden, sondern auch deren Funktionsweise wirklich zu verstehen, sie effektiv zu debuggen und sogar neuartige Lösungen zu entwickeln. Es ist das stille Arbeitstier, das ML seit Jahrzehnten vorantreibt und auch in Zukunft für die künstliche Intelligenz unverzichtbar bleiben wird.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen