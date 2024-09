Algorithmen für maschinelles Lernen lassen sich in fünf große Kategorien einteilen: überwachtes Lernen, unüberwachtes Lernen, halbüberwachtes Lernen, selbstüberwachtes Lernen und bestärkendes Lernen.

1. Überwachtes maschinelles Lernen

Überwachtes maschinelles Lernen ist eine Art maschinelles Lernen, bei dem das Modell in einem beschrifteten Dataset geschult wird (d. h. die Ziel- oder Ergebnisvariable ist bekannt). Wenn Data Scientists beispielsweise ein Modell für das Forecasting von Tornados erstellen, könnten die Eingabevariablen Datum, Ort, Temperatur, Windströmungsmuster und mehr umfassen, und die Ausgabe wäre die tatsächliche Tornadoaktivität, die für diese Tage aufgezeichnet wurde.

Überwachtes Lernen wird häufig für die Risikobewertung, Bilderkennung, Vorhersageanalysen und Betrugserkennung eingesetzt und umfasst mehrere Arten von Algorithmen.

Regressionsalgorithmen – Vorhersage von Ausgabewerten durch Identifizierung linearer Beziehungen zwischen realen oder kontinuierlichen Werten (z. B. Temperatur, Gehalt). Zu den Regressionsalgorithmen gehören die lineare Regression, Random Forest und Gradient Boosting sowie andere Untertypen.

2. Nicht überwachtes maschinelles Lernen

Algorithmen für das unüberwachte Lernen – wie Apriori, Gauss'sche Mischverteilungsmodelle (GMM) und die Hauptkomponentenanalyse (PCA) – ziehen Rückschlüsse aus unbeschrifteten Datensätzen, erleichtern die explorative Datenanalyse und ermöglichen die Mustererkennung und die Erstellung von Vorhersagemodellen.

Die häufigste Methode des unüberwachten Lernens ist die Clusteranalyse, bei der Datenpunkte mithilfe von Clustering-Algorithmen nach Wertähnlichkeit kategorisiert werden (wie bei der Kundensegmentierung oder Anomalieerkennung). Assoziationsalgorithmen ermöglichen es Data Scientists, Zusammenhänge zwischen Datenobjekten in großen Datenbanken zu erkennen, was die Datenvisualisierung und die Reduzierung der Dimensionalität erleichtert.

K-Means-Clustering – ordnet Datenpunkte in K Gruppen ein, wobei die Datenpunkte, die einem bestimmten Schwerpunkt am nächsten liegen, in derselben Kategorie zusammengefasst werden und K die Cluster basierend auf ihrer Größe und Granularitätsstufe darstellt. K-Means-Clustering wird häufig für die Marktsegmentierung, das Dokumenten-Clustering, die Bildsegmentierung und die Bildkomprimierung verwendet.

Unüberwachte ML-Modelle stehen oft hinter den Empfehlungssystemen des Typs „Kunden, die dies gekauft haben, kauften auch …“.

3. Selbstüberwachtes maschinelles Lernen

Selbstüberwachtes Lernen (Self-Supervised Learning, SSL) ermöglicht es Modellen, sich selbst anhand von nicht gekennzeichneten Daten zu trainieren, anstatt umfangreiche annotierte und/oder gekennzeichnete Datensätze zu benötigen. SSL-Algorithmen, auch als prädiktive oder Vorwand-Lernalgorithmen bezeichnet, lernen einen Teil der Eingabe aus einem anderen Teil, generieren automatisch Labels und wandeln unbeaufsichtigte Probleme in überwachte um. Diese Algorithmen sind besonders nützlich für Aufgaben wie Computer Vision und NLP, bei denen die Menge der für das Training von Modellen erforderlichen gekennzeichneten Trainingsdaten außergewöhnlich groß sein kann (manchmal sogar zu groß).

4. Verstärkendes Lernen

Verstärkendes Lernen, auch Verstärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) genannt, ist eine Art dynamische Programmierung, bei der Algorithmen mithilfe eines Systems aus Belohnung und Bestrafung trainiert werden. Beim Einsatz von verstärkendem Lernen ergreift ein Agent Maßnahmen in einer bestimmten Umgebung, um ein vorgegebenes Ziel zu erreichen. Der Agent wird für seine Handlungen auf der Grundlage einer festgelegten Metrik (in aller Regel nach einem Punktesystem) belohnt oder bestraft, wodurch er dazu ermutigt wird, bewährte Verfahren fortzusetzen und schlechte zu verwerfen. Durch Wiederholung lernt der Agent die besten Strategien.

Algorithmen für verstärkendes Lernen sind in der Videospielentwicklung weit verbreitet und werden häufig eingesetzt, um Robotern beizubringen, wie sie menschliche Aufgaben replizieren können.

5. Halbüberwachtes Lernen

Die fünfte Art von maschinellem Lernen bietet eine Kombination aus überwachtem und unüberwachtem Lernen.

Halbüberwachte Lernalgorithmen werden anhand eines kleinen markierten Datensatzes und eines großen unmarkierten Datensatzes trainiert, wobei die markierten Daten den Lernprozess für den größeren Teil der unmarkierten Daten leiten. Ein halbüberwachtes Lernmodell könnte unüberwachtes Lernen verwenden, um Datencluster zu identifizieren, und dann überwachtes Lernen verwenden, um die Cluster zu kennzeichnen.

Generative Adversarial Networks (GANs) – ein Tool für Deep Learning, das durch das Training zweier neuronaler Netze unmarkierte Daten generiert – sind ein Beispiel für halbüberwachtes maschinelles Lernen.

Unabhängig von der Art können ML-Modelle Dateneinblicke aus Unternehmensdaten gewinnen, aber ihre Anfälligkeit für menschliche/datenbezogene Verzerrungen macht verantwortungsvolle KI-Praktiken zu einer organisatorischen Notwendigkeit.