Maschinelles Lernen ist der Teilbereich der künstlichen Intelligenz (KI), der sich auf Algorithmen konzentriert, die Muster von Trainingsdaten „lernen“ und anschließend genaue Rückschlüsse auf neue Daten ziehen können. Dank dieser Mustererkennungsfähigkeit können Modelle des maschinellen Lernens Entscheidungen oder Vorhersagen ohne explizite, fest codierte Anweisungen treffen.
Maschinelles Lernen dominiert den Bereich der KI: Es ist das Rückgrat der meisten modernen KI-Systeme, von Prognosemodellen über autonome Fahrzeuge bis hin zu Large Language Models (LLMs) und anderen generativen KI-Tools.
Die zentrale Prämisse von maschinellem Lernen (ML) ist, dass, wenn Sie die Leistung eines Modells für einen Datensatz von Aufgaben optimieren, die den realen Problemen, für die es verwendet wird, angemessen ähneln – durch den Prozess namens Modelltraining —, das Modellgenaue Vorhersagen zu den neuen Daten treffen kann, die es in seinem ultimativen Anwendungsfall sieht.
Das Training selbst ist lediglich Mittel zum Zweck: Die Generalisierung – die Umsetzung einer starken Leistung bei Trainingsdaten in nützliche Ergebnisse in realen Szenarien – ist das grundlegende Ziel des maschinellen Lernens. Im Wesentlichen wendet ein trainiertes Modell Muster an, die es aus Trainingsdaten gelernt hat, um die richtige Ausgabe für eine reale Aufgabe abzuleiten: Die Bereitstellung eines KI-Modells wird daher als KI-Inferenz bezeichnet.
Deep Learning, ein Teilbereich des maschinellen Lernens, der auf großen – oder besser gesagt „tiefen“ – künstlichen neuronalen Netzen basiert, hat sich in den letzten Jahrzehnten in fast allen Bereichen, in denen KI zum Einsatz kommt, als modernste KI-Modellarchitektur etabliert. Im Gegensatz zu den explizit definierten Algorithmen des traditionellen maschinellen Lernens stützt sich Deep Learning auf verteilte „Netzwerke“ mathematischer Operationen, die die besondere Fähigkeit haben, die komplizierten Nuancen sehr komplexer Daten zu erlernen. Da Deep Learning sehr große Datenmengen und Rechenressourcen erfordert, gibt es Überschneidungen mit der zunehmenden Bedeutung von „Big Data“ und Grafikprozessoren (GPUs).
Die Disziplin des maschinellen Lernens ist eng mit der der Data Science verwoben. In gewissem Sinne kann maschinelles Lernen als eine Sammlung von Algorithmen und Techniken zur Automatisierung der Datenanalyse und (was noch wichtiger ist) zur Anwendung der aus dieser Analyse gewonnenen Erkenntnisse auf die autonome Ausführung relevanter Aufgaben verstanden werden.
Der Ursprung des Begriffs (wenn auch nicht des Kernkonzepts selbst) wird oft auf den Artikel von Arthur L. Samuel aus dem Jahr 1959 im IBM Journal zurückgeführt: „Some Studies in Machine Learning Using the Game of Checkers“ („Einige Studien zum maschinellen Lernen mithilfe des Spiels Dame“). In der Einleitung des Artikels beschreibt Samuel treffend das ideale Ergebnis des maschinellen Lernens: „Ein Computer kann so programmiert werden, dass er lernt, ein besseres Dame-Spiel zu spielen als die Person, die das Programm geschrieben hat.“1
Obwohl „maschinelles Lernen“ und „künstliche Intelligenz“ oft synonym verwendet werden, sind sie nicht ganz synonym. Kurz gesagt: Alles maschinelle Lernen ist KI, aber nicht jede KI ist maschinelles Lernen.
In der populären Vorstellung wird „KI“ meist mit Science Fiction in Verbindung gebracht – in der Regel durch Darstellungen von etwas, das man besser als künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) bezeichnet, wie HAL 9000 in 2001: Odyssee im Weltraum oder Ava in Ex Machina– oder, in jüngerer Zeit, mit generativer KI erledigen. „Künstliche Intelligenz“ ist jedoch ein Sammelbegriff für jedes Programm, das ohne aktive menschliche Beteiligung Informationen nutzen kann, um Entscheidungen zu treffen oder Vorhersagen zu treffen.
Die grundlegendsten KI-Systeme bestehen aus einer Reihe von Wenn-Dann-Sonst-Anweisungen, deren Regeln und Logik von einem Data Scientist explizit programmiert werden.Auf der einfachsten Ebene ist selbst ein rudimentäres Thermostat ein regelbasiertes KI-System: Wenn es mit einfachen Regeln programmiert wird, wie zum Beispiel
und
, ist das Thermostat in der Lage, ohne weiteres menschliches Eingreifen autonome Entscheidungsfindung zu treffen. Auf einer komplexeren Ebene könnte ein großer und komplizierter, regelbasierter Entscheidungsbaum, der von medizinischen Experten programmiert wurde, Symptome, Umstände und Begleiterkrankungen analysieren, um die Diagnose oder Prognose zu unterstützen.2
Anders als bei Expertensystemen ist die Logik, nach der ein ML-Modell arbeitet, nicht explizit programmiert, sondern wird durch Erfahrung erlernt. Stellen Sie sich ein Programm vor, das E-Mail-Spam filtert: Bei der regelbasierten KI muss ein Data Scientist manuell genaue, universelle Kriterien für Spam entwickeln. Maschinelles Lernen erfordert nur die Auswahl eines geeigneten Algorithmus und einen geeigneten Datensatz mit Beispiel-E-Mails. Während des Trainings werden dem Modell Beispiel-E-Mails angezeigt und es sagt vorher, welche E-Mails Spam sind. Der Fehler seiner Vorhersagen wird berechnet und sein Algorithmus wird angepasst, um Fehler zu reduzieren. Dieser Vorgang wird so lange wiederholt, bis das Modell korrekt ist. Das neu trainierte ML-Modell hat implizit erlernt, wie man Spam erkennt.
Da die Aufgaben, die ein KI-System erfüllen soll, immer komplexer werden, werden regelbasierte Modelle zunehmend brauchbar: Es ist oft unmöglich, jedes Muster und jede Variable, die ein Modell berücksichtigen muss, explizit zu definieren. Systeme des maschinellen Lernens haben sich zur dominierenden Form der künstlichen Intelligenz entwickelt, weil implizite Lernmuster aus den Daten selbst von Natur aus flexibler, skalierbar und zugänglicher sind.
Maschinelles Lernen funktioniert durch mathematische Logik. Die relevanten Eigenschaften (oder „Funktionen“) jedes Datenpunktes müssen daher numerisch ausgedrückt werden, damit die Daten selbst in einen mathematischen Algorithmus eingespeist werden können, der „lernen“ kann, eine bestimmte Eingabe der gewünschten Ausgabe zuzuordnen.
Datenpunkte werden beim maschinellen Lernen normalerweise in Vektorform dargestellt, wobei jedes Element (oder jede Dimension) der Einbettung eines Datenpunkts seinem numerischen Wert für eine bestimmte Funktion entspricht. Bei Datenmodalitäten, die von Natur aus numerisch sind, wie z. B. Finanzdaten oder geografische Koordinaten, ist dies relativ einfach. Viele Datenmodalitäten, wie z. B. Text, Bilder, Diagrammdaten aus sozialen Medien oder das Verhalten von App-Nutzern, sind jedoch nicht von Natur aus numerisch und erfordern daher eine weniger intuitive Funktionsentwicklung, um in ML-fähiger Weise ausgedrückt zu werden.
Der (oft manuelle) Prozess der Auswahl der Datenaspekte, die in Algorithmen für maschinelles Lernen verwendet werden sollen, wird Merkmalsauswahl genannt. Funktionsextraktionstechniken verfeinern Daten auf die relevantesten und aussagekräftigsten Dimensionen. Beide sind Teilbereiche des Feature Engineering, der umfassenderen Disziplin der Vorverarbeitung von Rohdaten für maschinelles Lernen. Ein bemerkenswerter Unterschied von Deep Learning besteht darin, dass es in der Regel mit Rohdaten arbeitet und einen Großteil des Prozesses der Merkmalsentwicklung – oder zumindest der Merkmalsextraktion – automatisiert. Dies macht Deep Learning besser skalierbar, wenn auch weniger interpretierbar, als traditionelles maschinelles Lernen.
Stellen Sie sich als praktisches Beispiel eine einfache lineare Regression für die Vorhersage der Verkaufspreise von Eigenheimen auf der Grundlage einer gewichteten Kombination von drei Variablen vor: Quadratmeterzahl, Baujahr und Anzahl der Schlafzimmer. Jedes Haus wird als Vektoreinbettung mit 3 Dimensionen dargestellt:
Der Algorithmus ist eine einfache mathematische Funktion:
Preis = (A * Quadratmeterzahl) + (B * Anzahl der Räume) – (C * Alter) + Grundpreis
Hier sind , und die Modellparameter: Durch ihre Anpassung wird angepasst, wie stark das Modell die einzelnen Variablen gewichtet. Das Ziel des maschinellen Lernens ist es, die optimalen Werte für solche Modellparameter zu finden: also die Parameterwerte, die dazu führen, dass die Gesamtfunktion die genauesten Ergebnisse als Ausgabe liefert. Bei den meisten realen Instanzen des maschinellen Lernens handelt es sich zwar um komplexere Algorithmen mit einer größeren Anzahl von Eingabevariablen, das Prinzip bleibt jedoch dasselbe: Die anpassbaren Parameter des Algorithmus werden optimiert, um eine höhere Genauigkeit zu erzielen.
Alle Methoden des maschinellen Lernens können als eines von drei verschiedenen Lernparadigmen kategorisiert werden: überwachtes Lernen, unüberwachtes Lernen oder verstärkendes Lernen, basierend auf der Art ihrer Trainingsziele und (oft, aber nicht immer) nach der Art der Trainingsdaten, die sie enthalten.
Der gesamte Trainingsprozess für ein bestimmtes Modell kann hybride Ansätze umfassen, die mehr als eines dieser Lernparadigmen nutzen. Zum Beispiel wird unüberwachtes Lernen häufig verwendet, um Daten für die Verwendung im überwachten oder verstärkenden Lernen vorzuverarbeiten. Large Language Models (LLMs) durchlaufen in der Regel ihr anfängliches Training (Vortraining) und eine Feinabstimmung durch Varianten des überwachten Lernens, gefolgt von einer weiteren Feinabstimmung durch RL-Techniken wie Reinforcement Learning from Human Feedback (RLHF).
In einer ähnlichen, aber unterschiedlichen Praxis aggregieren verschiedene Ensemble-Lernmethoden die Ausgaben mehrerer Algorithmen.
Algorithmen für überwachtes Lernen schulen Modelle für Aufgaben, die Genauigkeit erfordern, wie Klassifikation oder Regression. Überwachtes maschinelles Lernen unterstützt sowohl hochmoderne Deep-Learning-Modelle als auch eine Vielzahl traditioneller ML-Modelle, die in verschiedenen Branchen immer noch weit verbreitet sind.
Um die Genauigkeit messen und optimieren zu können, müssen die Outputs eines Modells mit einer Ground Truth verglichen werden: das ideale oder „richtige“ Output für eine bestimmte Eingabe. Beim herkömmlichen überwachten Lernen wird diese Grundwahrheit durch gekennzeichnete Datenpaare bereitgestellt. Ein Modell zur Erkennung von Spam-E-Mail wird anhand eines Datensatzes mit E-Mails trainiert, die jeweils als gekennzeichnet wurden
Unverzichtbar für überwachtes Lernen ist die Verwendung einer Verlustfunktion, die die Divergenz („Verlust“) zwischen der Ausgabe des Modells und der Ground Truth über einen Stapel von Trainingsausgaben hinweg misst. Das Ziel des überwachten Lernens wird mathematisch als Minimierung der Ausgabe einer Verlustfunktion definiert. Sobald der Verlust berechnet wurde, werden verschiedene Optimierungsalgorithmen – von denen die meisten die Berechnung der Ableitung(en) der Verlustfunktion beinhalten – verwendet, um Parameteranpassungen zu identifizieren, die den Verlust reduzieren.
Da dieser Prozess traditionell die Einbindung von Menschen erfordert, um die Ground Truth in Form von Datenannotationen bereitzustellen, wird er als „überwachtes“ Lernen bezeichnet. Daher wurde die Verwendung gekennzeichneter Daten historisch als das entscheidende Merkmal des überwachten Lernens angesehen. Aber auf der grundlegendsten Ebene ist das Markenzeichen des überwachten Lernens das Vorhandensein einer gewissen Ground Truth und das Trainingsziel, den Output der Verlustfunktion zu minimieren, die die Abweichung davon misst.
Um einem vielseitigeren Konzept des überwachten Lernens zu entsprechen, verwendet die moderne ML-Terminologie „Überwachung“ oder „Überwachungssignale“, um sich auf jede Quelle der Grundwahrheit zu beziehen.
Das Labeln von Daten kann für komplexe Aufgaben und große Datensätze zu kostspielig und zeitaufwändig werden. Selbstüberwachtes Lernen beinhaltet das Trainieren von Aufgaben, bei denen ein Überwachungssignal direkt aus nicht gelabelten Daten erhalten wird – daher auch der Begriff „selbstüberwacht“.
Beispielsweise werden Autoencoder darauf trainiert, Eingabedaten zu komprimieren (oder zu kodieren) und dann die ursprüngliche Eingabe mithilfe dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren). Ihr Trainingsziel ist die Minimierung des Rekonstruktionsfehlers, wobei die ursprüngliche Eingabe selbst als Basiswahrheit verwendet wird. Selbstüberwachtes Lernen ist auch die primäre Trainingsmethode für LLMs: Den Modellen werden Textproben zur Verfügung gestellt, in denen bestimmte Wörter versteckt oder maskiert sind, und sie haben die Aufgabe, die fehlenden Wörter vorherzusagen.
Selbstüberwachtes Lernen wird häufig mit Transferlernen in Verbindung gebracht, da es Foundation Models umfassende Funktionen zur Verfügung stellen kann, die dann für spezifischere Aufgaben optimiert werden.
Während selbstüberwachtes Lernen im Wesentlichen überwachtes Lernen mit nicht gekennzeichneten Daten ist, verwenden halbüberwachte Lernmethoden sowohl gekennzeichnete als auch nicht gekennzeichnete Daten. Im Großen und Ganzen umfasst halbüberwachtes Lernen Techniken, die Informationen aus den verfügbaren gekennzeichneten Daten nutzen, um Annahmen über die nicht gekennzeichneten Datenpunkte zu treffen, damit diese in überwachte Lern-Workflows integriert werden können.
Unüberwachte ML-Algorithmen erkennen intrinsische Muster in nicht gekennzeichneten Daten, wie Ähnlichkeiten, Korrelationen oder potenzielle Gruppierungen. Sie sind am nützlichsten in Szenarien, in denen solche Muster für menschliche Beobachter nicht unbedingt erkennbar sind. Da unüberwachtes Lernen nicht von der bereits bekannten „richtigen“ Ausgabe ausgeht, sind keine Überwachungssignale oder konventionellen Verlustfunktionen erforderlich – daher auch der Begriff „unüberwacht“.
Die meisten unüberwachten Lernmethoden führen eine der folgenden Funktionen aus:
Wie ihr Name schon sagt, können unüberwachte Lernalgorithmen allgemein als eine Art „Selbstoptimierung“ verstanden werden. Diese Animation zeigt beispielsweise, wie ein k-Means-Algorithmus iterativ den Schwerpunkt jedes Clusters optimiert. Die Herausforderung beim Training nicht überwachter Modelle konzentriert sich daher auf eine effektive Datenvorverarbeitung und die richtige Abstimmung von Hyperparametern, die den Lernprozess beeinflussen, aber selbst nicht lernbar sind, wie z. B. die Lernrate oder die Anzahl der Cluster.
Während überwachtes Lernen Modelle mit Optimierung trainiert, um sie an ideale Muster anzupassen, und unüberwachte Lernalgorithmen sich an einen Datensatz anpassen, werden Modelle des verstärkenden Lernens ganzheitlich durch Versuch und Irrtum trainiert. Sie werden vor allem in der Robotertechnik, Videospielen, Argumentationsmodellen und anderen Anwendungsfällen eingesetzt, in denen der Raum möglicher Lösungen und Herangehensweisen besonders groß, offen oder schwer zu definieren ist. In der RL-Literatur wird ein KI-System oft als „Agent“ bezeichnet.
Statt der unabhängigen Paare von Eingabe-Ausgabe-Daten, die beim überwachten Lernen verwendet werden, arbeitet das bestärkende Lernen (Reinforcement Learning, RL) mit voneinander abhängigen Daten-Tupeln aus Zustand, Aktion und Belohnung. Anstatt Fehler zu minimieren, besteht das Ziel des Reinforcement Learning darin, die Parameter zu optimieren, um die Belohnung zu maximieren.
Ein mathematisches Framework für verstärkendes Lernen basiert hauptsächlich auf diesen Komponenten:
Bei richtlinienbasierten RL-Methoden wie der Proximal Policy Optimization (PPO) lernt das Modell eine Richtlinie direkt. Bei wertbasierten Methoden wie Q-Learning lernt der Agent eine Wertfunktion, die eine Punktzahl dafür berechnet, wie „gut“ jeder Zustand ist, und wählt dann Aktionen aus, die zu Zuständen mit höherem Wert führen. Stellen Sie sich ein Labyrinth vor: Ein richtlinienbasierter Agent könnte lernen, dass er an dieser Ecke links abbiegt, während ein wertebasierter Agent einen Punktestand für jede Position lernt und einfach zu einer benachbarten Position mit einem besseren Punktestand verschiebt. Hybride Ansätze, wie beispielsweise Actor-Critic-Methoden, lernen eine Wertfunktion, die dann zur Optimierung einer Strategie verwendet wird.
Beim Deep Reinforcement Learning wird die Richtlinie als Neural Network dargestellt.
BeimDeep Learning werden künstliche neuronale Netze mit vielen Schichten – daher auch der Begriff „Deep“ – und nicht die explizit entwickelten Algorithmen des traditionellen maschinellen Lernens eingesetzt. Obwohl neuronale Netzwerke schon früh in der Geschichte des maschinellen Lernens eingeführt wurden, dominierten sie erst in den späten 2000er und frühen 2010er Jahren, teilweise ermöglicht durch Fortschritte bei GPUs, in den meisten Teilbereichen der KI.
In Anlehnung an das menschliche Gehirn bestehen neuronale Netze aus miteinander verbundenen Schichten von „Neuronen“ (oder Knoten), von denen jedes seine eigene mathematische Operation ausführt (eine sogenannte „Aktivierungsfunktion“). Die Ausgabe der Aktivierungsfunktion jedes Knotens dient als Eingabe für jeden der Knoten der folgenden Schicht und so weiter bis zur letzten Schicht, in der die endgültige Ausgabe des Netzwerks berechnet wird. Wesentlich ist, dass die an jedem Knoten durchgeführten Aktivierungen nicht linear sind, sodass neuronale Netze komplexe Muster und Abhängigkeiten modellieren können.
Jede Verbindung zwischen zwei Neuronen erhält ein eindeutiges Gewicht: ein Multiplikator, der den Beitrag eines Neurons zu einem Neuron in der folgenden Schicht erhöht oder verringert. Diese Gewichte sind zusammen mit den einzigartigen Verzerrungstermen, die der Verzerrungsfunktion jedes Neurons hinzugefügt werden, die Parameter, die durch maschinelles Lernen optimiert werden.
Der Backpropagation-Algorithmus ermöglicht die Berechnung, wie jeder einzelne Knoten zum Gesamtoutput der Verlustfunktion beiträgt, sodass sogar Millionen oder Milliarden von Modellgewichten durch Gradientenabstiegsalgorithmen individuell optimiert werden können. Aufgrund des Umfangs und der Granularität der Aktualisierungen, die zur Erzielung optimaler Ergebnisse erforderlich sind, erfordert Deep Learning im Vergleich zum herkömmlichen ML sehr große Datenmengen und Rechenressourcen.
Diese verteilte Struktur verleiht Deep-Learning-Modellen ihre unglaubliche Leistungsfähigkeit und Vielseitigkeit. Stellen Sie sich die Trainingsdaten als Datenpunkte vor, die in einem zweidimensionalen Diagramm verstreut sind. Traditionelles maschinelles Lernen zielt im Wesentlichen darauf ab, eine einzelne Kurve zu finden, die durch jeden dieser Datenpunkte verläuft. Deep Learning fügt eine beliebige Anzahl kleinerer, individuell anpassbarer Linien zu der gewünschten Form zusammen. Neural Networks sind universelle Approximatoren: Es ist theoretisch bewiesen, dass es für jede Funktion eine Neural Networks-Konfiguration gibt, die sie reproduzieren kann.3, 4
Nur weil etwas theoretisch möglich ist, heißt das noch lange nicht, dass es mit den bestehenden Trainingsmethoden auch praktisch erreichbar ist. Viele Jahre lang blieb eine angemessene Leistung bei bestimmten Aufgaben selbst für Deep-Learning-Modelle unerreichbar – aber im Laufe der Zeit haben Änderungen an der standardmäßigen neuronalen Netzwerkarchitektur neue Funktionen für ML-Modelle erschlossen.
Convolutional Neural Networks (CNNs) fügen neuronale Netze konvolutionale Schichten hinzu. In der Mathematik ist eine Konvolution eine Operation, bei der eine Funktion die Form einer anderen Funktion verändert (oder konvolutioniert ). In CNNs werden Faltungsschichten verwendet, um wichtige Funktionen aus Daten zu extrahieren, indem gewichtete „Filter“ angewendet werden. CNNs werden in erster Linie mit Computer-Vision-Modellen und Bilddaten in Verbindung gebracht, haben aber eine Reihe anderer wichtiger Anwendungsfälle.
Rekurrente neuronale Netze (RNNs) sind für die Verarbeitung sequenzieller Daten konzipiert. Während herkömmliche neuronale Netzwerke eine einzelne Eingabe einem einzelnen Ausgang zuordnen, ordnen RNNs eine Folge von Eingaben einem Ausgang zu, indem sie wiederkehrenden Schleife arbeiten, in der die Ausgabe für einen bestimmten Schritt in der Eingabesequenz als Eingabe für die Berechnung für den folgenden Schritt dient. Dadurch entsteht ein internes „Gedächtnis“, der sogenannte verborgene Zustand, mit dem RNN Kontext und Reihenfolge verstehen können.
Transformer-Modelle, die erstmals 2017 eingeführt wurden, sind maßgeblich für das Aufkommen von LLMs und anderen Säulen der generativen KI verantwortlich und erzielen in den meisten Teilbereichen des maschinellen Lernens modernste Ergebnisse. Wie RNNs sind auch Transformer vordergründig für sequenzielle Daten konzipiert, aber durch clevere Workarounds konnten die meisten Datenmodalitäten von Transformern verarbeitet werden. Die einzigartige Stärke von Transformatormodellen liegt in ihrem innovativen Aufmerksamkeitsmechanismus, der es den Modellen ermöglicht, sich selektiv auf die Teile der Eingabedaten zu konzentrieren, die zu einem bestimmten Zeitpunkt in einer Sequenz am relevantesten sind.
Mamba-Modelle sind eine relativ neue neuronale Netzarchitektur, die erstmals 2023 eingeführt wurde und auf einer einzigartigen Variante von Zustandsraummodellen (SSMs) basiert. Wie Transformer bieten auch Mamba-Modelle ein innovatives Mittel, um die relevantesten Informationen zu einem bestimmten Zeitpunkt selektiv zu priorisieren. Mamba hat sich in letzter Zeit als Konkurrent der Transformer-Architektur herausgestellt, insbesondere für LLMs.
Die meisten Anwendungen des maschinellen Lernens fallen in eine oder mehrere der folgenden Kategorien, die hauptsächlich durch ihre Anwendungsfälle und die Datenmodalitäten definiert werden, mit denen sie arbeiten.
Computer Vision ist der Teilbereich der KI, der sich mit Bilddaten, Videodaten und anderen Datenmodalitäten befasst, die ein Modell oder eine Maschine zum „Sehen“ benötigen, von Gesundheitsdiagnose über Gesichtserkennung bis hin zu selbstfahrenden Autos. Wichtige Teilgebiete der Computer Vision sind Bildklassifizierung, Objekterkennung, Bildsegmentierung und optische Zeichenerkennung (OCR).
Der Bereich der Verarbeitung natürlicher Sprache (NLP) umfasst eine Vielzahl von Aufgaben in Bezug auf Text- und Sprachdaten. Zu den bemerkenswerten Teilbereichen der NLP gehören Chatbots, Spracherkennung, Sprachübersetzung, Stimmungsanalyse, Textgenerierung, Zusammenfassungen und KI-Agenten. In der modernen NLP treiben große Sprachmodelle den Stand der Technik in beispiellosem Tempo weiter voran.
Zeitreihenmodelle werden zur Erkennung von Anomalien, Marktanalysen und damit verbundenen Mustererkennungs- oder Prognoseaufgaben eingesetzt. Sie nutzen maschinelles Lernen für historische Daten für eine Vielzahl Anwendungsfällen vorherzusagen.
Diffusionsmodelle, Variational Autoencoder (VAEs) und Generative Adversarial Networks (GANs) können verwendet werden, um Originalbilder zu erzeugen, die Pixelmuster anwenden, die aus Trainingsdaten gelernt wurden.
Machine Learning Operations (MLOps) bezeichnet eine Reihe von Methoden zur Implementierung eines Fließbandansatzes für den Aufbau, das Bereitstellen und die Wartung von ML-Modellen.
Die sorgfältige Kuratierung und Vorverarbeitung der Trainingsdaten sowie die Auswahl geeigneter Modelle sind entscheidende Schritte in der MLOps-Pipeline. Eine sorgfältige Validierung nach dem Training, vom Entwurf der Benchmark-Datensätze bis zur Priorisierung bestimmter Leistungsmetriken, ist notwendig, um sicherzustellen, dass ein Modell gut generalisiert (und nicht nur eine Überanpassung der Trainingsdaten darstellt).
Nach der Bereitstellung müssen die Modelle auf Modelldrift, Probleme mit der Inferenzeffizienz und andere negative Entwicklungen überwacht werden. Eine klar definierte Praxis der Modell-Governance ist für eine kontinuierliche Wirksamkeit unerlässlich, insbesondere in regulierten oder sich schnell verändernden Branchen.
Es gibt eine Reihe von Open-Source-Tools, -Bibliotheken und -Frameworks zum Erstellen, Trainieren und Testen von ML-Projekten. Während solche Bibliotheken eine Reihe von vorkonfigurierten Modulen und Abstraktionen bieten, um den Prozess der Erstellung von ML-basierten Modellen und Workflows zu rationalisieren, müssen sich Anwender mit häufig verwendeten Programmiersprachen – insbesondere Python– vertraut machen, um sie in vollem Umfang nutzen zu können.
Zu den bekanntesten Open-Source-Bibliotheken, insbesondere für die Erstellung von Deep-Learning-Modellen, gehören PyTorch, TensorFlow, Keras und Hugging Face Transformers.
Zu den bemerkenswerten Open-Source-Bibliotheken und Toolkits für maschinelles Lernen, die sich auf traditionelles ML konzentrieren, gehören Pandas, Scikit-learn, XGBoost, Matplotlib, SciPy und NumPy.
IBM selbst unterhält und aktualisiert eine umfangreiche Bibliothek mit Tutorials für Anfänger und fortgeschrittene ML-Praktiker gleichermaßen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
Alle Links befinden sich außerhalb von ibm.com
1. „Some Studies in Machine Learning Using the Game of Checkers“, IBM Journal (zugegriffen über das MIT), 3. Juli 1959
2. „Using Decision Trees as an Expert System for Clinical Decision Support for COVID-19“, Interactive Journal of Medical Research, Vol 12, 30. Januar 2023
3. „Kolmogorov's Mapping Neural Network Existence Theorem“, Proceedings of the IEEE First International Conference on Neural Networks (zugegriffen über die University of Waterloo), 1987
4. „Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function“, Center for Research on Information Systems (New York University), März 1992.