Meta-Learning, auch „Lernen, zu lernen“ genannt, ist eine Unterkategorie des Machine Learnings, die Modelle der künstlichen Intelligenz (KI) darauf trainiert, neue Aufgaben selbständig zu verstehen und sich an sie anzupassen. Das Hauptziel des Meta-Learning besteht darin, Maschinen die Fähigkeit zu vermitteln, das Lernen zu erlernen.
Im Gegensatz zum konventionellen Supervised Learning, bei dem Modelle mithilfe eines definierten Trainingsdatensatzes darauf trainiert werden, eine bestimmte Aufgabe zu lösen, umfasst der Meta-Learning-Prozess eine Vielzahl von Aufgaben, jede mit ihrem eigenen zugehörigen Datensatz. Durch diese zahlreichen Lernereignisse erhalten Modelle die Fähigkeit, aufgabenübergreifende Verallgemeinerungen vorzunehmen, wodurch sie sich auch mit wenigen Daten schnell an neue Szenarien anpassen können.
Meta-Learning-Algorithmen werden an den Vorhersagen und Metadaten anderer Algorithmen für Machine Learning trainiert. Meta-Learning-Algorithmen generieren dann eigene Vorhersagen sowie Informationen, die zur Verbesserung der Leistung und Ergebnisse anderer Algorithmen für Machine Learning verwendet werden können.
Meta-Learning umfasst zwei wichtige Phasen: Meta-Training und Meta-Testing. In beiden Phasen passt ein Basis-Lernmodell seine Parameter während des Lernens an und aktualisiert sie. Der verwendete Datensatz ist in ein Support-Set für Meta-Training und ein Test-Set für Meta-Testing unterteilt.
In der Meta-Training-Phase wird dem Basis-Lernmodell eine Vielzahl von Aufgaben bereitgestellt. Ziel des Modells ist es, gemeinsame Muster zwischen diesen Aufgaben aufzudecken und breites Wissen zu erwerben, das bei der Lösung neuer Aufgaben angewendet werden kann.
Während der Meta-Testing-Phase wird die Leistung des Basis-Lernmodells bewertet, indem ihm Aufgaben gestellt werden, mit denen es beim Training nicht konfrontiert war. Die Effektivität des Modells wird daran gemessen, wie gut und wie schnell es sich mit Hilfe seines erlernten Wissens und seines verallgemeinerten Verständnisses an diese neuen Aufgaben anpasst.
Es gibt drei typische Ansätze für Meta-Learning. Hier erfahren Sie, wie die einzelnen Ansätze funktionieren und welche verschiedenen Arten es gibt:
Im Mittelpunkt des metrikbasierten Meta-Learnings steht das Erlernen einer Funktion, die eine Entfernungsmetrik berechnet, die ein Maß für die Ähnlichkeit zwischen zwei Datenpunkten ist. Dieser Ansatz ähnelt dem k-Nearest Neighbors (KNN)-Algorithmus, der Nähe verwendet, um Klassifizierungen oder Vorhersagen zu treffen.
Ein konvolutionales siamesisches neuronales Netz besteht aus identischen doppelten konvolutionalen neuronalen Netzen, die Parameter und Gewichtungen gemeinsam haben. Parameteraktualisierungen werden zwischen den beiden Netzen gespiegelt. Beide Netze sind durch eine Verlustfunktion verbunden, die eine Entfernungsmetrik (normalerweise paarweise Ähnlichkeit) berechnet.1
Der Trainingsdatensatz besteht aus Paaren übereinstimmender und nicht übereinstimmender Beispiele. Konvolutionale siamesische neuronale Netze lernen dann, paarweise Ähnlichkeit zu berechnen, wodurch der euklidische Abstand zwischen nicht übereinstimmenden oder unähnlichen Paaren maximiert und der Abstand zwischen übereinstimmenden oder ähnlichen Paaren minimiert wird.1
Matching-Netzwerke lernen, die Klassifizierung vorherzusagen, indem sie eine Entfernungsmetrik, die als Kosinusähnlichkeit bekannt ist, zwischen zwei Stichproben messen.2
Ein Relationsnetzwerk lernt eine tiefe nichtlineare Entfernungsmetrik für den Vergleich von Objekten. Das Netzwerk klassifiziert Artikel, indem es Beziehungswerte berechnet, die die Ähnlichkeit zwischen Elementen darstellen.3
Prototypische Netzwerke berechnen den Mittelwert aller Stichproben einer Klasse, um einen Prototyp für diese Klasse zu erstellen. Das Netzwerk lernt dann einen metrischen Raum, in dem Klassifikationsaufgaben durch Berechnung des quadrierten euklidischen Abstands zwischen einem bestimmten Datenpunkt und der prototypischen Darstellung einer Klasse ausgeführt werden.4
Beim modellbasierten Meta-Learning werden die Parameter eines Modells erlernt, was das schnelle Lernen anhand spärlicher Daten erleichtern kann.
Ein speichererweitertes neuronales Netz (Memory-Augmented Neural Network, MANN) ist mit einem externen Speichermodul ausgestattet, das eine stabile Speicherung und ein schnelles Kodieren und Abrufen von Informationen ermöglicht.5
Beim Meta-Learning können MANNs darauf trainiert werden, eine allgemeine Technik für die Arten von Repräsentationen zu erlernen, die in einem externen Speicher gespeichert werden sollen, und eine Methode zur Verwendung dieser Repräsentationen, um Vorhersagen zu treffen. MANNs haben sich als besonders für Regressions- und Klassifizierungsaufgaben gut geeignet erwiesen.5
MetaNet (kurz für Meta Networks) ist ein Meta-Learning-Modell, das beim Imitationslernen und verstärkenden Lernen (Reinforcement Learning) angewendet werden kann. Wie MANNs verfügen auch Meta-Netzwerke über einen externen Speicher.6
MetaNet besteht aus einem Basis-Lerner und einem Meta-Lerner, die auf verschiedenen Raumebenen arbeiten. Der Meta-Lerner erwirbt allgemeines Wissen über verschiedene Aufgaben innerhalb eines Meta-Raums hinweg. Der Basis-Lerner nimmt eine Eingabeaufgabe entgegen und sendet Meta-Informationen über den aktuellen Aufgabenraum an den Meta-Lerner. Basierend auf diesen Informationen führt der Meta-Lerner eine schnelle Parametrisierung durch, um die Gewichte in beiden Räumen zu aktualisieren.6
Deep Learning erfordert in der Regel mehrere iterative Aktualisierungen von Modellparametern durch Backpropagation und den Gradientenabstieg-Optimierungsalgorithmus. Beim optimierungsbasierten Meta-Learning, das manchmal auch als gradientenbasiertes Meta-Learning bezeichnet wird, erlernt der Algorithmus, welche anfänglichen Modellparameter oder Hyperparameter von tiefen neuronalen Netzen für relevante Aufgaben effizient feinabgestimmt werden können. Dies bedeutet in der Regel Meta-Optimierung, d. h. die Optimierung des Optimierungsalgorithmus selbst.
Diese optimierungsbasierte Meta-Lernmethode verwendet eine beliebte Architektur mit wiederkehrenden neuronalen Netzen, die als Long-Short-Term-Memory-Netzwerke (LSTM-Netzwerke) bezeichnet wird, um einen Meta-Lerner zu trainieren, der sowohl langfristiges Wissen, das zwischen Aufgaben geteilt wird, als auch kurzfristiges Wissen von jeder Aufgabe erwirbt. Der Meta-Lerner optimiert dann den Klassifikator eines anderen neuronalen Lernnetzwerks. Er lernt eine Initialisierung der Parameter des Lerners für eine schnelle Trainingskonvergenz und wie man diese Parameter angesichts eines kleinen Trainingsdatensatzes effizient aktualisiert, damit sich der Lerner schnell an neue Aufgaben anpassen kann.7
Wie der Name schon sagt, ist dieser optimierungsbasierte Meta-Lernalgorithmus modellunabhängig. Dadurch ist er mit jedem Modell kompatibel, das mit Gradientenabstieg trainiert wurde, und eignet sich für die Lösung verschiedener Lernprobleme, wie Klassifikation, Regression und verstärkendes Lernen.8
Die Kernidee hinter MAML besteht darin, die anfänglichen Parameter des Modells so zu trainieren, dass einige wenige Gradientenaktualisierungen zu einem schnellen Lernen bei einer neuen Aufgabe führen. Das Ziel ist es, Modellparameter zu bestimmen, die empfindlich auf Änderungen in einer Aufgabe reagieren, sodass geringfügige Änderungen an diesen Parametern zu wesentlichen Verbesserungen der Verlustfunktion der Aufgabe führen. Die Metaoptimierung über alle Aufgaben hinweg erfolgt mithilfe des stochastischen Gradientenabstiegs (SGD).8
Im Gegensatz zum Gradientenabstieg, bei dem Ableitungen berechnet werden, um die Parameter eines Modells für eine bestimmte Aufgabe zu optimieren, berechnet MAML zweite Ableitungen, um die Anfangsparameter eines Modells für die aufgabenspezifische Optimierung zu optimieren. Eine modifizierte Version des modellagnostischen Meta-Learning, bekannt als MAML erster Ordnung oder FOMAML (First-Order MAML), lässt zweite Ableitungen weg, um einen weniger rechenintensiven Prozess zu ermöglichen.8
Reptile ist ein gradientenbasierter Meta-Lernalgorithmus erster Ordnung ähnlich wie FOMAML. Es tastet eine Aufgabe wiederholt ab, trainiert durch viele Schritte des Gradientenabstiegs an dieser Aufgabe und verschiebt das Modellgewicht in Richtung der neuen Parameter.9
Um die Vielseitigkeit von Meta-Learning weiter zu demonstrieren, finden Sie hier einige Möglichkeiten, wie Meta-Learning im Bereich des maschinellen Lernens selbst eingesetzt werden kann:
Automatisiertes Machine Learning (AutoML) ermöglicht die Automatisierung von Aufgaben in der Machine-Learning-Pipeline. Meta-Learning-Techniken eignen sich gut für AutoML, insbesondere wenn es um Hyperparameteroptimierung und Modellauswahl geht.
Die Feinabstimmung von Hyperparametern für Modelle für Machine Learning erfolgt in der Regel manuell. Meta-Learning Algorithmen können helfen, diesen Vorgang zu automatisieren, indem sie lernen, wie man Hyperparameter optimiert, oder die idealen Hyperparameter für eine bestimmte Aufgabe identifizieren.
Meta-Learning Algorithmen können auch lernen, wie sie das am besten geeignete Modell – und sogar die Parameter und die Architektur dieses Modells – auswählen, um eine bestimmte Aufgabe zu lösen. Dies hilft, den Modellauswahlprozess zu automatisieren.
Few-Shot-Learning ist ein Framework für Machine Learning, das ein KI-Modell anhand einer kleinen Anzahl von Beispielen trainiert. Die meisten Few-Shot-Learning-Methoden basieren auf Meta-Learning, bei dem sich die Modelle anhand knapper Trainingsdaten an neue Aufgaben anpassen.
Ein Recommendation Engine stützt sich auf Algorithmen für Machine Learning, um Muster in Daten zum Nutzerverhalten zu erkennen und auf dieser Grundlage relevante Artikel zu empfehlen. Meta-Learning-Systeme können Empfehlungsmodelle erlernen, um genauere und relevantere Vorschläge zu generieren, die das Benutzererlebnis besser personalisieren.
Meta-Learning kann das Transferlernen erleichtern, bei dem ein vorab trainiertes Modell angepasst wird, um neue Aufgaben oder bisher unbekannte Datenklassen zu erlernen.
Meta-Learning kann auf verschiedene Bereiche der Technologiebranche angewendet werden, darunter:
Meta-Learning kann für Computer-Vision -Aufgaben eingesetzt werden, zu denen Gesichtserkennung, Bildklassifizierung, Bildsegmentierung, Objekterkennung und Objektverfolgung gehören.
Meta-Learning kann für Aufgaben im Bereich des Natural Language Processing verwendet werden, wie etwa Sprachmodellierung, Sentiment Analysis, Spracherkennung und Textklassifizierung.10
Meta-Learning kann Robotern helfen, schnell neue Aufgaben zu erlernen und sich an dynamische Umgebungen anzupassen. Es kann bei einer Reihe von Aufgaben wie Greifen, Navigation, Manipulation und Bewegung eingesetzt werden.11
Meta-Learning birgt großes Potenzial. Hier sind einige seiner Vorteile:
Meta-Learning kann verwendet werden, um allgemeinere KI-Modelle zu erstellen, die lernen können, viele verwandte Aufgaben zu erledigen. Aufgrund dieser Flexibilität können sich Meta-Learning-Systeme schnell an neue Aufgaben und verschiedene Einsatzgebiete anpassen.
Meta-Learning unterstützt das Lernen anhand weniger Datenpunkte, wodurch die Notwendigkeit großer Datensatzmengen entfallen kann. Dies kann besonders für Bereiche hilfreich sein, in denen die Erfassung und Aufbereitung von Daten arbeits- und zeitintensiv ist.
Aufgrund der Dateneffizienz und des schnellen Lernens kann Meta-Learning zu einem schnelleren Trainingsprozess und reduzierten Trainingskosten führen.
Obwohl Meta-Learnings vielversprechend ist, birgt es auch Herausforderungen. Hier sind einige von ihnen:
Manchmal reicht die Datenmenge zum Trainieren von KI-Modellen nicht aus, insbesondere in Nischenbereichen. Oder wenn Daten verfügbar sind, reicht die Qualität möglicherweise nicht aus, um Meta-Learning-Algorithmen effizient zu trainieren.
Unzureichende Variabilität zwischen den Aufgaben im Support-Set für das Meta-Training kann zu Overfitting führen. Das bedeutet, dass ein Meta-Learning-Algorithmus möglicherweise nur auf bestimmte Aufgaben anwendbar ist, ohne dass er effektiv über ein breites Spektrum von Aufgaben hinweg verallgemeinern kann.
Umgekehrt kann eine zu große Variabilität zwischen den Aufgaben im Support-Set für das Meta-Training zu Underfitting führen. Das bedeutet, dass ein Meta-Learning-Algorithmus möglicherweise nicht in der Lage ist, sein Wissen bei der Lösung einer anderen Aufgabe zu nutzen und sich nur schwer an neue Szenarien anpassen kann. Daher ist ein Gleichgewicht bei der Variabilität der Aufgaben entscheidend.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
1 "SigNet: Convolutional Siamese Network for Writer Independent Offline Signature Verification", arXiv, 30. September 2017.
2 „Matching Networks for One Shot Learning“, arXiv, 29. Dezember 2017.
3 „Learning to Compare: Relation Network for Few-Shot Learning“, arXiv, 27. März 2018.
4 „Prototypische Netzwerke für Few-shot-Learning“, arXiv, 19. Juni 2017.
5 „Meta-Lernen mit Memory-Augmented Neural Networks“, Proceedings der 33. Internationalen Konferenz auf maschinelles Lernen, 19. Juni 2016.
6 „Meta Networks“, arXiv, 8. Juni 2017.
7 „Optimization as a Model for Few-Shot Learning“, OpenReview, 22. Juli 2022.
8 „Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks“, arXiv, 18. Juli 2017.
9 „Über Meta-Lernalgorithmen erster Ordnung“, arXiv, 22. Oktober 2018.
10 „Meta Learning for Natural Language Processing: A Survey“, arXiv, 2. Juli 2022.
11 „Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning“, arXiv, 30. Juli 2020.