Auf Transfer-Learning basierende Methoden konzentrieren sich auf die Anpassung eines vorab trainierten Modells, um neue Aufgaben oder bisher unbekannte Datenklassen zu erlernen.
Wenn nur wenige gekennzeichnete Stichproben zur Verfügung stehen, führt die Verwendung von überwachtem Lernen zum Trainieren eines Modells von Grund auf – insbesondere eines Modells mit einer großen Anzahl von Parametern, wie z. B. die typischerweise in der Computer Vision verwendeten Convolutional Neural Networks (CNNs) oder die Transformator-basierten Netzwerke, die in der Verarbeitung natürlicher Sprache (NLP) verwendet werden – oft zu einer Überanpassung: Das Modell könnte bei Testdaten gut abschneiden, aber bei realen Daten schlecht. Allerdings führt die Sammlung einer ausreichend großen Datenmenge, um eine Überanpassung zu vermeiden, häufig zu Engpässen bei der Modellschulung.
Transfer-Learning bietet eine praktische Lösung: Die Nutzung von nützlichen Merkmalen und Darstellungen, die ein trainiertes Modell bereits gelernt hat. Ein einfacher Ansatz besteht darin, ein Klassifizierungsmodell so zu abzustimmen, dass es die gleiche Aufgabe für eine neue Klasse durch überwachtes Lernen an einer kleinen Anzahl von gekennzeichneten Beispielen ausführt. Bei komplexeren Ansätzen werden neue Skills durch das Design relevanter nachgelagerter Aufgaben – oft Meta-Learning-Aufgaben – einem Modell beigebracht, das über selbstüberwachte Pretext-Aufgaben vortrainiert wurde: Dies ist im NLP-Bereich zunehmend üblich, insbesondere im Zusammenhang mit Foundation Models.
Komplexere Ansätze des Transfer-Learnings passen ein geschultes neuronales Netz über Änderungen an der Netzwerkarchitektur an: Zum Beispiel das Ersetzen oder Neutraining der äußeren Schichten eines neuronalen Netzes, in dem die endgültige Klassifizierung erfolgt, während gleichzeitig die internen Schichten beibehalten werden, in denen die Extraktion der Merkmale stattfindet. Das Einfrieren (oder anderweitige Regulieren von Änderungen) der Modellgewichtungen für alle außer den äußersten Schichten kann sicherstellen, dass nachfolgende Aktualisierungen nicht zu einem „katastrophalen Vergessen“ von bereits gelerntem Wissen führen. Auf diese Weise lässt sich das Few-Shot-Learning erheblich beschleunigen.
Transfer-Learning ist am erfolgreichsten, wenn das anfängliche Training des Modells für die neue Aufgabe relevant ist. Ein Modell, das beispielsweise auf bestimmte Vogelarten trainiert wurde, lässt sich nach der Feinabstimmung mit nur wenigen gekennzeichneten Stichproben gut auf unbekannte Vogelarten verallgemeinern, da die gelernten Gewichtungen der Filter, die das CNN für die Konvolution verwendet, bereits für die Erfassung von Merkmalen optimiert sind, die für die Klassifizierung von Vögeln relevant sind (z. B. Gefieder, Schnäbel, Flügelgröße usw.). Wenn man jedoch dasselbe Modell mit Few-Shot-Learning auf die Erkennung von Fahrzeugen trainiert, wird die Leistung weniger zufriedenstellend ausfallen.