Startseite Themen Transferlernen Was ist Transferlernen?
watsonx.ai erkunden Think-Newsletter abonnieren
Isometrische Darstellung des Transferlernens

Veröffentlicht: 12. Februar 2024
Mitwirkende: Jacob Murel Ph.D., Eda Kavlakoglu

 

Beim Transferlernen werden vortrainierte Modelle aus einer Aufgabe oder einem Datensatz des maschinellen Lernens verwendet, um die Leistung und Verallgemeinerbarkeit bei einer verwandten Aufgabe oder einem Datensatz zu verbessern.

Transferlernen ist eine Technik des maschinellen Lernens, bei der das durch eine Aufgabe oder einen Datensatz gewonnene Wissen genutzt wird, um die Modellleistung bei einer anderen, verwandten Aufgabe und/oder einem anderen Datensatz zu verbessern.1 Mit anderen Worten: Transferlernen nutzt das, was in einer Umgebung gelernt wurde, um die Generalisierung in einer anderen Umgebung zu verbessern.2 Transferlernen hat viele Anwendungen, von der Lösung von Regressionsproblemen in der Data Science bis hin zum Training von Deep Learning-Modellen. Angesichts der großen Datenmengen, die für die Erstellung von tiefen neuronalen Netzwerken benötigt werden, ist sie für letztere besonders interessant.

Herkömmliche Lernprozesse erstellen für jede neue Aufgabe ein neues Modell, das auf den verfügbaren markierten Daten basiert. Das liegt daran, dass herkömmliche Algorithmen für maschinelles Lernen davon ausgehen, dass Trainings- und Testdaten aus demselben Funktionsraum stammen. Wenn sich also die Datenverteilung ändert oder das trainierte Modell auf einen neuen Datensatz angewendet wird, muss der Benutzer ein neues Modell von Grund auf neu trainieren, selbst wenn er eine ähnliche Aufgabe wie das erste Modell versucht (z. B. Stimmungsanalyse-Klassifikator für Filmkritiken im Vergleich zu Songkritiken). Algorithmen des Transferlernens hingegen nehmen bereits trainierte Modelle oder Netzwerke als Ausgangspunkt. Es wendet dann das Wissen des Modells, das in einer ursprünglichen Ausgangsaufgabe oder -daten (z. B. Klassifizierung von Filmkritiken) gewonnen wurde, auf eine neue, aber verwandte Zielaufgabe oder -daten (z. B. Klassifizierung von Songkritiken) an.3

Schauen Sie sich IBM watsonx näher an

Lernen Sie IBM watsonx kennen und erfahren Sie, wie Sie mit statistischen Datensätzen Modelle für maschinelles Lernen erstellen können.

Ähnliche Inhalte

IBM Newsletter abonnieren

Vor- und Nachteile des Transferlernens
Vorteile

Rechenkosten. Transferlernen reduziert die erforderlichen Rechenkosten für die Erstellung von Modellen für neue Probleme. Durch die Wiederverwendung von angelernten Modellen oder Netzwerken für eine andere Aufgabe können Benutzer die Trainingszeit für das Modell, die Trainingsdaten, die Prozessoreinheiten und andere Rechenressourcen reduzieren. Zum Beispiel eine geringere Anzahl von Epochen – d. h. Durchläufen durch einen Datensatz – erforderlich sein, um eine gewünschte Lernrate zu erreichen. Auf diese Weise kann Transferlernen Modelltrainingsprozesse beschleunigen und vereinfachen.

Größe des Datensatzes. Das Transferlernen hilft insbesondere dabei, die Schwierigkeiten bei der Beschaffung großer Datensätze zu verringern. Zum Beispiel benötigen große Sprachmodelle (LLMs) große Mengen an Trainingsdaten, um eine optimale Leistung zu erzielen. Die Qualität öffentlich verfügbarer Daten kann begrenzt sein, und die Erstellung ausreichender manuell beschrifteter Daten kann zeitaufwändig und teuer sein.

- Verallgemeinerbarkeit. Während das Transferlernen die Modelloptimierung unterstützt, kann es die Verallgemeinerbarkeit eines Modells weiter erhöhen. Da beim Transferlernen ein bestehendes Modell mit einem neuen Datensatz neu trainiert wird, besteht das neu trainierte Modell aus Wissen, das aus mehreren Datensätzen gewonnen wurde. Es wird potenziell eine bessere Leistung bei einer größeren Vielfalt von Daten zeigen als das ursprüngliche Basismodell, das nur auf einer Art von Datensatz trainiert wurde. Transferlernen kann daher die Überanpassung hemmen.4

Natürlich kann der Wissenstransfer von einem Bereich in einen anderen die negativen Auswirkungen von Daten schlechter Qualität nicht ausgleichen. Vorverarbeitungstechniken und Feature-Engineering, wie z.B. Datenerweiterung und Merkmalsextraktion, sind auch bei der Anwendung des Transferlernen weiterhin notwendig.

Nachteile

Es ist weniger so, dass das Transferlernen Nachteile mit sich bringt, als dass es potenzielle negative Folgen hat, die aus seiner falschen Anwendung resultieren. Transferlernen funktioniert am besten, wenn drei Bedingungen erfüllt sind:

  • Beide Lernaufgaben sind ähnlich
  • Die Datenverteilungen von Ausgangs- und Zieldatensätzen variieren nicht allzu stark
  • Auf beide Aufgaben kann ein vergleichbares Modell angewendet werden

Wenn diese Bedingungen nicht erfüllt sind, kann sich das Transferlernen negativ auf die Modellleistung auswirken. In der Literatur wird dies als negativer Transfer bezeichnet. In der laufenden Forschung werden verschiedene Tests vorgeschlagen, um festzustellen, ob Datensätze und Aufgaben die oben genannten Bedingungen erfüllen und somit nicht zu einem negativen Transfer führen.5 Der Ferntransfer ist eine Methode, die entwickelt wurde, um einen negativen Transfer zu korrigieren, der aus einer zu großen Unähnlichkeit der Datenverteilungen von Ausgangs- und Zieldatensätzen resultiert.6

Beachten Sie, dass es keine weit verbreitete, standardisierte Metrik zur Bestimmung der Ähnlichkeit zwischen Aufgaben beim Transferlernen gibt. Eine Handvoll Studien schlägt jedoch verschiedene Bewertungsmethoden vor, um Ähnlichkeiten zwischen Datensätzen und Aufgaben des maschinellen Lernens und damit die Durchführbarkeit des Transferlernens vorherzusagen.7

Arten des Transferlernens

Es gibt drei ähnliche Praktiken oder Unterkategorien des Transferlernens. Ihre Unterscheidung voneinander – wie auch die des Transferlernens im Allgemeinen – resultiert größtenteils aus den Veränderungen in der Beziehung zwischen der Ausgangsdomain, der Zieldomain und den zu erledigenden Aufgaben.8

Induktiver Transfer. Dies ist der Fall, wenn die Ausgangs- und die Zielaufgaben unterschiedlich sind, unabhängig von Unterschieden oder Ähnlichkeiten zwischen den Ziel- und Ausgangsdomänen (d. h. Datensätze). Dies kann sich in Computer-Vision-Modellen äußern, wenn Architekturen, die für die Merkmalsextraktion auf großen Datensätzen vortrainiert wurden, dann für das weitere Training auf eine spezifische Aufgabe, wie die Objekterkennung, übernommen werden. Das Multitasking-Lernen, bei dem zwei verschiedene Aufgaben (z.B. Bildklassifizierung und Objekterkennung) gleichzeitig auf demselben Datensatz gelernt werden, kann als eine Form des induktiven Transfers betrachtet werden.9

Unüberwachtes Lernen. Dies ähnelt dem induktiven Transfer, da die Ziel- und Ausgangsaufgaben unterschiedlich sind. Bei dem induktiven Transfer werden die Ausgangs- und/oder Zieldaten jedoch oft gekennzeichnet. Wie der Name schon sagt, ist das unbeaufsichtigte Transferlernen unbeaufsichtigt, d. h. es gibt keine manuell markierten Daten.10 Im Vergleich dazu kann das induktive Transferlernen als überwachtes Lernen betrachtet werden. Eine gängige Anwendung von unbeaufsichtigtem Lernen ist die Betrugserkennung. Durch die Identifizierung gemeinsamer Muster in einem unbeschrifteten Transaktionsdatensatz kann ein Modell weiter lernen, abweichendes Verhalten als möglichen Betrug zu erkennen.

Transduktiver Transfer. Dies ist der Fall, wenn die Ausgangs- und die Zielaufgabe identisch sind, aber die Datensätze (oder Domänen) unterschiedlich sind. Konkret sind die Ausgangsdaten in der Regel beschriftet, während die Zieldaten nicht beschriftet sind. Die Domänenanpassung ist eine Form des transduktiven Lernens, da sie das Wissen, das bei der Durchführung einer Aufgabe in einer Datenverteilung gewonnen wurde, auf die gleiche Aufgabe in einer anderen Datenverteilung anwendet.11 Ein Beispiel für transduktives Transferlernen ist die Anwendung eines Textklassifizierungsmodells, das auf Restaurantkritiken trainiert und getestet wurde, um Filmkritiken zu klassifizieren.

Transferlernen versus Feinabstimmung

Transferlernen unterscheidet sich von Feinabstimmung. Beide verwenden zwar bereits vorhandene Modelle für maschinelles Lernen, anstatt neue Modelle zu trainieren. Aber damit enden die Ähnlichkeiten schon. Die Feinabstimmung bezieht sich auf den Prozess des weiteren Trainings eines Modells auf einem aufgabenspezifischen Datensatz, um die Leistung bei der ursprünglichen, spezifischen Aufgabe, für die das Modell erstellt wurde, zu optimieren. So kann man beispielsweise ein Modell für die allgemeine Objekterkennung erstellen, indem man umfangreiche Datensätze wie COCO oder ImageNet verwendet und das resultierende Modell dann auf einem kleineren, beschrifteten Datensatz speziell für die Autoerkennung trainiert. Auf diese Weise kann der Benutzer ein Objekterkennungsmodell für die Autoerkennung verfeinern. Im Gegensatz dazu bedeutet Transferlernen, dass Benutzer ein Modell an ein neues, verwandtes Problem anpassen, und nicht an dasselbe.

Anwendungsfälle des Transferlernen

Es gibt viele Einsatzmöglichkeiten des Transferlernens in der realen Welt des maschinellen Lernens und der künstlichen Intelligenz. Entwickler und Datenwissenschaftler können Transferlernen für eine Vielzahl von Aufgaben einsetzen und es mit anderen Lernansätzen wie dem Reinforcement Learning kombinieren.

Verarbeitung natürlicher Sprache

Ein hervorstechendes Problem beim Transferlernen in NLP ist die fehlende Übereinstimmung von Funktionen. Merkmale in verschiedenen Bereichen können unterschiedliche Bedeutungen und damit Konnotationen haben (z. B. „light” – engl. für „leicht” oder „Licht” – steht für Gewicht und Optik). Diese Unterschiede in der Merkmalsdarstellung wirken sich auf Aufgaben zur Stimmungsklassifizierung, Sprachmodelle und mehr aus. Auf Deep Learning basierende Modelle – insbesondere Worteinbettungen – sind vielversprechend, um dies zu korrigieren, da sie semantische Beziehungen und Orientierungen für Domänenanpassungsaufgaben adäquat erfassen können.12

Computervision

Da es schwierig ist, genügend manuell beschriftete Daten für verschiedene Computer-Vision-Aufgaben zu erhalten, werden in zahlreichen Forschungsarbeiten Anwendungen zum Transferlernen mit konvolutionalen neuronalen Netzen (CNNs) untersucht. Ein bekanntes Beispiel ist ResNet, eine vortrainierte Modellarchitektur, die eine verbesserte Leistung bei der Bildklassifizierung und Objekterkennung zeigt.13 Neuere Forschungen untersuchen den renommierten ImageNet-Datensatz für das Transfer-Lernen und argumentieren, dass (entgegen der Volksweisheit der Computer Vision) nur kleine Teilmengen dieses Datensatzes benötigt werden, um zuverlässig verallgemeinerbare Modelle zu trainieren.14 Viele Tutorials zum Transferlernen für Computer Vision verwenden entweder ResNet oder ImageNet mit der keras-Bibliothek von keras-Bibliothek von TensorFlow.

Zugehörige Ressourcen CodeFlare beschleunigt die Übertragung von Lernaufgaben

IBM-Forscher diskutieren, wie CodeFlare die Zeit für das Training von TL-Aufgaben für Foundation Models reduziert.

Effizientes äquivariantes Transferlernen aus vortrainierten Modellen

Die IBM-Forscher stellen einen äquivarianten TL-Algorithmus vor, der die Gewichtung der Merkmale mittelt, um sie einfacher und allgemeiner zu machen.

Transferlernen ermöglicht Vorhersagen der Kohlenhydratreaktion

IBM-Forscher schlagen eine TL-Methode zur Verbesserung der Modellvorhersagen von molekularen Kohlenhydratreaktionen vor.

Machen Sie den nächsten Schritt

Entwickeln Sie eine KI-Strategie für Ihr Unternehmen auf einer kollaborativen KI- und Datenplattform – IBM watsonx. Trainieren, validieren, optimieren und implementieren Sie KI-Modelle, um den Nutzen von KI mit vertrauenswürdigen Daten in Ihrem gesamten Unternehmen zu skalieren und zu beschleunigen.

watsonx erkunden Buchen Sie eine Live-Demo
Fußnoten

1 Emilio Soria Olivas, Jose David Martin Guerrero, Marcelino Martinez Sober, Jose Rafael Magdalena Benedito, Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.

2 Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016.

3 Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3. Edition, Elsevier, 2012.

4 Jindong Wang und Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.

5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui „A Survey on Negative Transfer” IEEE/CAA Journal of Automatica Sinica, Vol. 10, No. 2, 2023, S. 305-329, https://arxiv.org/abs/2009.00909 (Link befindet sich außerhalb von ibm.com).

6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, „Transitive Transfer Learning,” Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, S .1155-1164, https://dl.acm.org/doi/10.1145/2783258.2783295 (Link befindet sich außerhalb von ibm.com). Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, „Domain Distant Transfer”, Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017, S. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614 (Link befindet sich außerhalb von ibm.com).

7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille, Boyu Wang, Christian Gagné, „A Principled Approach for Learning Task Similarity in Multitask Learning”, Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, S. 3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf (Link befindet sich außerhalb von ibm.com). Kshitij Dwivedi und Gemma Roig, „Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning,” Proceedings of Conference on Computer Vision and Pattern Recognition, 2019, S .12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf (Link befindet sich außerhalb von ibm.com). Javier García, Álvaro Visús, and Fernando Fernández, „A taxonomy for similarity metrics between Markov decision processes,” Machine Learning, Vol. 111, 2022, S. 4217—4247, https://link.springer.com/article/10.1007/s10994-022-06242-4 (Link befindet sich außerhalb von ibm.com).

8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung und Mohammad Abdul Azim, „Transfer Learning: a friendly introduction” Journal of Big Data, Vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w (Link befindet sich außerhalb von ibm.com). Sinno Jialin Pan und Qiang Yang, „A Survey on Transfer Learning”, IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 10, 2010, S. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (Link befindet sich außerhalb von ibm.com).

9 Sinno Jialin Pan and Qiang Yang, „A Survey on Transfer Learning,” IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 10, 2010, S. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (Link befindet sich außerhalb von ibm.com). Ricardo Vilalta, „Inductive Transfer,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

10 Sinno Jialin Pan and Qiang Yang, „A Survey on Transfer Learning,” IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 10, 2010, S. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (Link befindet sich außerhalb von ibm.com).

11 Sinno Jialin Pan and Qiang Yang, „A Survey on Transfer Learning,” IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 10, 2010, S. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (Link befindet sich außerhalb von ibm.com).
Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

12 Qiang Yang, Transfer learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz und Roi Reichart, „PERL: Pivot-based Domain Adaptation for Pre-Trained Deep Contextualized Embedding Models”, Transactions of the Association for Computational Linguistics, Vol. 8, 2020, S. 504–521, https://aclanthology.org/2020.tacl-1.33.pdf (Link befindet sich außerhalb von ibm.com).

13 Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, „Deep Residual Learning for Image Recognition,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, S. 770-778, https://ieeexplore.ieee.org/document/7780459 (Link befindet sich außerhalb von ibm.com).

14 Minyoung Huh, Pulkit Agrawal und Alexei Efros, „What makes ImageNet good for transfer learning?” Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/ (Link befindet sich außerhalb von ibm.com).