Mein IBM Anmelden Abonnieren
Was ist Wissensdestillation?

Was ist Wissensdestillation?

Entdecken Sie die KI-Plattform von IBM Abonnieren Sie KI-Updates
Illustration mit Collage aus Piktogrammen von Wolken, Kreisdiagramm, Diagrammpiktogrammen

Veröffentlicht: 15. März 2024
Mitwirkende: Dave Bergmann

Was ist Wissensdestillation?

Was ist Wissensdestillation?

Die Wissensdestillation ist eine Technik des maschinellen Lernens, die darauf abzielt, das Gelernte von einem großen vortrainierten Modell, dem „Lehrermodell“, auf ein kleineres „Schülermodell“ zu übertragen. Sie wird beim Deep Learning als eine Form der Modellkomprimierung und des Wissenstransfers verwendet, insbesondere bei großen tiefen neuronalen Netzen.

Das Ziel der Wissensdestillation besteht darin, ein kompakteres Modell zu trainieren, um ein größeres, komplexeres Modell nachzuahmen. Während das Ziel beim herkömmlichen Deep Learning darin besteht, ein künstliches neuronales Netzwerk zu trainieren, um seine Vorhersagen näher an die in einem Trainingsdatensatz bereitgestellten Outputbeispiele zu bringen, besteht das Hauptziel bei der Wissensdestillation darin, das Schülernetzwerk so zu trainieren, dass es mit den Vorhersagen des Lehrernetzwerks übereinstimmt.

Wissensdestillation wird am häufigsten auf große tiefe neuronale Netze mit vielen Schichten und lernbaren Parametern angewendet. Dadurch wird diese Methode besonders relevant für die zunehmende Verbreitung von generativen KI-Modellen mit Milliarden von Parametern.

Das Konzept hat seinen Ursprung in einem Artikel aus dem Jahr 2006 mit dem Titel „Model Compression“. Caruana et al. verwendeten das damals modernste Klassifizierungsmodell, ein riesiges Ensemble-Modell, das aus Hunderten von Klassifikatoren auf Basisebene bestand, um einen großen Datensatz zu kennzeichnen, und trainierten dann durch konventionelles überwachtes Lernen ein einzelnes neuronales Netz auf diesen neu gekennzeichneten Datensatz. Dieses kompakte Modell war „tausendmal kleiner und schneller“ und erreichte die gleiche Leistung wie das Ensemble.1

Techniken zur Wissensdestillation werden seither erfolgreich in verschiedenen Bereichen eingesetzt, darunter die Verarbeitung natürlicher Sprache (NLP), Spracherkennung, Bilderkennung und Objekterkennung. In den letzten Jahren war die Untersuchung der Wissensdestillation für große Sprachmodelle (LLMs) von besonderer Bedeutung. Für LLMs hat sich Wissensdestillation als ein effektives Mittel erwiesen, um fortgeschrittene Fähigkeiten von führenden proprietären Modellen auf kleinere, leichter zugängliche Open-Source-Modelle zu übertragen.

Generative KI und ML für Unternehmen

Dieses E-Book beschreibt die wichtigsten Vorteile der unternehmensweiten Einführung von generativer KI und wie Unternehmen Foundation Models und maschinelles Lernen sicher in ihre Geschäftsabläufe einbinden können.

Ähnliche Inhalte Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen
Warum ist die Wissensdestillation wichtig?

Warum ist die Wissensdestillation wichtig?

In vielen realen Umgebungen sind Genauigkeit und Kapazität eines Modells für künstliche Intelligenz nicht für sich selbst ausreichend, um das Modell nützlich zu machen: Es muss auch den verfügbaren Zeit-, Speicher-, Geld- und Rechenressourcen entsprechen.

Die leistungsstärksten Modelle für eine bestimmte Aufgabe sind oft zu groß, zu langsam oder zu teuer für die meisten praktischen Anwendungsfälle. Sie haben jedoch oft einzigartige Qualitäten, die sich aus einer Kombination aus ihrer Größe und ihrer Fähigkeit zum Vortraining mit einer riesigen Menge an Trainingsdaten ergeben. Diese aufkommenden Fähigkeiten sind besonders bei autoregressiven Sprachmodellen wie GPT oder Llama erkennbar, die über ihr explizites Schulungsziel hinausgehen, einfach das nächste Wort in einer Sequenz vorherzusagen. Umgekehrt sind kleine Modelle schneller und weniger rechenintensiv, haben aber nicht die Genauigkeit, Verfeinerung und Wissenskapazität eines großen Modells mit weitaus mehr Parametern.  

In der wegweisenden Arbeit „Distilling the Knowledge in a Neural Network“ aus dem Jahr 2015 schlugen Hinton et al. vor, diese Einschränkungen zu umgehen, indem sie das Training in zwei verschiedene Phasen mit unterschiedlichen Zwecken unterteilten. Die Autoren stellten eine Analogie vor: Während viele Insekten eine Larvenform haben, die für die Aufnahme von Energie und Nährstoffen aus der Umwelt optimiert ist, und eine völlig andere erwachsene Form, die für die Fortbewegung und Fortpflanzung optimiert ist, werden beim herkömmlichen Deep Learning trotz der unterschiedlichen Anforderungen dieselben Modelle sowohl für die Trainings- als auch für die Bereitstellungsphase verwendet.

In Anlehnung an das Beispiel und die Arbeit von Caruana et al. schlugen Hinton et al. vor, dass es sich lohnt, große, komplexe Modelle zu trainieren, wenn dies der beste Weg ist, eine Struktur aus den Daten zu extrahieren – aber sie führten eine andere Art von Training ein, die Destillation, um dieses Wissen auf ein kleines Modell zu übertragen, das besser für die Bereitstellung in Echtzeit geeignet ist.2

Die Techniken der Wissensdestillation zielen nicht nur darauf ab, die Outputs von Lehrermodellen zu replizieren, sondern auch deren „Denkprozesse“ nachzuahmen. Im Zeitalter der LLMs hat Wissensdestillation die Übertragung abstrakter Qualitäten wie Stil, Argumentationsfähigkeiten und Ausrichtung auf menschliche Vorlieben und Werte ermöglicht.3

Darüber hinaus sind kleinere Modelle grundsätzlich besser erklärbar: In einem Modell mit Hunderten von Milliarden von Parametern ist es schwierig, die Beiträge verschiedener Teile des neuronalen Netzes zu interpretieren. Die Übertragung von Repräsentationen, die von großen „Blackbox-Modellen“ gelernt werden, auf einfachere Modelle kann dazu beitragen, transformative Erkenntnisse in Bereichen wie der medizinischen Diagnose und der molekularen Entdeckung zu gewinnen.4

Wie funktioniert die Wissensdestillation?

Wie funktioniert die Wissensdestillation?

Die Wissensdestillation (Knowledge distillation – KD) basiert nicht auf einer bestimmten neuronalen Netzarchitektur und erfordert nicht einmal, dass das Lehrernetzwerk und das Schülernetzwerk dieselbe Architektur haben: Sie kann auf jedes Deep-Learning-Modell angewendet werden.

Wissensdestillation macht sich die Tatsache zunutze, dass künstliche neuronale Netze „universelle Approximatoren“ sind: Bei genügend Trainingsdaten und einer ausreichend großen versteckten Schicht kann ein neuronales Netz jede Funktion mit beliebiger Genauigkeit approximieren.5

Beim herkömmlichen maschinellen Lernen wird das „Wissen“ eines trainierten Modells mit seinen erlernten Parametern identifiziert: die variablen Gewichtungen (und Verzerrungen), die auf die verschiedenen mathematischen Operationen im neuronalen Netz angewendet werden und die den Einfluss eines bestimmten Teils des Outputs des Netzes auf einen anderen Teil verstärken oder verringern. Diese Sichtweise von Wissen macht es schwer zu erkennen, wie ein Modell das Wissen eines anderen Modells von anderer Größe und Struktur aufnehmen kann.

Stattdessen verwendeten Hinton et al. eine abstraktere, flexiblere Sichtweise des Wissens einfach als „erlernte Zuordnung von Eingabevektoren zu Ausgabevektoren“. Mit anderen Worten: Wissensdestillation interpretiert das Wissen eines Modells nicht als die rein mathematischen Parameter, die es im Training lernt, sondern als die Art und Weise, wie es nach diesem Training auf neue Daten verallgemeinert.

Durch dieses alternative Verständnis von Wissen zielen die Methoden der Wissensdestillation darauf ab, die Schülermodelle so zu trainieren, dass sie nicht nur den endgültigen Output des Lehrermodells für eine bestimmte Eingabe nachahmen, sondern auch die Argumentationsschritte, die das Lehrermodell unternimmt, um zu diesem endgültigen Output zu gelangen. Konzeptionell funktioniert dies ähnlich wie die Abstimmung von Anweisungen durch CoT-Prompts (Chain-of-Thought, also Denkketten), die die Qualität von LLM-Antworten verbessern, indem sie ihnen beibringen, ihre Argumentation „Schritt für Schritt“ zu formulieren.

Beim konventionellen überwachten oder selbstüberwachten Lernen erzeugt eine Verlustfunktion einen Vektor, der die Divergenz (oder den Verlust) zwischen den Outputs des Modells und den „richtigen“ Outputs (oder Ground Truth) über verschiedene Eingaben hinweg darstellt. Durch Anpassen der Modellparameter, um die Steigung (oder den Gradienten) dieses Vektors durch einen Optimierungsalgorithmus wie den Gradientenabstieg zu minimieren, kommen die Ausgaben des Modells diesen korrekten Outputs näher. Die Argumentationsschritte des Modells sind zwar „wichtig“, da sie den endgültigen Output beeinflussen, werden aber in der Regel nicht mit einer herkömmlichen Verlustfunktion gemessen.

Wissensdestillation hingegen trainiert das Schülermodell auch darauf, den Denkprozess des Lehrermodells nachzuahmen, indem eine spezielle Art von Verlustfunktion, Destillationsverlust, hinzugefügt wird, bei der diskrete Denkschritte als weiche Ziele für die Optimierung verwendet werden.

Weiche Ziele

Der Output eines jeden KI-Modells kann als Vorhersage verstanden werden: ein autoregressives LLM sagt das nächste Wort bzw. die nächsten Wörter in einer bestimmten Sequenz voraus; ein Computer-Vision-Modell, das zur Bildklassifizierung verwendet wird, sagt die Kategorie eines bestimmten Bildes voraus. Um zu diesen endgültigen Vorhersagen zu gelangen, die in diesem Zusammenhang als „harte Ziele“ bezeichnet werden, machen Deep-Learning-Modelle in der Regel mehrere vorläufige Vorhersagen und verwenden eine Softmax-Funktion, um die Vorhersage mit der höchsten Wahrscheinlichkeit auszugeben. Während des Trainings wird eine Cross-Entropie-Verlustfunktion verwendet, um die Wahrscheinlichkeit für den richtigen Output zu maximieren und die Wahrscheinlichkeit für den falschen Output zu minimieren.

Ein Bildklassifizierungsmodell sagt beispielsweise die Wahrscheinlichkeit voraus, dass ein Eingabebild zu jeder bekannten Klasse gehört, auf deren Erkennung das Modell trainiert wurde, und gibt dann die Klasse mit dem höchsten Wahrscheinlichkeitswert aus. Im mathematischen Sprachgebrauch des maschinellen Lernens werden diese einzelnen klassenbezogenen Vorhersagen als Logits bezeichnet.Ebenso prognostiziert ein autoregressives LLM mehrere Möglichkeiten für jedes nächste Wort und (abhängig von seiner Temperatureinstellung) eine dieser Möglichkeiten für seine Leistung.

Bei der Wissensdestillation liefern diese vom Lehrermodell erzeugten Zwischenprognosen – die „weichen Ziele“ – oft die wichtigsten Trainingsdaten für das Schülermodell. Die relativen Wahrscheinlichkeiten, die diesen vorläufigen Vorhersagen zugewiesen werden, geben einen wertvollen Einblick in die Verallgemeinerung des Lehrermodells. Zum Beispiel ist es für ein Bildklassifizierungsmodell um ein Vielfaches wahrscheinlicher, ein Bild eines Fuchses als „Hund“ zu klassifizieren als als „Sandwich“. Weiche Ziele liefern somit weitaus mehr Informationen pro Trainingsfall als harte Ziele.

Weiche Zielvorgaben bieten auch mehr Konsistenz als harte Zielvorgaben: Die endgültige Vorhersage eines Modells könnte letztendlich von einer winzigen Differenz zwischen zwei Logit-Werten abhängen, aber die Logit-Werte selbst haben eine viel geringere Varianz im Gradienten zwischen den einzelnen Trainingsbeispielen.

Aufgrund der Fülle und Stabilität der von weichen Zielen bereitgestellten Informationen kann das Schülermodell anhand von weniger Trainingsbeispielen und einer höheren Lernrate trainiert werden, als sie beim Training des ursprünglichen Lehrermodells verwendet wurden.

Destillationsverlust

Um die Generalisierungstendenzen des Schülernetzwerks denen des Lehrernetzwerks anzunähern, werden bei der Wissensdestillation in der Regel zwei Verlustfunktionen verwendet. Die erste ist eine Standard-Verlustfunktion, die mit „hartem Verlust“ arbeitet und die endgültigen Ergebnisse des Schülermodells anhand der Ground-Truth-Labels (beim überwachten Lernen) oder anhand der ursprünglichen Datenstichprobe (beim selbstüberwachten Lernen) misst. Die zweite ist der Destillationsverlust, ein „weicher Verlust“, der die weichen Ziele des Schülermodells mit denen des Lehrers vergleicht.

Da es für jedes Trainingsbeispiel mehrere weiche Ziele geben kann, misst der Destillationsverlust den Unterschied zwischen der Wahrscheinlichkeitsverteilung der weichen Ziele des Lehrernetzwerks und der Wahrscheinlichkeitsverteilung des Schülernetzwerks. Zu diesem Zweck wird häufig die Kullback-Leibler-Divergenz (oder „KL-Divergenz“) verwendet.

Arten von Wissen in der Wissensdestillation

Arten von Wissen in der Wissensdestillation

Logits sind zwar der typische Schwerpunkt des Wissenstransfers zwischen Lehrern und Schülern, aber es gibt verschiedene Möglichkeiten, wie sich „Wissen“ in einem tiefen neuronalen Netz äußern kann. Andere Methoden zur Wissensdestillation konzentrieren sich auf Gewichte und Aktivierungen in den verborgenen Schichten des Netzwerks oder auf die Beziehungen zwischen verschiedenen Teilen des Netzwerks.

Diese verschiedenen Formen von Wissen lassen sich im Allgemeinen in eine von drei Kategorien einteilen: antwortbasiertes Wissen, merkmalbasiertes Wissen oder beziehungsbasiertes Wissen.

Antwortbasiertes Wissen

Antwortbasiertes Wissen, die häufigste Form der Wissensdestillation, konzentriert sich auf die Übertragung von Informationen aus der endgültigen Output-Schicht des Lehrermodells. Bei einer typischen antwortbasierten Methode der Wissensdestillation wird das Schülermodell darauf trainiert, Protokolle auszugeben, die mit den Vorhersagen des Lehrermodells übereinstimmen.

Wenn die weichen Ziele des Lehrermodells eine niedrige Entropie aufweisen – mit anderen Worten, wenn die Vorhersagen extrem „zuverlässig“ sind, etwa wenn ein Klassifizierungsmodell für eine Klasse einen Logit-Wert sehr nahe bei 1 (was Gewissheit darstellt) und für alle anderen Logits nahe 0 ausgibt –, liefern sie nicht so viele Informationen. Antwortbasierte Methoden verwenden daher oft eine hohe Temperatureinstellung für die Modellausgaben, was die Entropie der Modellvorhersagen erhöht. Dies gewährleistet eine variablere Wahrscheinlichkeitsverteilung und damit eine größere Menge an Informationen aus jedem Trainingsbeispiel.

Merkmalsbasiertes Wissen

Merkmalsbasiertes Wissen konzentriert sich auf Informationen, die in den Zwischenschichten oder „verborgenen Schichten“ eines neuronalen Netzes übermittelt werden. Hier führen neuronale Netze in der Regel eine Merkmalsextraktion durch, also die Identifizierung eindeutiger Merkmale und Muster der Eingabedaten, die für die jeweilige Aufgabe relevant sind.

In den konvolutionalen neuronalen Netzen, die vor allem für Computer-Vision-Aufgaben wie die Bildsegmentierung verwendet werden, erfasst jede aufeinanderfolgende verborgene Schicht zunehmend mehr Details, während die Daten durch das Netz übertragen werden. In einem Modell, das zur Klassifizierung von Tierbildern nach Arten verwendet wird, könnten die ersten versteckten Schichten einfach das Vorhandensein einer Tierform in einem Teil des Fotos erkennen; die mittleren versteckten Schichten könnten erkennen, dass es sich bei dem Tier um einen Vogel handelt; die letzten versteckten Schichten, kurz vor der Output-Schicht, würden die nuancierten Details erkennen, die eine Vogelart von einer anderen, eng verwandten Art unterscheiden.

Das Ziel merkmalbasierter Wissensdestillationsmethoden ist es daher, das Schülermodell so zu trainieren, dass es die gleichen Merkmale wie das Lehrernetzwerk lernt. Merkmalbasierte Destillationsverlustfunktionen werden verwendet, um den Unterschied zwischen den Merkmalsaktivierungen der beiden Netzwerke zu messen und dann zu minimieren.

Beziehungsbasiertes Wissen

Während sich sowohl antwortbasiertes als auch merkmalbasiertes Wissen auf die Ausgaben bestimmter Modellebenen konzentriert, konzentriert sich die beziehungsbasierte Wissensdestillation auf die Beziehungen zwischen verschiedenen Ebenen oder zwischen Merkmalskarten, die die Aktivierungen auf verschiedenen Ebenen oder an verschiedenen Orten darstellen.

Im Wesentlichen stellt das beziehungsbasierte Wissen vielleicht den umfassendsten Ansatz dar, um das Schülernetzwerk zu trainieren, den „Denkprozess“ des Lehrermodells nachzuahmen. Diese Beziehungen und Korrelationen können auf verschiedene Weise modelliert werden, einschließlich Korrelationen zwischen Merkmalskarten, Matrizen, die die Ähnlichkeit zwischen verschiedenen Schichten darstellen, Merkmalseinbettungen oder Wahrscheinlichkeitsverteilungen von Merkmalsdarstellungen.

Schemata der Wissensdestillation

Schemata der Wissensdestillation

Methoden zur Wissensdestillation können auch nach ihrer Auswirkung auf das Lehrernetzwerk kategorisiert werden. Während der ursprünglich von Hinton et al. vorgeschlagene Destillationsprozess und die vielen nachfolgenden Weiterentwicklungen dieser Methodik ausschließlich darauf abzielen, das Schülernetzwerk zu trainieren, beinhalten andere Destillationsschemata auch die gleichzeitige Aktualisierung der Gewichte des Lehrernetzwerks.

Offline-Destillation

Bei der Offline-Destillation ist das Lehrernetzwerk bereits vortrainiert und seine Modellgewichte werden eingefroren, um weitere Änderungen zu verhindern. Die Offline-Destillation ist typisch für viele KD-Ansätze für LLMs, bei denen das Lehrermodell oft ein größeres proprietäres Modell ist, für das die Modellgewichte nicht geändert werden können.

Online-Destillation

Unter bestimmten Umständen ist möglicherweise kein entsprechend vortrainiertes und angemessen leistungsfähiges Lehrermodell verfügbar, oder ein Data Scientist möchte das Lehrernetzwerk auf seinen spezifischen Anwendungsfall zuschneiden. Online-Destillationsprogramme zielen darauf ab, gleichzeitig sowohl die Lehrer- als auch die Schülernetzwerke zu schulen.

Zum Beispiel schlugen Cioppa et al. ein Online-Destillationsschema für semantische Segmentierungsmodelle vor, die bei Live-Sportereignissen verwendet werden, bei denen sich die visuellen Umstände während eines Spiels ändern können. Ziel war es, den Kompromiss zwischen der Geschwindigkeit eines kleineren Netzwerks und der Genauigkeit eines größeren Netzwerks zu umgehen, indem ein langsames, leistungsstarkes Modell kontinuierlich mit Live-Match-Daten trainiert und gleichzeitig das Wissen dieses größeren Modells in ein kleineres, schnelleres Modell umgewandelt wurde, das zur Generierung von Output in Echtzeit eingesetzt wurde.6

Selbstdestillation

Bei der Selbstdestillation fungiert ein Netzwerk sowohl als Lehrer als auch als Schüler. Während die herkömmliche Wissensdestillation die Übertragung von Wissen von einem Modell auf ein anderes beinhaltet, kann die Selbstdestillation als Übertragung von Wissen aus den tieferen Schichten eines Netzwerks auf die flachen Schichten desselben Netzwerks verstanden werden.7

Bei der Selbstdestillation werden den Zwischenschichten des Modells mehrere aufmerksamkeitsbasierte „flache Klassifikatoren“ in unterschiedlicher Tiefe hinzugefügt. Während des Trainings fungieren die tiefer liegenden Klassifikatoren als Lehrermodelle und leiten das Training der anderen aufmerksamkeitsbasierten Module durch zwei Arten von Destillationsverlusten: einen Verlust der KL-Divergenz-Metrik für die Outputs und einen L2-Regularisierungsverlust für die Merkmalszuordnungen.

Nachdem das Modell trainiert und für die Inferenz bereit ist, werden alle diese flachen Klassifikatoren aus dem Modell entfernt. Dadurch kann das Modell größer sein und während des Trainings eine höhere Kapazität für die Mustererkennung haben, aber kleiner und folglich schneller und effizienter sein, wenn es eingesetzt wird.

Wissensdestillation und LLMs

Wissensdestillation und LLMs

Mit dem Aufkommen von LLMs hat sich die Wissensdestillation zu einem wichtigen Mittel entwickelt, um die fortschrittlichen Fähigkeiten großer, oft proprietärer Modelle auf kleinere, oft Open-Source-Modelle zu übertragen. Als solche ist sie zu einem wichtigen Instrument bei der Demokratisierung der generativen KI geworden.

Die LLMs mit den stärksten Fähigkeiten sind in den meisten Fällen zu kostspielig und rechenintensiv, um für viele potenzielle Nutzer wie Hobbyisten, Start-ups oder Forschungseinrichtungen zugänglich zu sein. Darüber hinaus können proprietäre LLMs trotz ihrer fortschrittlichen Leistung und einzigartigen Fähigkeiten naturgemäß nicht auf Nischenanwendungen und spezifische Anwendungsfälle zugeschnitten werden.

Darüber hinaus sind die meisten kommerziell rentablen LLMs zu groß und rechenintensiv, um lokal auf Mobiltelefonen oder anderen Edge-Geräten verwendet zu werden. Dies bringt verschiedene logistische, rechnerische und datenschutzrechtliche Komplikationen mit sich, die mit einem kleineren Modell, das direkt auf mobilen Geräten ausgeführt werden könnte, umgangen werden könnten. Die Modellkomprimierung der Wissensdestillation ist daher ein vielversprechender Weg, um die neu entstehenden Eigenschaften großer Modelle auf Modelle zu übertragen, die klein genug sind, um auf dem Gerät ausgeführt zu werden.

Andere häufige Anwendungen der Wissensdestillation für LLMs sind:

Mehrsprachige Gestaltung von LLMs, beispielsweise durch die Verwendung mehrerer Lehrermodelle, von denen jedes auf eine andere Sprache spezialisiert ist, um linguistisches Wissen auf ein einzelnes Schülermodell zu übertragen8 oder durch gemeinsames Trainieren von Modellen in verschiedenen Sprachen, um ähnliche Einbettungen für denselben Satz zu generieren.9

Verwendung größerer, proprietärer LLMs zur Generierung von Datensätzen für die Befehlsoptimierung kleinerer Modelle. Beispielsweise lernt(e) das Orca-Modell von Microsoft „aus umfangreichen Signalen von GPT-4, darunter Erklärungsspuren, schrittweise Denkprozesse und andere komplexe Anweisungen“. 10

Verwendung eines Lehrermodells zur Einstufung der Outputs der Schüler, Destillation der Präferenzen und Ausrichtungseinstellungen durch eine Variante des verstärkenden Lernens aus menschlichem Feedback (RLHF), das sogenannte verstärkende Lernen aus KI-Feedback (RLAIF).11

Weiterführende Lösungen

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

Foundation Models in watsonx.ai

Entdecken Sie das KI-Studio von watsonx, das eine Bibliothek mit kostengünstigen, unternehmenstauglichen Foundation Models von IBM, Open-Source-Modellen und Modellen von Drittanbietern bietet, um Kunden und Partnern dabei zu helfen, generative KI schnell und mit minimalem Risiko zu skalieren und zu operationalisieren.

Entdecken Sie die IBM Bibliothek der Foundation Models
Ressourcen für die Wissensdestillation

Ressourcen für die Wissensdestillation

Was sind neuronale Netzwerke?

Mehr erfahren über künstliche neuronale Netze, die Modellarchitektur, die die Grundlage für Deep Learning und generative KI bildet.

Eine vergleichende Analyse aufgabenunabhängiger Destillationsmethoden zur Komprimierung von Transformer-Sprachmodellen

Weiter Informationen über die Anwendung von Methoden der Wissensdestillation im Bereich der LLMs. In diesem Artikel werden mehrere repräsentative Methoden zur allgemeinen Destillation transformatorbasierter Sprachmodelle reproduziert, verglichen und analysiert.

Was ist generative KI?

Das Wissen über generative KI vertiefen: Die Verwendung von KI zur Erstellung von Originalinhalten wie Text, Bildern, Videos, Audio oder Softwarecode als Antwort auf das Prompt oder die Anfrage eines Benutzers.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo
Fußnoten

Hinweis: Alle Links befinden sich außerhalb von ibm.com

1 „Model compression“, Proceedings of the Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 23. August 2006
2 „Distilling the Knowledge in a Neural Network“, arXiv, 9. März 2015
3 „A Survey on Knowledge Distillation of Large Language Models“, arXiv, 8. März 2024
4 „Improving drug-target affinity prediction via feature fusion and knowledge distillation“, Briefings in Bioinformatics, Mai 2023
5 „A three layer neural network can represent any multivariate function“, arXiv, 16. Januar 2022
6 „ARTHuS: Adaptive Real-Time Human Segmentation in Sports Through Online Distillation“, 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019
7 „Self-Distillation: Towards Efficient and Compact Neural Networks“, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, Nr. 8, Seiten 4388-4403, 1. August 2022
8 „Multilingual Neural Machine Translation with Knowledge Distillation“, arXiv, 30. April 2019
9 „Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation“, arXiv, 21. April 2020
10 „Orca: Progressive Learning from Complex Explanation Traces of GPT-4“, Hugging Face, 5. Juni 2023
11 „RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback“, arXiv, 1. September 2023