Mein IBM

Anmelden

Was ist Few-Shot-Learning?

Few-Shot-Learning ist ein Framework für maschinelles Lernen, bei dem ein KI-Modell lernt, genaue Vorhersagen zu treffen, indem es mit einer sehr kleinen Anzahl von gekennzeichneten Beispielen trainiert wird. Es wird in der Regel verwendet, um Modelle für Klassifizierungsaufgaben zu trainieren, wenn es nur wenige geeignete Trainingsdaten gibt.

Few-Shot-Learning (FSL) ist eine Untergruppe dessen, was manchmal generell als n-Shot-Learning bezeichnet wird. Zu dieser Kategorie der künstlichen Intelligenz gehören auch das One-Shot-Learning (bei dem es nur ein gekennzeichnetes Beispiel jeder zu lernenden Klasse gibt) und das Zero-Shot-Learning (bei dem es überhaupt keine gekennzeichneten Beispiele gibt). Während das One-Shot-Learning im Grunde nur eine anspruchsvolle Variante des FSL ist, stellt das Zero-Shot-Learning ein eigenständiges Lernproblem dar, das seine eigenen Methoden erfordert.

Im Prinzip zielt FSL darauf ab, die menschliche Fähigkeit nachzuahmen, aus einer Handvoll Beispielen zu lernen. Dies steht im Gegensatz zum konventionellen überwachten Lernen, das in der Regel Hunderte (oder Tausende) gekennzeichnete Datenpunkte über viele Trainingsrunden hinweg verwendet, um KI-Modelle darin zu schulen, Datenklassen zu erkennen. Obwohl leistungsfähiges, überwachtes Lernen in manchen realen Situationen nicht praktikabel ist, gestaltet sich die Beschaffung gekennzeichneter Beispiele oft schwierig. Das liegt daran, weil die Kosten zu hoch sind, weil fachbereichsspezifische Expertise erforderlich ist, um die Daten korrekt zu kennzeichnen, oder weil es – wie bei einzigartigen Handschriften, seltenen Krankheiten oder gefährdeten und neu entdeckten Arten – nur wenige Stichproben gibt.

Während bestimmte Algorithmen und neuronale Netzarchitekturen bei FSL-Aufgaben bemerkenswerte Erfolge erzielt haben, wird das Few-Shot-Learning eher durch die Art des Lernproblems definiert als durch die Verwendung einer bestimmten Methode oder Modellstruktur. Die Bandbreite der Methoden für Few-Shot-Learning ist groß und reicht von der Anpassung bereits trainierter Modelle für ähnliche Aufgaben über die Verwendung generativer Modelle zur Erstellung neuer Stichproben bis hin zu Meta-Learning-Methoden, bei denen Modelle so trainiert werden, dass sie sich für neue Klassifizierungsprobleme und verschiedene Datenklassen gut verallgemeinern lassen, anstatt nur eine bestimmte Aufgabe zu erfüllen.

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Abonnieren Sie noch heute

Wie funktioniert die „Few-Shot“-Klassifizierung?

Obwohl beim Few-Shot-Learning eine große Vielfalt an Algorithmen oder neuronalen Netzarchitekturen zum Einsatz kommen kann, basieren die meisten Methoden auf Transfer-Learning oder Meta-Learning (oder einer Kombination aus beiden).

Während Few-Shot-Learning auch auf Regressionsaufgaben (oder sogar Reinforcement Learning) angewendet werden kann, konzentriert sich der Großteil der FSL-Literatur auf Anwendungsfälle der Klassifizierung. Einige FSL-Methoden können zusammen mit anderen Lösungen verwendet werden, die die Unklarheit gekennzeichneter Daten angehen: z. B. bei halbüberwachten Lernmethoden, die Informationen aus großen Mengen von nicht gekennzeichneten Daten zusammen mit Informationen aus dem Few-Shot-Learning auf der Grundlage der begrenzten Anzahl von gekennzeichneten Stichproben einbeziehen.¹

Transferlernen

Auf Transfer-Learning basierende Methoden konzentrieren sich auf die Anpassung eines vorab trainierten Modells, um neue Aufgaben oder bisher unbekannte Datenklassen zu erlernen.

Wenn nur wenige gekennzeichnete Stichproben zur Verfügung stehen, führt die Verwendung von überwachtem Lernen zum Trainieren eines Modells von Grund auf – insbesondere eines Modells mit einer großen Anzahl von Parametern, wie z. B. die typischerweise in der Computer Vision verwendeten Convolutional Neural Networks (CNNs) oder die Transformator-basierten Netzwerke, die in der Verarbeitung natürlicher Sprache (NLP) verwendet werden – oft zu einer Überanpassung: Das Modell könnte bei Testdaten gut abschneiden, aber bei realen Daten schlecht. Allerdings führt die Sammlung einer ausreichend großen Datenmenge, um eine Überanpassung zu vermeiden, häufig zu Engpässen bei der Modellschulung.

Transfer-Learning bietet eine praktische Lösung: Die Nutzung von nützlichen Merkmalen und Darstellungen, die ein trainiertes Modell bereits gelernt hat. Ein einfacher Ansatz besteht darin, ein Klassifizierungsmodell so zu abzustimmen, dass es die gleiche Aufgabe für eine neue Klasse durch überwachtes Lernen an einer kleinen Anzahl von gekennzeichneten Beispielen ausführt. Bei komplexeren Ansätzen werden neue Skills durch das Design relevanter nachgelagerter Aufgaben – oft Meta-Learning-Aufgaben – einem Modell beigebracht, das über selbstüberwachte Pretext-Aufgaben vortrainiert wurde: Dies ist im NLP-Bereich zunehmend üblich, insbesondere im Zusammenhang mit Foundation Models.

Komplexere Ansätze des Transfer-Learnings passen ein geschultes neuronales Netz über Änderungen an der Netzwerkarchitektur an: Zum Beispiel das Ersetzen oder Neutraining der äußeren Schichten eines neuronalen Netzes, in dem die endgültige Klassifizierung erfolgt, während gleichzeitig die internen Schichten beibehalten werden, in denen die Extraktion der Merkmale stattfindet. Das Einfrieren (oder anderweitige Regulieren von Änderungen) der Modellgewichtungen für alle außer den äußersten Schichten kann sicherstellen, dass nachfolgende Aktualisierungen nicht zu einem „katastrophalen Vergessen“ von bereits gelerntem Wissen führen. Auf diese Weise lässt sich das Few-Shot-Learning erheblich beschleunigen.

Transfer-Learning ist am erfolgreichsten, wenn das anfängliche Training des Modells für die neue Aufgabe relevant ist. Ein Modell, das beispielsweise auf bestimmte Vogelarten trainiert wurde, lässt sich nach der Feinabstimmung mit nur wenigen gekennzeichneten Stichproben gut auf unbekannte Vogelarten verallgemeinern, da die gelernten Gewichtungen der Filter, die das CNN für die Konvolution verwendet, bereits für die Erfassung von Merkmalen optimiert sind, die für die Klassifizierung von Vögeln relevant sind (z. B. Gefieder, Schnäbel, Flügelgröße usw.). Wenn man jedoch dasselbe Modell mit Few-Shot-Learning auf die Erkennung von Fahrzeugen trainiert, wird die Leistung weniger zufriedenstellend ausfallen.

Ansatz auf Datenebene

Eine alternative Lösung für das Problem der begrenzten gekennzeichneten Datenstichproben besteht darin, zusätzliche Stichproben für das Training zu generieren. Dies ist besonders nützlich, wenn Beispiele für eine bestimmte Datenklasse aus der realen Welt äußerst selten sind, wie dies bei seltenen Krankheiten oder exotischen Arten der Fall sein kann.

Die Datengenerierung über generative Modelle wie Generative Adversarial Networks (GANs) oder Variational Autoencoder (VAEs) kann potenziell genügend Stichproben liefern, die den ursprünglich gekennzeichneten Stichproben ähneln, um konventionelles überwachtes Lernen durchzuführen, vorausgesetzt, die ursprünglichen Stichproben waren ausreichend vielfältig, um eine Überanpassung zu vermeiden.

Die Datenerweiterung, also die Erstellung neuer Stichproben durch Anwendung verschiedener Transformationen auf die ursprünglichen Stichproben, kann mit anderen Methoden kombiniert werden: Sie kann zum Beispiel verwendet werden, um passende Stichproben für die Verwendung beim metrischen Meta-Learning zu erstellen, ähnlich wie beim kontrastiven selbstüberwachten Lernen.

Meta-Learning

Anders als beim überwachten Lernen oder bei der Feinabstimmung, bei der ein Klassifikator für genau die Aufgaben trainiert wird, für die er verwendet werden soll, und die Trainingsmenge dieselben Klassen enthält, an denen das Modell getestet werden soll, verfolgt das Meta-Learning einen breiteren, indirekteren Ansatz. Während Ansätze, die auf dem Transfer-Learning aufbauen, vortrainierte Modelle anpassen, werden bei Meta-Learning-Methoden die Systeme oft von Grund auf neu trainiert. 

Laut Santoro et al. bezieht sich „Meta-Learning“ auf Szenarien, in denen mehrere Aufgaben verwendet werden, um ein Modell sowohl auf kurz- als auch auf langfristiger Ebene zu trainieren. Innerhalb jeder Aufgabe lernt das Modell schnell, um Vorhersagen zu treffen, die für den begrenzten Bereich dieser spezifischen Aufgabe relevant sind. Aufgabenübergreifend sammelt das Modell nach und nach Wissen, indem es die Art und Weise erfasst, wie sich Muster und Aufgabenstruktur in den verschiedenen Zielbereichen unterscheiden. Dieser zweistufige Prozess wird oft als Modell des „Lernens zum Lernen“ beschrieben. ²

Das Ziel vieler bekannter Meta-Learning-Methoden besteht beispielsweise darin, eine Modellfunktion über mehrere Trainingsepisoden hinweg so zu trainieren, dass sie eine Vorhersage für den Grad der Ähnlichkeit zwischen Datenpunkten aus beliebigen Klassen – einschließlich Klassen, die das Modell noch nicht gesehen hat – ausgibt, um dann die Erkenntnisse aus diesem Prozess so zu nutzen, dass nachgelagerte Aufgaben (wie speziell definierte Klassifizierungsprobleme) gelöst werden können.

Einige Meta-Learning-Ansätze funktionieren auf einer abstrakteren Ebene, indem sie Modelle so trainieren, dass sie leicht zu trainieren sind. Beim traditionellen überwachten Lernen werden die Parameter eines Modells (wie Gewichtungen und Bias) „gelernt“, während die Hyperparameter des Modells – wie die Lernrate oder die Art und Weise, wie Parameter initialisiert werden – vor dem Training konfiguriert werden müssen und nicht Teil des Lernprozesses sind. Das Meta-Learning kann ähnliche Vorteile wie das Transfer-Learning bieten, indem es ideale Ausgangspunkte lernt: Parameterinitialisierungen oder andere Hyperparameter, die sich mit einer minimalen Anzahl von Trainingsschritten gut auf verschiedene Datensätze verallgemeinern lassen.

N-Way-K-Shot-Klassifizierung

Obwohl für das Few-Shot-Learning eine Vielzahl von Modellarchitekturen des maschinellen Lernens verwendet werden können, folgt die Struktur des FSL-Trainings und der Bewertung im Allgemeinen einem N-Way-K-Shot-Framework, in dem N die Anzahl der Klassen und K die Anzahl der Beispiele (oder „Shots“) für jede Klasse darstellt.

 Bei der N-Way-K-Shot-Klassifizierung durchläuft das Modell mehrere Trainingsepisoden. Jede Trainingsepisode besteht aus einer oder mehreren Trainingsaufgaben. Modelle werden anhand von Testaufgaben ausgewertet, deren Struktur die der Trainingsaufgaben widerspiegeln. Jede Trainingsaufgabe (und Testaufgabe) umfasst dabei zwei Datensätze:

Die Unterstützungsmenge enthält K-gekennzeichnete Trainingsstichproben für jede der N-Klassen. Das Modell verwendet diese Unterstützungsstichproben, um verallgemeinerte Darstellungen für jede Klasse zu lernen. Der Datensatz für eine 3-Way-2-Shot-Klassifizierungsaufgabe enthält zum Beispiel 3 Bildklassen und liefert jeweils 2 Beispiele. Wenn K=1 ist, handelt es sich um One-Shot-Learning. Wenn K=0 ist, handelt es sich um Zero-Shot-Learning, das in der Regel eindeutige Lösungen erfordert.
Der Abfragesatz enthält ein oder mehrere neue Beispiele für jede der N-Klassen. Mithilfe von Repräsentationen, die aus der Unterstützungsmenge gelernt wurden, sagt das Modell die Klassifizierung für jedes Beispiel in der Abfragemenge voraus. Eine Verlustfunktion misst die Divergenz („Verlust“) zwischen den Vorhersagen des Modells und den „richtigen“ Vorhersagen. Nach jeder Trainingsepisode werden die Modellparameter angepasst – optimiert –, um Verluste zu minimieren.

Da das Ziel des Meta-Learnings darin besteht, Modelle so zu trainieren, dass sie gut für unbekannte Daten verallgemeinert werden können, und nicht darin, bestimmte Datenklassen zu erkennen, umfasst jede Trainingsaufgabe in der Regel andere Datenklassen als die, die in den vorangegangenen Trainingsaufgaben verwendet wurden.

Um die Fähigkeit des Modells zu testen, genaue Ähnlichkeitsvorhersagen für bisher unbekannte Klassen zu treffen, müssen die zum Testen verwendete Unterstützungsmenge und die Abfragemenge völlig neue Datenklassen enthalten, mit denen das Modell bei den Trainingsaufgaben noch nicht in Berührung gekommen ist.

Metrikbasiertes Meta-Learning

Metrikbasierte Meta-Learning-Algorithmen funktionieren im Prinzip ähnlich wie die von K-Nächste-Nachbarn: Statt Klassifizierung vorherzusagen, indem die Entscheidungsgrenze zwischen Klassen direkt modelliert wird, generieren metrikbasierte Ansätze einen kontinuierlichen Wert (z. B. eine Vektoreinbettung), um eine bestimmte Datenprobe darzustellen, und sie ziehen Schlüsse, indem sie eine Funktion erlernen, die eine Distanzmetrik misst, die die Ähnlichkeit zwischen diesem Wert und dem Wert der verschiedenen Proben oder Klassen, mit denen er verglichen wird, darstellt.

Metrikbasierte FSL-Algorithmen

Siamesische Netzwerke

Siamesische Netzwerke, eine relativ frühe Entwicklung von metrikbasierten Algorithmen, lösen Binärklassifizierungsprobleme durch kontrastierendes Lernen: Bei zwei Stichproben sagen siamesische Netzwerke voraus, ob es sich um ein positives (übereinstimmendes) oder negatives (nicht übereinstimmendes) Paar handelt. Die Verlustfunktion des Modells wird verwendet, um den Abstand zwischen Vektoreinbettungen positiver Paare zu minimieren und den Abstand zwischen Einbettungen negativer Paare zu maximieren. Triplet-Verlust-Modelle sind ziemlich ähnlich: Angesichts einer Ankerprobe und zwei zusätzlichen Stichproben – eine stimmt überein, die andere nicht – sagt das Modell voraus, welche eine positive Übereinstimmung ist und welche eine negative.

Bei beiden Methoden ist es wichtig, dass die Trainingsproben relativ schwer voneinander zu unterscheiden sind – andernfalls wird das Modell nicht gezwungen, Parameter zu lernen, die effektivere Einbettungen ergeben. Die Datenerweiterung wird häufig eingesetzt, wenn es nur wenige übereinstimmende Stichproben gibt.

Matching-Netzwerke

Während siamesische Netzwerke nur binäre Klassifizierungsaufgaben lösen können, können Matching-Netzwerke eine mehrfache Klassifizierung durchführen. Deshalb wird dies als einer der ersten dedizierten Few-Shot-Learning-Algorithmen angesehen.

Matching-Netzwerke geben eine Einbettung für jede Stichprobe in den Unterstützungs- und Abfragesätzen aus, indem sie ein geeignetes neuronales Netz verwenden (z. B. ein CNN für Bildaufgaben oder LLM für Aufgaben in natürlicher Sprache) und prognostizieren die Klassifizierung, indem sie den Kosinusabstand zwischen der Einbettung der Abfragestichprobe und der der verfügbaren Unterstützungsstichproben messen.

Prototypische Netzwerke

Prototypische Netzwerke berechnen die durchschnittlichen Merkmale aller für jede Klasse verfügbaren Stichproben, um einen Prototyp für jede Klasse zu berechnen. Die Klassifizierung eines bestimmten Datenpunktes wird dann durch seine relative Nähe zu den Prototypen für jede Klasse bestimmt. Im Gegensatz zu Matching-Netzwerken verwenden prototypische Netzwerke eher die euklidische Distanz als die Kosinusdistanz.

Es wurden zahlreiche Verbesserungsvorschläge für diesen Ansatz gemacht: Zhu und Koniusz schlugen beispielsweise vor, den Prototyping-Prozess mit Hilfe von Kennzeichnungspropagation zu verbessern.³

Relationsnetzwerke

Ein Relationsnetzwerk (RN) arbeitet nach dem gleichen allgemeinen Prinzip wie Matching- und prototypische Netzwerke. RNs verwenden auch ein Einbettungsmodul, das lernt, Einbettungen für Eingabebilder und Klassenprototypen zu berechnen – aber im Gegensatz zu diesen beiden Algorithmen, die die zum Vergleich von Einbettungen verwendete Distanzfunktion vordefinieren, fügen RNs ein Beziehungsmodul hinzu, das eine nichtlineare Distanzfunktion erlernt, die am besten zu den jeweiligen Klassifizierungsproblem passt.

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Folgen ansehen

Optimierungsbasiertes Meta-Learning

Deep Learning erfordert traditionell viele iterative Aktualisierungen von Modellparametern durch Backpropagation und Gradientenabstieg, was wiederum von einer riesigen Menge gekennzeichneter Beispiele abhängt, um Trainingssätze zu erzeugen. Damit ein neuronales Netz für das Few-Shot-Learning effizient von Grund auf trainiert werden kann, muss eine Möglichkeit gefunden werden, die Modellgewichtungen in nur wenigen Aktualisierungsschritten zu optimieren.

Optimierungsbasierte FSL-Methoden

Optimierungsbasierte Meta-Learning-Ansätze, auch als gradientenbasiertes Meta-Learning (GMBL) bezeichnet, zielen darauf ab, erste Modellparameter oder Hyperparameter für ein neuronales Netz zu erlernen, die effizient auf relevante Aufgaben abgestimmt werden können. Sie erreichen dies, indem sie den Prozess des Gradientenabstiegs optimieren, d.
h. indem sie den Prozess der Optimierung selbst durch Mera-Optimierung unterstützen.

Modellagnostisches Meta-Learning (MAML)

MAML gehört zu den bekanntesten optimierungsbasierten Ansätzen und war die Grundlage für eine Reihe von Ansätzen, die von seiner Kernmethodik abgeleitet wurden. Wie der Name schon sagt, konzentriert sich modellagnostisches Meta-Learning nicht auf eine bestimmte Aufgabe oder KI-Modellarchitektur. Es kann vielmehr für jedes Modell verwendet werden, das durch Gradientenabstieg lernt.

MAML umfasst zwei verschiedene Parameteraktualisierungen für verschiedene FSL-Schulungsaufgaben, p(T). In jeder Trainingsepisode wird eine neue Aufgabe T_i zufällig aus p(T) ausgewählt. Der Gradientenabstieg, der in K Schritten der Größe α durchgeführt wird, wird verwendet, um einen Vektor aufgabenspezifischer Modellparameter (θ'_i) nach jeder Trainingsaufgabe zu optimieren. Über mehrere Trainingsepisoden hinweg wird ein Satz von Metaparametern (θ) optimiert, indem ein Gradientenabstieg in Metaschritten der Größe β auf diese aufgabenspezifischen Parameter θ'_i angewendet wird. Mit anderen Worten: Während beim gewöhnlichen Gradientenabstieg Ableitungen berechnet werden, um die Parameter eines Modells für eine bestimmte Aufgabe zu optimieren, berechnet MAML die Ableitungen der Ableitungen (oder „Ableitungen zweiter Ordnung“), um die Anfangsparameter eines Modells für die nachfolgende aufgabenspezifische Optimierung zu optimieren.

Im Originalartikel heißt es, dass das Ziel darin besteht, „Modellparameter zu finden, die empfindlich auf Änderungen in der Aufgabe reagieren, sodass kleine Änderungen der Parameter zu großen Verbesserungen der Verlustfunktion jeder Aufgabe aus p(T) führen“. Dies bietet ähnliche Vorteile wie das Transfer-Learning, ohne dass große Mengen an gekennzeichneten Daten für das Vortraining benötigt werden.

Zu den vorgeschlagenen Anpassungen an MAML gehören:

First Order MAML (FOMAML): Die Abhängigkeit von MAML von Ableitungen zweiter Ordnung ist rechenintensiv und erfordert viel Arbeitsspeicher. FOMAML vereinfacht den Prozess durch eine Reihe von Annahmen, die eine Metaoptimierung nur unter Verwendung von Ableitungen erster Ordnung ermöglichen.
Reptile: Reptile stellt einen Mittelweg zwischen der Ausgereiftheit von MAML und der Einfachheit von FOMAML dar: Es verwendet Ableitungen erster Ordnung, implementiert aber einzigartige Regeln dafür, wie Parameter aktualisiert werden.⁴
Optimierung der Schrittgröße: Varianten wie Meta-SGD⁵ und Alpha MAML⁶ bieten die Möglichkeit, die Schrittgröße und -richtung für α und β zu optimieren. Ebenso führt MAML++⁷ eine Reihe von Modifikationen ein, um die Stabilität und die Recheneffizienz zu erhöhen.

LTSM-Meta-Learner

Meta-Learning-Ansätze können RNN-basierte Long short-term memory (LSTM)-Netzwerke nutzen, um ein Meta-Learner-Modell zu trainieren und auf diese Weise sowohl kurzfristiges Wissen aus jeder Schulungsaufgabe als auch langfristiges Wissen zu erfassen, das für jede Aufgabe üblich ist. Dieser Meta-Learner wird dann verwendet, um einen Klassifikator für ein neuronales Netz zu trainieren.

Latente Einbettungsoptimierung (LEO)

Anstatt einen eindeutigen Satz von Modell-Metaparametern θ explizit einzurichten und zu aktualisieren, lernt die latente Einbettungsoptimierung eine generative Verteilung von aufgabenspezifischen Modellparametern, ähnlich wie Variational Autoencoder (VAEs), die demselben Zweck dienen. Die Gradientenoptimierung kann dann innerhalb dieses erlernten, niedrigdimensionalen Einbettungsraums durchgeführt werden.

Anwendungsfälle für Few-Shot-Learning

Die Anwendungsmöglichkeiten von Few-Shot-Learning-Techniken sind breit gefächert, da viele Branchen und Forschungsbereiche von der Fähigkeit profitieren, schnell und effektiv anhand relativ weniger Beispiele zu lernen.

Computervision

Während viele bekannte FSL-Algorithmen ursprünglich für Bildklassifizierungsaufgaben entwickelt wurden (oder sich dort bewährt haben), kann FSL auch für komplexere Computer-Vision-Probleme verwendet werden.

Obwohl die Objekterkennung ein wesentlich komplexeres Problem ist als die Bildklassifizierung, da Objekte in diesem Fall nicht nur klassifiziert, sondern auch genau lokalisiert werden müssen, setzt sie im Allgemeinen eine Bildklassifizierung voraus. Daher können viele für die Klassifizierung verwendete Ideen für die Erkennung von Few-Shot-Objekten verwendet werden.⁸

Ebenso wurden eine Reihe von Modellarchitekturen für die semantische Few-Shot-Segmentierung vorgeschlagen.⁹

Robotertechnik

FSL kann es Robotern ermöglichen, sich schnell an neue Umgebungen und neue Aufgaben anzupassen, sowohl durch Few-Shot-Klassifizierungsaufgaben¹⁰ als auch durch Reinforcement Learning.¹¹

Verarbeitung natürlicher Sprache

FSL hat vielversprechende Ergebnisse für die Verarbeitung natürlicher Sprache (NLP) gezeigt, insbesondere durch Transfer-Learning: Es ist ein intuitiver Weg, um große Sprachmodelle (LLMs), die anhand eines riesigen Korpus ungekennzeichneter Daten vortrainiert wurden, an spezifische Aufgaben wie Textklassifizierung und Stimmungsanalyse anzupassen, die ein spezifisches kontextuelles Verständnis erfordern können.

Gesundheitswesen

Das Potenzial von FSL, ein Modell schnell an seltene und unbekannte Datenklassen zu gewöhnen, ist besonders vielversprechend für medizinische Bereiche, in denen die Seltenheit bestimmter Erkrankungen oder die für die genaue Kennzeichnung medizinischer Daten (z. B. MRT oder Echokardiographie) erforderlichen Fachkenntnisse die Beschaffung einer großen Anzahl gekennzeichneter Proben extrem erschweren können.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Ressourcen

Steigern Sie Ihre ML-Expertise

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Bericht „AI in Action“

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Fußnoten

¹ „Realistic Evaluation of Deep Semi-Supervised Learning Algorithms“, arXiv, 17. Juni 2019
² „A survey on semi-supervised learning“, Springer, 15. Nov. 2019
³ „Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data“, Information Sciences (Volume 293), 18. Sep. 2014
⁴ „Semantic Segmentation with Active Semi-Supervised Learning“, arXiv, 16. Okt. 2022
⁵ „Semi-supervised learning by Entropy Minimization“, Advances in Neural Information Processing Systems 17, 2004
⁶ „Density-based semi-supervised clustering“, Data Mining and Knowledge Discovery, Nov. 2010
⁷ „Semi-Supervised Learning with Ladder Networks“, arXiv, 24. Nov. 2015
⁸ „Learning with Pseudo-Ensembles“, arXiv, 16. Dez. 2014
⁹ „Temporal Ensembling for Semi-Supervised Learning“, arXiv, 15. März 2017
¹⁰ „Improved Techniques for Training GANs“, arXiv, 10. Jun. 2016