Die meisten modernen Deep-Learning-Modelle für die Klassifizierung oder Regression werden durch überwachtes Lernen trainiert, was viele gekennzeichnete Beispiele für relevante Datenklassen erfordert. Modelle „lernen“, indem sie Vorhersagen für einen gekennzeichneten Trainingsdatensatz treffen. Datenkennzeichnungen enthalten sowohl den Bereich der möglichen Antworten als auch die richtigen Antworten (oder die Grundwahrheit) für jedes Trainingsbeispiel. „Lernen“ bezieht sich hier auf die Anpassung der Modellgewichtungen, um die Differenz zwischen den Vorhersagen des Modells und dieser Grundwahrheit zu minimieren. Für diesen Prozess sind genügend gekennzeichnete Datenproben für viele Trainings- und Aktualisierungsrunden erforderlich.
Das überwachte Lernen ist zwar wirkungsvoll, aber in einigen realen Szenarien unpraktisch. Das Kommentieren großer Mengen von Datenproben ist kostspielig und zeitaufwändig, und in Fällen wie seltenen Krankheiten und neu entdeckten Arten kann es vorkommen, dass Beispiele selten oder überhaupt gar nicht vorhanden sind. Nehmen wir zum Beispiel Bilderkennungsaufgaben: Einer Studie zufolge kann der Mensch etwa 30.000 individuell unterscheidbare Objektkategorien erkennen.1 Es ist für Modelle der künstlichen Intelligenz aus Zeit-, Kosten- und Rechenressourcengründen nicht machbar, auch nur annähernd an die menschlichen Fähigkeiten heranzukommen, wenn sie explizit auf markierten Daten für jede Klasse trainiert werden müssen.
Die Notwendigkeit, dass Modelle des maschinellen Lernens in der Lage sein müssen, schnell und mit minimalem Trainingsaufwand auf eine große Anzahl semantischer Kategorien zu verallgemeinern, hat zum N-Shot-Learning geführt: eine Untergruppe des maschinellen Lernens, zu der auch das Few-Shot-Learning (FSL) und das One-Shot-Learning gehören. Beim Few-Shot-Learning werden in der Regel Transfer-Learning und auf Meta-Learningbasierende Methoden verwendet, um Modelle zu trainieren, die mit nur wenigen gekennzeichneten Trainingsbeispielen – oder, beim One-Shot-Learning, mit einem einzigen gekennzeichneten Beispiel – schnell neue Klassen erkennen.
Das Zero-Shot-Learning bezieht sich wie alle N-Shot-Learning-Methoden nicht auf einen bestimmten Algorithmus oder eine bestimmte Architektur eines neuronalen Netzes, sondern auf die Art des Lernproblems selbst: Beim ZSL wird das Modell nicht anhand von gekennzeichneten Beispielen der ungesehenen Klassen trainiert, für die es nach dem Training Vorhersagen treffen soll.
Bei dieser Problemstellung wird nicht berücksichtigt, ob diese Klasse in den Trainingsdaten vorhanden (wenn auch nicht gekennzeichnet) war. Einige Large Language Models (LLMs) eignen sich beispielsweise gut für ZSL-Aufgaben, da sie durch selbstüberwachtes Lernen anhand eines riesigen Textkorpus trainiert werden, der zufällige Hinweise auf oder Wissen über unbekannte Datenklassen enthalten kann. Ohne gekennzeichnete Beispiele, auf die sie zurückgreifen können, sind alle ZSL-Methoden auf die Verwendung von solchem Zusatzwissen angewiesen, um Vorhersagen treffen zu können.
Aufgrund seiner Vielseitigkeit und des breiten Spektrums an Anwendungsfällen hat sich das Zero-Shot-Learning zu einem immer bedeutenderen Forschungsbereich der Data Science entwickelt, insbesondere in den Bereichen Computer Vision und Verarbeitung natürlicher Sprache (Natural Language Processing, NLP).