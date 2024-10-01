Wie zu erwarten war, hat die Encoder-Decoder-Architektur viele Varianten, jede mit ihren eigenen primären Anwendungsfällen in Bereich der Data Science und des maschinelles Lernens.

Nur EncoderDiese Modelle (die auch als Auto-Encoder bezeichnet werden) verwenden nur den Encoder-Stack und verzichten auf Decoder. Solchen Modellen fehlt daher eine autoregressive maskierte Modellierung und sie haben Zugriff auf alle Token im anfänglichen Eingabetext. Daher werden diese Modelle als bidirektional beschrieben, da sie alle umgebenden Token (sowohl vorhergehende als auch nachfolgende) verwenden, um Vorhersagen für einen bestimmten Token zu treffen. Bekannte Encoder-Modelle sind die BERT-Modellfamilie, wie BERT,9 RoBERTa,10 und ELECTRA,11 sowie die IBM Slate-Modelle. Reine Encoder-Modelle werden oft für Aufgaben verwendet, die das Verständnis einer gesamten Eingabe erfordern, wie Textklassifizierung oder Named Entity Recognition.

Nur Decoder.Diese Modelle (auch autoregressive Modelle genannt) verwenden nur den Decoder-Stack und verzichten auf jegliche Encoder. Daher können die Aufmerksamkeitsschichten des Modells bei der Erstellung von Token-Vorhersagen nur auf die Token zugreifen, die vor dem betrachteten Token liegen. Reine Decoder-Modelle werden häufig für Aufgaben der Textgenerierung wie die Beantwortung von Fragen, das Schreiben von Code oder Chatbots wie ChatGPT verwendet. Ein Beispiel für ein reines Decoder-Modell ist die IBM Granite-Reihe der Foundational Models.12