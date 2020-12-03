Sprachmodelle schätzen die Wahrscheinlichkeit, dass Wörter in einem Satz vorkommen oder dass der Satz selbst existiert. Daher sind sie nützliche Bausteine in vielen NLP-Anwendungen. Aber sie benötigen oft eine große Menge an Trainingsdaten, um für bestimmte Aufgaben und Bereiche nützlich zu sein.

Um diese allgegenwärtigen Probleme mit Trainingsdaten zu lösen, wurden massive Deep-Learning-Sprachmodelle entwickelt. Sie werden mit einer enormen Menge unannotierter Daten vortrainiert, um ein allgemeines Deep-Learning-Modell bereitzustellen. Durch Feinabstimmung dieser vortrainierten Modelle können nachgelagerte Nutzer aufgabenspezifische Modelle mit kleineren, annotierten Datensätzen erstellen (eine Technik namens Transfer Learning). Diese Modelle stellen einen Durchbruch in der NLP dar: Heute können mit kleineren Datensätzen modernste Ergebnisse erzielt werden.

Bis vor kurzem galten RNN-Modelle als Stand der Technik bei NLP-Sprachmodellen. Diese sind nützlich für sequenzierte Aufgaben wie abstrakte Zusammenfassung, maschinelle Übersetzung und allgemeine Generierung natürlicher Sprache. RNN-Modelle verarbeiten Wörter nacheinander, in der Reihenfolge, in der sie im Kontext erscheinen, jeweils ein Wort nach dem anderen. Daher lassen sich diese Modelle schwer parallelisieren und sind schlecht darin, kontextuelle Beziehungen über lange Eingaben hinweg aufrechtzuerhalten. Wie wir in einem früheren Beitrag bereits besprochen haben, ist der Kontext bei NLP entscheidend.

Der Transformer, ein 2017 eingeführtes Modell, umgeht diese Probleme. Transformer (wie BERT und GPT) verwenden einen Aufmerksamkeitsmechanismus, der den Wörtern „Aufmerksamkeit schenkt“, die für die Vorhersage des nächsten Wortes in einem Satz am nützlichsten sind. Mit diesen Aufmerksamkeitsmechanismen verarbeiten die Transformers eine Eingabesequenz von Wörtern auf einmal und bilden relevante Abhängigkeiten zwischen den Wörtern ab, unabhängig davon, wie weit die Wörter im Text voneinander entfernt erscheinen. Dadurch sind Transformers hochgradig parallelisierbar, können viel größere Modelle schneller schulen und nutzen kontextuelle Hinweise, um viele Mehrdeutigkeitsprobleme zu lösen, die Texte plagen.

Einzelne Transformers haben auch ihre eigenen einzigartigen Vorteile. Bis zu diesem Jahr war BERT das beliebteste Deep-Learning-NLP-Modell und erzielte bei vielen NLP-Aufgaben hervorragende Ergebnisse.

Das System wurde mit 2,5 Milliarden Wörtern trainiert. Sein Hauptvorteil liegt in der Verwendung von bidirektionalem Lernen, wodurch der Kontext von Wörtern gleichzeitig sowohl von links nach rechts als auch von rechts nach links erfasst wird. Der bidirektionale Trainingsansatz von BERT ist für die Vorhersage maskierter Wörter (Masked LM) optimiert und übertrifft das Training von links nach rechts bereits nach wenigen Vortrainingsschritten. Während des Modelltrainings ermöglicht das Next Sentence Prediction (NSP)-Training dem Modell zu verstehen, wie Sätze miteinander in Beziehung stehen, ob Satz B vor oder nach Satz A stehen sollte. Dadurch kann es mehr Kontext ableiten. Zum Beispiel kann es die semantische Bedeutung von Bank in den folgenden Sätzen verstehen: „Heben Sie Ihre Ruder, wenn Sie zum Flussufer kommen“ und „Die Bank schickt eine neue EC-Karte.“ Um dies zu verstehen, werden Hinweise auf Flüsse von links nach rechts und Debitkarten von rechts nach links verwendet.

Im Gegensatz zu BERT-Modellen sind GPT-Modelle unidirektional. Der Hauptvorteil der GPT-Modelle ist das schiere Datenvolumen, auf dem sie vortrainiert wurden: GPT-3, das GPT-Modell der dritten Generation, wurde mit 175 Milliarden Parametern trainiert, etwa zehnmal so groß wie frühere Modelle. Dieses wirklich umfangreiche, vortrainierte Modell bedeutet, dass Benutzer NLP-Aufgaben mit sehr wenig Daten Feinabstimmung können, um neuartige Aufgaben zu erfüllen. Während Transformer im Allgemeinen die Menge der zum Trainieren von Modellen benötigten Daten reduziert haben, hat GPT-3 gegenüber BERT den deutlichen Vorteil, dass es viel weniger Daten zum Schulen von Modellen benötigt.

Zum Beispiel wurde dem Model mit nur 10 Sätzen beigebracht, einen Aufsatz darüber zu schreiben, warum Menschen keine Angst vor KI haben sollten. (Allerdings sollte beachtet werden, dass die unterschiedliche Qualität dieser Freiform-Essays die Grenzen der heutigen Technologie aufzeigt.)