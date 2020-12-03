KI, die Shakespeare-Sonette verfassen kann. KI, die auf der Grundlage einer einfachen Benutzerbeschreibung eine Webseite gestalten kann. KI, die eine Beschreibung von Quantencomputing für einen Achtklässler zusammenfassen kann. Seit der Einführung des GPT-3-Sprachmodells in diesem Jahr kursieren in den Kreisen der Enthusiasten für Verarbeitung natürlicher Sprache (NLP) und maschinelles Lernen zahlreiche Berichte über die angeblichen neuen Funktionen sprachbasierter KI.
Jüngste Fortschritte im Bereich NLP sind seit einigen Jahren in Arbeit, beginnend 2018 mit der Einführung von zwei umfangreichen Deep-Learning-Modellen: GPT (Generative Pre-Training) von Open AI und BERT (Bidirectional Encoder Representations from Transformers) für das Sprachverständnis, darunter BERT-Base und BERT-Large von Google. Im Gegensatz zu früheren NLP-Modellen ist BERT eine Open-Source-basierte und stark bidirektionale sowie unüberwachte Sprachrepräsentation, die ausschließlich mit einem Klartextkorpus vortrainiert ist. Seitdem haben wir die Entwicklung weiterer massiver Deep-Learning-Sprachmodelle gesehen: GPT-2, RoBERT, ESIM+GloVe und jetzt GPT-3, das Modell, das tausend Tech-Artikel hervorrief.
Der heutige NLP-Blog behandelt die BERT- und GPT-Modelle: Was macht diese Modelle so leistungsfähig und wie sie Ihrem Unternehmen zugutekommen können.
Sprachmodelle schätzen die Wahrscheinlichkeit, dass Wörter in einem Satz vorkommen oder dass der Satz selbst existiert. Daher sind sie nützliche Bausteine in vielen NLP-Anwendungen. Aber sie benötigen oft eine große Menge an Trainingsdaten, um für bestimmte Aufgaben und Bereiche nützlich zu sein.
Um diese allgegenwärtigen Probleme mit Trainingsdaten zu lösen, wurden massive Deep-Learning-Sprachmodelle entwickelt. Sie werden mit einer enormen Menge unannotierter Daten vortrainiert, um ein allgemeines Deep-Learning-Modell bereitzustellen. Durch Feinabstimmung dieser vortrainierten Modelle können nachgelagerte Nutzer aufgabenspezifische Modelle mit kleineren, annotierten Datensätzen erstellen (eine Technik namens Transfer Learning). Diese Modelle stellen einen Durchbruch in der NLP dar: Heute können mit kleineren Datensätzen modernste Ergebnisse erzielt werden.
Bis vor kurzem galten RNN-Modelle als Stand der Technik bei NLP-Sprachmodellen. Diese sind nützlich für sequenzierte Aufgaben wie abstrakte Zusammenfassung, maschinelle Übersetzung und allgemeine Generierung natürlicher Sprache. RNN-Modelle verarbeiten Wörter nacheinander, in der Reihenfolge, in der sie im Kontext erscheinen, jeweils ein Wort nach dem anderen. Daher lassen sich diese Modelle schwer parallelisieren und sind schlecht darin, kontextuelle Beziehungen über lange Eingaben hinweg aufrechtzuerhalten. Wie wir in einem früheren Beitrag bereits besprochen haben, ist der Kontext bei NLP entscheidend.
Der Transformer, ein 2017 eingeführtes Modell, umgeht diese Probleme. Transformer (wie BERT und GPT) verwenden einen Aufmerksamkeitsmechanismus, der den Wörtern „Aufmerksamkeit schenkt“, die für die Vorhersage des nächsten Wortes in einem Satz am nützlichsten sind. Mit diesen Aufmerksamkeitsmechanismen verarbeiten die Transformers eine Eingabesequenz von Wörtern auf einmal und bilden relevante Abhängigkeiten zwischen den Wörtern ab, unabhängig davon, wie weit die Wörter im Text voneinander entfernt erscheinen. Dadurch sind Transformers hochgradig parallelisierbar, können viel größere Modelle schneller schulen und nutzen kontextuelle Hinweise, um viele Mehrdeutigkeitsprobleme zu lösen, die Texte plagen.
Einzelne Transformers haben auch ihre eigenen einzigartigen Vorteile. Bis zu diesem Jahr war BERT das beliebteste Deep-Learning-NLP-Modell und erzielte bei vielen NLP-Aufgaben hervorragende Ergebnisse.
Das System wurde mit 2,5 Milliarden Wörtern trainiert. Sein Hauptvorteil liegt in der Verwendung von bidirektionalem Lernen, wodurch der Kontext von Wörtern gleichzeitig sowohl von links nach rechts als auch von rechts nach links erfasst wird. Der bidirektionale Trainingsansatz von BERT ist für die Vorhersage maskierter Wörter (Masked LM) optimiert und übertrifft das Training von links nach rechts bereits nach wenigen Vortrainingsschritten. Während des Modelltrainings ermöglicht das Next Sentence Prediction (NSP)-Training dem Modell zu verstehen, wie Sätze miteinander in Beziehung stehen, ob Satz B vor oder nach Satz A stehen sollte. Dadurch kann es mehr Kontext ableiten. Zum Beispiel kann es die semantische Bedeutung von Bank in den folgenden Sätzen verstehen: „Heben Sie Ihre Ruder, wenn Sie zum Flussufer kommen“ und „Die Bank schickt eine neue EC-Karte.“ Um dies zu verstehen, werden Hinweise auf Flüsse von links nach rechts und Debitkarten von rechts nach links verwendet.
Im Gegensatz zu BERT-Modellen sind GPT-Modelle unidirektional. Der Hauptvorteil der GPT-Modelle ist das schiere Datenvolumen, auf dem sie vortrainiert wurden: GPT-3, das GPT-Modell der dritten Generation, wurde mit 175 Milliarden Parametern trainiert, etwa zehnmal so groß wie frühere Modelle. Dieses wirklich umfangreiche, vortrainierte Modell bedeutet, dass Benutzer NLP-Aufgaben mit sehr wenig Daten Feinabstimmung können, um neuartige Aufgaben zu erfüllen. Während Transformer im Allgemeinen die Menge der zum Trainieren von Modellen benötigten Daten reduziert haben, hat GPT-3 gegenüber BERT den deutlichen Vorteil, dass es viel weniger Daten zum Schulen von Modellen benötigt.
Zum Beispiel wurde dem Model mit nur 10 Sätzen beigebracht, einen Aufsatz darüber zu schreiben, warum Menschen keine Angst vor KI haben sollten. (Allerdings sollte beachtet werden, dass die unterschiedliche Qualität dieser Freiform-Essays die Grenzen der heutigen Technologie aufzeigt.)
Die Zukunft massiver Deep-Learning-Modelle ist sehr spannend. Die Forschung in diesem Bereich schreitet sprunghaft voran. Wir erwarten, dass in den kommenden Monaten und Jahren verstärkte Fortschritte bei den hier angesprochenen Technologien und wichtigen Überlegungen zu verzeichnen sein werden. Wir bei IBM Watson® werden auch weiterhin die besten Technologien entwickeln, evaluieren und integrieren, die für Geschäftsanwendungen geeignet sind. Im nächsten Teil unserer NLP-Blogreihe werden wir einige wichtige Aspekte erkunden, die Sie berücksichtigen sollten, bevor Sie ein neues Modell für Ihren geschäftlichen Anwendungsfall einführen.
