Was sind maskierte Sprachmodelle?

Infinity-Brücke in Stockton on Tees, Großbritannien.

Maskierte Sprachmodellierung trainiert Modelle, um fehlende Wörter im Text vorherzusagen. Es trainiert typischerweise Modelle für nachgelagerte NLP-Aufgaben vor.

Maskierte Sprachmodelle (MLM) sind eine Art großes Sprachmodell (LLM), das dazu dient, fehlende Wörter aus Texten bei Aufgaben der natürlichen Sprachverarbeitung (NLP) vorherzusagen. Im weiteren Sinne ist die maskierte Sprachmodellierung eine Form des Trainings von Transformatormodellen – insbesondere von bidirektionalen Kodiererrepräsentationen von Transformatoren (Bidirectional Encoder Representations from Transformers, BERT) und dem davon abgeleiteten robust optimierten BERT-Vortrainingsansatz (Robustly Optimized BERT Pretraining Approach, RoBERTa) – für NLP-Aufgaben, indem das Modell darauf trainiert wird, maskierte Wörter in einem Text auszufüllen und dadurch die wahrscheinlichsten und kohärentesten Wörter zur Vervollständigung des Textes vorherzusagen.1

Maskierte Sprachmodellierung hilft bei vielen Aufgaben – von der Stimmungsanalyse bis zur Textgenerierung – indem ein Modell darauf trainiert wird, die kontextuelle Beziehung zwischen Wörtern zu verstehen. Tatsächlich verwenden Forschungsentwickler oft maskierte Sprachmodellierung, um vortrainierte Modelle zu erstellen, die für nachgelagerte Aufgaben wie Textklassifikation oder maschinelle Übersetzung weiter überwacht und feinjustiert werden. Maskierte Sprachmodelle bilden somit die Grundlage für viele moderne Sprachmodellierungsalgorithmen. Obwohl Masked Language Modeling eine Methode zum Vortraining von Sprachmodellen ist, wird sie in Online-Quellen manchmal auch als Transferlernmethode bezeichnet. Das ist vielleicht nicht ungerechtfertigt, da einige Forschungsgruppen damit begonnen haben, maskierte Sprachmodellierung als eigenständige Endaufgabe zu implementieren.

Die HuggingFace-Transformatoren und Tensorflow-Textbibliotheken enthalten Funktionen zum Trainieren und Testen maskierter Sprachmodelle in Python, sowohl als Endaufgaben als auch für nachgelagerte Aufgaben.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Wie maskierte Sprachmodelle funktionieren

Das allgemeine Verfahren zur Charakterisierung maskierter Sprachmodelle ist recht einfach. Da es sich beim Masked Language Modeling um eine Form des unüberwachten Lernens handelt, beginnt es mit einem großen und unannotierten Textdatensatz. Der Algorithmus ersetzt eine zufällige Stichprobe von Wörtern aus diesem Eingabetext durch maskierte Token, die aus dem Token [MASK] oder anderen Wort-Token aus dem Vokabular des Eingabetextes bestehen können. Für jedes maskierte Token sagt das Modell dann voraus, welches Wort-Token am wahrscheinlichsten im ursprünglichen Eingabetext vorkam.2

Zum Beispiel wurden im folgenden Satz aus Shakespeares Othello zwei Wörter durch maskierte Token ersetzt, während ein anderes Wort durch ein völlig anderes Worttoken ersetzt wurde:

Visualisierung von Wortmaskierung im Beispiel der Othello-Passage

Das Modell trainiert dann einen bidirektionalen Encoder, der die ursprünglich maskierten Eingabetoken vorhersagt. Wie macht es das? Zugegebenermaßen erfordert die Aufklärung der inneren Mechanismen maskierter Sprachmodelle ein Fundament in fortgeschrittener Algebra und maschinellem Lernen. Dennoch ist ein oberflächlicher Überblick möglich.

Für jedes Token in den Eingabedaten generiert das Modell Einbettungen ähnlich wie bei einem Bag of Words-Modell. Das Modell kombiniert diese Worteinbettungen mit Positionskodierungen, um den Eingang des Transformators zu erzeugen. Positionskodierungen stellen kurz gesagt die Position eines gegebenen Worttokens in einer Sequenz mit einem eindeutigen Vektorwert dar. Durch positionsbezogene Kodierungen (oder positionsbezogene Einbettungen) kann das Modell semantische Informationen über Wörter durch ihre positionsbezogenen Beziehungen zu anderen Wörtern erfassen.

 

Das Transformer-Modell verwendet dann diese Einbettungen und Positionseinbettungen, um Wahrscheinlichkeitsverteilungen über die Eingabe für jedes der maskierten Token zu generieren. Die Wörter mit der höchsten vorhergesagten Wahrscheinlichkeit für jedes maskierte Token sind die jeweiligen Vorhersagen des Modells für den wahren Wert jedes Tokens.3

 

Ansätze zur Vorhersage maskierter Token

Die Modellierung maskierter Sprachen ist ein charakteristisches Merkmal des Bert-Transformer-Modell-Pretrainings – tatsächlich wurden beide gemeinsam in die maschinelle Lerngemeinschaft eingeführt. Vor BERT waren Sprachmodelle unidirektional. Das heißt, sie haben Sprachdarstellungen gelernt, indem sie nur den Text berücksichtigt haben, der einem bestimmten Wort vorausgeht. Der Ansatz von BERT zur Modellierung maskierter Sprache berücksichtigt jedoch sowohl den vorangehenden als auch den nachfolgenden Text.4 Der Hauptunterschied zwischen unidirektionalen und bidirektionalen Ansätzen hängt davon ab, wie die Selbstaufmerksamkeitsschicht des Transformators die Ausgaben dekodiert.

Bei der Vorhersage des nächsten Wortes in einer Sequenz – oder in unserem Fall des fehlenden Wortes – berücksichtigt ein unidirektionales Modell nur jene Wörter, die dem fehlenden Wert vorausgehen. Transformator-Decoder, die auf diese Weise arbeiten, werden auch als kausal oder rückwärtsblickend bezeichnet. Bei der Verarbeitung einer Eingabesequenz berücksichtigt der Decoder nur diese Eingaben bis einschließlich des betreffenden Eingabetokens; Der Decoder hat keinen Zugriff auf Token-Eingänge, die nach dem in Betracht gezogenen sind. Im Gegensatz dazu erzeugt ein bidirektionaler Encoder, wie im BERT-Modell übernommen, Vorhersagen mit allen Eingaben, die sowohl dem maskierten Wert vorausgehen als auch folgen.5

Zur Veranschaulichung greifen wir auf das bereits erwähnte Zitat von Othello zurück: „Aber ich denke, es ist die Schuld ihrer Ehemänner, wenn Frauen fallen.“ Stellen Sie sich vor, wir hätten aus irgendeinem Grund diesen ganzen Text, nur ohne das Wort „Frauen“: „Aber ich denke, es ist die Schuld ihrer Ehemänner, wenn ________ fallen.“ Wir wollen herausfinden, was diese Lücke füllt. Diese Abbildung veranschaulicht den Unterschied in der Art und Weise, wie beide Decoder unseren Beispielsatz verarbeiten würden:

Visualisierung zum Vergleich der Tokenverarbeitung durch verschiedene Encoder

In dieser Abbildung bezeichnet y die vorhergesagte Ausgabe für das maskierte Token. Der unidirektionale Transformer verwendet nur die Eingabewerte vor dem maskierten Token, um dessen Wert vorherzusagen. Der bidirektionale Transformer verwendet jedoch Einbettungen aus allen Eingaben – sowohl denen, die der Maske vorausgehen, als auch denen, die ihr folgen –, um den Wert des maskierten Tokens vorherzusagen.

Aktuelle Forschung

Entwickler und Forscher verwenden maskierte Sprachmodelle, um viele NLP-Aufgaben zu steuern, wie zum Beispiel Named Entity Recognition, Fragebeantwortung und Textklassifikation. Wie bei vielen NLP-Bereichen konzentrierte sich die Forschung zur maskierten Sprachmodellierung oft auf lateinische Sprachen und vor allem auf Englisch. In jüngerer Zeit entwickeln und bewerten veröffentlichte Experimente Datensätze nicht-lateinischer Sprachen wie Japanisch und Russisch für maskierte Sprachmodelle und nachgelagerte Aufgaben.6 Zusätzlich schlägt eine Forschungsgruppe eine schwach überwachte Methode zum Vortrainieren mehrsprachiger maskierter Sprachmodelle vor. Konkret führen sie ein spezielles maskiertes Token ein, um einen sprachübergreifenden Vorwärtsdurchlauf beim Vortraining auf mehrsprachigen Datensätzen durchzuführen. Ihre Methode zeigt eine deutliche Verbesserung bei der sprachübergreifenden Klassifizierung mit mehrsprachigen maskierten Sprachmodellen.7

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Anwendungsfälle

Wie bereits erwähnt, verwenden Forscher die maskierte Sprachmodellierung häufig als Mittel zur Verbesserung der Modellleistung bei nachgelagerten NLP-Aufgaben. Zu diesen Aufgaben gehören:

Named Entity Recognition. Diese Aufgabe verwendet Modelle und Neural Networks, um vordefinierte Objektkategorien in Texten zu identifizieren – wie zum Beispiel Personennamen, Städtenamen usw. Wie bei vielen Zielen des maschinellen Lernens hat sich der Mangel an geeigneten Daten auch bei der Erkennung benannter Entitäten als Hindernis erwiesen. Um dieses Problem zu begegnen, haben Forscher die Modellierung maskierter Sprache als Form der Datenerweiterung für die Erkennung benannter Entitäten mit bemerkenswertem Erfolg untersucht.8

Stimmungsanalyse. Die Stimmungsanalyse analysiert und klassifiziert Daten als positiv, negativ oder neutral. Sie wird häufig zur Klassifizierung großer Sammlungen von Online-Kundenrezensionen verwendet. Ähnlich wie bei der Erkennung benannter Entitäten haben Forscher maskierte Sprachmodelle als Datenerweiterungsmethode für die Sentimentanalyse untersucht.9 Darüber hinaus zeigt die Modellierung maskierter Sprache vielversprechende Ansätze für die Domänenanpassung in der Stimmungsanalyse. Forschung zeigt insbesondere, dass es dabei hilft, sich bei Aufgaben der Stimmungsanalyse auf die Vorhersage von Wörtern mit hoher Gewichtung zu konzentrieren.10

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen
Fußnoten

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.

2 Lewis Tunstall, Leandro von Werra, and Thomas Wolf, Natural Language Processing with Transformers, Revised Edition, O’Reilly Media, 2022.

3 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3rd edition, Packt Publishing, 2024.

4 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019, https://aclanthology.org/N19-1423.

5 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.

6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, and Naoaki Okazaki, "Gender Bias in Masked Language Models for Multiple Languages," Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter, and Hinrich Schütze, "Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations," Proceedings of the 28th International Conference on Computational Linguistics, 2020, https://aclanthology.org/2020.coling-main.446.

7 Xi Ai and Bin Fang, "On-the-fly Cross-lingual Masking for Multilingual Pre-training," Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 2023, https://aclanthology.org/2023.acl-long.49.

8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si, and Chunyan Miao, "MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER," Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.160.

9 Larisa Kolesnichenko, Erik Velldal, and Lilja Øvrelid, "Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis,"Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.

10 Nikolay Arefyev, Dmitrii Kharchev, and Artem Shelmanov, "NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis," Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.717.