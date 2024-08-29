Maskierte Sprachmodelle (MLM) sind eine Art großes Sprachmodell (LLM), das dazu dient, fehlende Wörter aus Texten bei Aufgaben der natürlichen Sprachverarbeitung (NLP) vorherzusagen. Im weiteren Sinne ist die maskierte Sprachmodellierung eine Form des Trainings von Transformatormodellen – insbesondere von bidirektionalen Kodiererrepräsentationen von Transformatoren (Bidirectional Encoder Representations from Transformers, BERT) und dem davon abgeleiteten robust optimierten BERT-Vortrainingsansatz (Robustly Optimized BERT Pretraining Approach, RoBERTa) – für NLP-Aufgaben, indem das Modell darauf trainiert wird, maskierte Wörter in einem Text auszufüllen und dadurch die wahrscheinlichsten und kohärentesten Wörter zur Vervollständigung des Textes vorherzusagen.1

Maskierte Sprachmodellierung hilft bei vielen Aufgaben – von der Stimmungsanalyse bis zur Textgenerierung – indem ein Modell darauf trainiert wird, die kontextuelle Beziehung zwischen Wörtern zu verstehen. Tatsächlich verwenden Forschungsentwickler oft maskierte Sprachmodellierung, um vortrainierte Modelle zu erstellen, die für nachgelagerte Aufgaben wie Textklassifikation oder maschinelle Übersetzung weiter überwacht und feinjustiert werden. Maskierte Sprachmodelle bilden somit die Grundlage für viele moderne Sprachmodellierungsalgorithmen. Obwohl Masked Language Modeling eine Methode zum Vortraining von Sprachmodellen ist, wird sie in Online-Quellen manchmal auch als Transferlernmethode bezeichnet. Das ist vielleicht nicht ungerechtfertigt, da einige Forschungsgruppen damit begonnen haben, maskierte Sprachmodellierung als eigenständige Endaufgabe zu implementieren.

Die HuggingFace-Transformatoren und Tensorflow-Textbibliotheken enthalten Funktionen zum Trainieren und Testen maskierter Sprachmodelle in Python, sowohl als Endaufgaben als auch für nachgelagerte Aufgaben.