Qu’est-ce qu’un modèle de langage masqué ?

Pont Infinity à Stockton-on-Tees, Royaume-Uni.

La modélisation du langage masqué permet d’entraîner les modèles à prédire les mots manquants dans un texte. Il s’agit généralement d’un pré-entraînement des modèles pour les tâches TAL en aval.

Les modèles de langage masqué (MLM) sont un type de grands modèles de langage (LLM) utilisé pour prédire les mots manquants dans un texte lors des tâches de traitement automatique du langage naturel (TAL). Par extension, la modélisation du langage masqué est une forme d’entraînement des modèles de type Transformer, notamment les représentations d’encodeur bidirectionnelles issues de transformers (BERT) et son approche dérivée de pré-entraînement BERT robustement optimisée (RoBERTa), pour les tâches de traitement automatique du langage naturel (TAL). Il s’agit d’entraîner le modèle à compléter les mots masqués dans un texte, et ainsi prédire les mots les plus probables et cohérents pour compléter le texte.1

La modélisation du langage masqué facilite de nombreuses tâches, de l’analyse des sentiments à la génération de textes, en entraînant un modèle qui comprend la relation contextuelle entre les mots. En fait, les développeurs chercheurs utilisent souvent la modélisation du langage masqué pour créer des modèles pré-entraînés qui font l’objet d’un réglage fin supervisé supplémentaire pour les tâches en aval telles que la classification des textes ou la traduction automatique. Les modèles de langage masqué sous-tendent ainsi de nombreux algorithmes de modélisation du langage de pointe. Bien que la modélisation du langage masqué soit une méthode de pré-entraînement des modèles de langage, les sources en ligne la désignent parfois comme une méthode d’apprentissage par transfert. Cela est discutable car certains groupes de recherche ont commencé à mettre en œuvre la modélisation du langage masqué comme une finalité en soi.

Les transformers HuggingFace et les bibliothèques de texte Tensorflow contiennent des fonctions conçues pour entraîner et tester les modèles de langage masqué en Python, en tant que tâches finales et en aval.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Comment fonctionnent les modèles de langage masqués

La procédure générale suivie par les modèles de langage masqué est assez simple. Comme il s’agit d’une forme d’apprentissage non supervisé, la modélisation du langage masqué commence par un grand jeu de données textuel non annoté. L’algorithme remplace un échantillon aléatoire de mots de ce texte d’entrée par des tokens masqués, qui peuvent être constitués du token [MASK] ou d’autres tokens de mots issus du vocabulaire de cette entrée. Pour chaque token masqué, le modèle prédit ensuite les tokens de mots les plus susceptibles de figurer dans le texte d’entrée initial.2

Par exemple, dans la phrase suivante tirée d’Othello de Shakespeare, deux mots ont été remplacés par des tokens masqués, tandis qu’un autre mot a été remplacé par un token complètement différent :

Visualisation du masquage de mots dans un extrait d’Othello

Le modèle entraîne ensuite un codeur bidirectionnel à prédire les tokens de l’entrée initiale qui ont été masqués. Comment s’y prend-il ? Il est vrai que pour comprendre les mécanismes internes des modèles de langage masqué, il faut maîtriser les bases de l’algèbre avancée et du machine learning. Un bref aperçu est toutefois possible.

Pour chaque token de mot dans les données de texte d’entrée, le modèle génère des plongements lexicaux similaires à un modèle de type bag of words. Le modèle combine ces plongements avec des encodages positionnels pour créer l’entrée du transformer. Les encodages positionnels, en bref, représentent l’emplacement d’un token de mot donné dans une séquence à l’aide d’une valeur vectorielle unique. Grâce aux encodages positionnels (ou plongements positionnels), le modèle peut capter des informations sémantiques sur les mots par le biais de leurs relations positionnelles avec d’autres mots.

 

Le modèle transformer utilise ensuite ces plongements lexicaux et positionnels pour générer des distributions de probabilité sur le vocabulaire ’entrée pour chacun des tokens masqués. Les mots ayant la probabilité prédite la plus élevée pour chaque token masqué correspondent aux prédictions du modèle concernant la valeur réelle de chaque token.3

 

Approches de la prédiction de tokens masqués

La modélisation du langage masqué est une caractéristique caractéristique du pré-entraînement du modèle de transformeur BERT. En effet, les deux ont été introduits ensemble auprès de la communauté de machine learning. Avant BERT, les modèles de langage étaient unidirectionnels. Cela signifie qu’ils ont appris les représentations linguistiques en ne considérant que le texte qui précède un mot donné. L’approche de BERT pour une tâche de modélisation du langage masqué, cependant, prend en compte à la fois le texte précédent et le texte suivant.4 La principale différence entre les approches unidirectionnelles et bidirectionnelles dépend de la manière dont la couche d’auto-attention du transformateur décode les valeurs de sortie.

Lorsqu’il s’agit de prédire le mot suivant dans une séquence ou, dans notre cas, le mot manquant, le modèle unidirectionnel ne prend en compte que les mots qui précèdent la valeur manquante. Les décodeurs de type transformer qui fonctionnent de cette manière sont également appelés causaux ou rétrospectifs. Lors du traitement d’une séquence d’entrée, le décodeur ne prend en compte le token d’entrée en question et les entrées qui le précèdent ; il n’a pas accès aux tokens d’entrée qui lui succèdent. En revanche, un encodeur bidirectionnel comme celui adopté dans le modèle BERT génère des prédictions en utilisant tous les tokens d’entrée, à savoir ceux qui précèdent et ceux qui suivent la valeur masquée.5

Pour illustrer, revenons à la citation d’Othello mentionnée plus haut : « Mais je pense que c’est la faute de leurs maris si les épouses tombent. » Imaginez que, pour une raison ou une autre, nous ayons tout ce texte, à l’exception du mot « femmes » : « Mais je pense que c’est la faute de leur mari si _____. » Nous voulons déterminer ce qui comble cette lacune. Cette figure illustre la différence entre la façon dont les deux décodeurs traiteraient notre exemple de phrase :

Visualisation comparant le traitement des tokens par différents encodeurs

Dans cette figure, y représente la production prédite pour le token masqué. Le transformateur unidirectionnel utilise uniquement les entrées précédant le token masqué pour prédire la valeur de ce dernier. Le transformateur bidirectionnel, en revanche, utilise des embeddings positionnels de toutes les entrées — tant celles qui précèdent que celles qui suivent le masque — afin de prédire la valeur du token masqué.

Recherches récentes

Les développeurs et les chercheurs utilisent des modèles de langage masqué pour alimenter de nombreuses tâches NLP, telles que la named entity recognition, la réponse aux questions et la classification de texte. Comme dans de nombreux domaines de la PNL, les recherches sur la modélisation du langage masqué se sont souvent concentrées sur les langues latines, et principalement l'anglais. Plus récemment, des expériences publiées développent et évaluent des jeux de données de langues non latinées, telles que le japonais et le russe, pour la modélisation masquée du langage et les tâches en aval.6 En outre, un groupe de recherche propose une méthode peu supervisée pour préentraîner les modèles de langage masqué multilingues. Plus précisément, ils introduisent un jeton masqué spécial pour effectuer une passe en avant multilingue lors du pré-entraînement sur des jeux de données multilingues. Leur méthode montre une nette amélioration de la classification interlinguistique avec des modèles de langage masqués multilingues.7

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Cas d’utilisation

Comme nous l'avons mentionné, les chercheurs peuvent souvent utiliser la modélisation du langage masqué pour améliorer les performances du modèle dans des tâches NLP en aval. Ces tâches comprennent :

Reconnaissance d’entités nommées. Cette tâche utilise des modèles et des réseaux de neurones pour identifier des catégories d’objets prédéfinies dans les textes, telles que les noms de personnes, de villes, etc. Comme c’est souvent le cas dans le machine learning, le manque de données appropriées est un obstacle à la reconnaissance des entités nommées. Pour remédier à cette situation, les chercheurs ont exploré avec un succès notable la modélisation du langage masqué comme forme d’augmentation des données pour la reconnaissance des entités nommées.8

L'analyse des sentiments. L'analyse des sentiments permet d'analyser et de classer les données comme positives, négatives ou neutres. Ce type de data est souvent utilisé pour classer de grandes collections d’avis clients en ligne. Similaire à la reconnaissance des entités nommées, les chercheurs ont découvert la modélisation du langage masqué en tant que technique d'augmentation des données pour l'analyse des sentiments9 De plus, la modélisation du langage masqué est prometteuse pour l'adaptation au domaine de l'analyse des sentiments. Les recherches suggèrent notamment que cela aide à se concentrer sur la prédiction des mots ayant un poids important pour les tâches de classification des sentiments.10

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA
Notes de bas de page

1 Daniel Jurafsky et James Martin, Speech and Language Processing  An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3e édition, 2023, https://web.stanford.edu/~jurafsky/slp3.

2 Lewis Tunstall, Leandro von Werra, and Thomas Wolf, Natural Language Processing with Transformers, édition révisée, O’Reilly Media, 2022.

3 Daniel Jurafsky et James Martin, Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3e édition, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3e édition, Packt Publishing, 2024.

4 Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova, « BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding », Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019, https://aclanthology.org/N19-1423.

5 Daniel Jurafsky et James Martin, Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3e  éition, 2023, https://web.stanford.edu/~jurafsky/slp3.

6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala et Naoaki Okazaki, « Gender Bias in Masked Language Models for Multiple Languages », Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics : Human Language Technologies, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter et Hinrich Schütze, « Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations », Proceedings of the 28th International Conference on Computational Linguistics, 2020, https://aclanthology.org/2020.coling-main.446.

7 Xi Ai et Bin Fang, « On-the-fly Cross-lingual Masking for Multilingual Pre-training », Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 2023, https://aclanthology.org/2023.acl-long.49.

8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si et Chunyan Miao, « MELM : Data Augmentation with Masked Entity Language Modeling for Low-Resource NER », Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.160.

9 Larisa Kolesnichenko, Erik Velldal et Lilja Øvrelid, « Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis », Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.

10 Nikolay Arefyev, Dmitrii Kharchev et Artem Shelmanov, « NB-MLM : Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis », Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.717.