什么是掩码语言模型?

英国蒂斯河畔斯托克顿的无限大桥。

掩码语言建模可训练模型预测文本中缺失的单词。它通常用于为下游 NLP 任务预训练模型。

掩码语言模型 (MLM) 是一种大语言模型 (LLM),用于在自然语言处理 (NLP) 任务中帮忙预测文本中缺失的单词。推而广之,掩码语言建模是一种针对 Transformer 模型的训练方法,典型代表为 Transformer 双向编码器表征 (BERT) 及其衍生的优化稳健型 BERT 预训练方法 (RoBERTa)。该方法通过训练模型补全文本中的掩码单词,预测出最合理且语义连贯的词汇以完成文本,从而处理 NLP 任务。1

掩码语言建模通过训练模型理解单词之间的上下文关系,从而帮助完成从情感分析文本生成的一系列任务。事实上,研发人员经常使用掩码语言建模来构建预训练模型,这些模型会经过进一步的监督微调,以用于处理文本分类或机器翻译等下游任务。因此,掩码语言模型为当前的许多先进语言建模算法奠定了基础。尽管掩码语言建模是一种语言模型预训练方法,但网上资料有时将其称为迁移学习方法。这或许并非毫无道理,因为一些研究小组已经开始将掩码语言建模作为最终任务来实现。

HuggingFace 转换器与 TensorFlow 文本库包含专为 Python 环境训练和测试掩码语言模型设计的函数,既支持终端任务也适用于下游任务。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

掩码语言模型的工作原理

掩码语言模型所特有的一般性工作流程相当简单。作为一种无监督学习形式,掩码语言建模从一个大型且未经标注的文本数据集开始。算法会将输入文本中的随机单词样本替换为掩码标记,而掩码标记可以由标记 [掩码] 或输入词汇表中的其他单词标记组成。对于每个掩码标记,模型会预测哪些单词标记最有可能出现在原始输入文本中。2

例如,下面的句子出自莎士比亚戏剧《奥赛罗》,这个句子中有两个词被替换成了掩码标记,还有一个词被替换成了一个完全不同的单词标记:

此可视化图展示了《奥赛罗》示例段落中经过掩码处理的单词

然后,模型将训练双向编码器,以预测经过掩码处理的原始输入标记。模型如何做到这一点呢?诚然,要阐明掩码语言模型的内部运作机制,需要具备高等代数和机器学习方面的基础知识。不过,进行粗略的概述还是可以的。

对于输入文本数据中的每个单词标记,模型都会生成类似于 Bag of words 模型的词嵌入。模型会将这些词嵌入与位置编码相结合,以生成 Transformer 输入。简而言之,位置编码是指使用唯一的向量值来表示给定单词标记在序列中的位置。通过位置编码(或位置嵌入),模型可以通过单词间的位置关系捕捉单词的语义信息。

 

Transformer 模型随后会利用这些词嵌入和位置嵌入,针对每个掩码标记在输入词表范围内生成对应的概率分布。对于每个掩码标记,预测概率最高的词便是模型对该标记真实值的对应预测结果。3

 

掩码标记预测方法

掩码语言建模是 BERT Transformer 模型预训练的一个典型功能;事实上,这两者是同时引入机器学习领域的。在 BERT 出现之前,语言模型是单向的。这意味着,语言模型在学习语言表征时,只考虑特定单词前面的文本。然而,BERT 采用的掩码语言建模任务处理方法会同时考虑前后文本。4单向方法与双向方法之间的主要区别在于,Transformer 的自注意力层如何解码输出值。

在预测序列中的下一个单词时,或者在预测缺失的单词(我们讨论的例子)时,单向模型只考虑缺失值之前的单词。以这种方式工作的 Transformer 解码器也被称为因果解码器或反向解码器。在处理输入序列时,这种解码器只考虑目标输入标记之前(包括该输入标记)的所有输入,而无法访问目标输入标记之后的输入。相比之下,双向编码器(如 BERT 模型所采用的编码器)会使用所有输入标记(即掩码值前后的输入)来生成预测结果。5

举个例子,让我们回到前面提到的《奥赛罗》中的台词:“But I do think it is their husbands’ faults if wives do fall.”想象一下,由于某种原因,整段文字中唯独缺少了 wives 这个词:“But I do think it is their husbands’ faults if ________ do fall.”我们想要确定什么词可以填补这一空白。下图展示了两种解码器在处理例句时的不同之处:

可视化图表对比不同编码器处理标记的方式

本图中,y 代表被掩码标记的预测输出。单向变换器仅使用掩码标记之前的输入值来预测该标记内容。而双向变换器则利用所有输入值的位置嵌入(包括掩码前后所有标记)来预测被掩码标记的内容。

最近的研究

开发人员和研究人员可以使用掩码语言模型来处理许多 NLP 任务,例如命名实体识别、问答和文本分类。与许多 NLP 领域一样,掩码语言建模的研究通常聚焦于拉丁语语言,尤其是英语。最近,一些已发表的实验尝试构建并评估非拉丁语语言(如日语和俄语)的数据集,用于处理掩码语言建模及下游任务。6此外,一个研究小组提出了一种弱监督方法,用于预训练多语言掩码语言模型。具体来说,该小组引入了一个特殊的掩码标记,以在多语言数据集上进行预训练时实现跨语言前向传递。他们的方法明显改善了多语言掩码语言模型的跨语言分类能力。7

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

用例

如前所述,研究者常将掩码语言建模作为提升模型在下游 NLP 任务表现的手段。此类任务包括:

命名实体识别。该任务运用模型与神经网络识别文本中预定义的对象类别——如人名、城市名等。与许多机器学习目标类似,缺乏合适数据一直是命名实体识别面临的障碍。为此,研究者已探索将掩码语言建模作为数据增强手段用于命名实体识别,并取得显著成效。8

情感分析。情感分析是指对数据进行分析并将其分类为正面、负面或中性。这种分析方法通常用于对大规模在线客户评论进行分类。与命名实体识别类似,研究人员也已将掩码语言建模作为一种数据增强技术应用于情感分析。9此外,掩码语言建模在情感分析的领域适应方面也大有可为。有研究明确表明,在情感分类任务中,掩码语言建模有助于集中精力预测权重较高的词汇。10

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

深入了解 watsonx.ai 深入了解人工智能解决方案
脚注

1 Daniel Jurafsky 与 James Martin,《语音与语言处理:自然语言处理、计算语言学与语音识别导论(第 3 版)》,2023 年,https://web.stanford.edu/~jurafsky/slp3 3

2 Lewis Tunstall、Leandro von Werra 与 Thomas Wolf,《使用变换器的自然语言处理(修订版)》,O'Reilly Media,2022 年。

3 Daniel Jurafsky 和 James Martin,《语音与语言处理:自然语言处理、计算语言学、语音识别导论》,第 3 版,2023 年,https://web.stanford.edu/~jurafsky/slp3。Denis Rothman,《Transformers for Natural Language Processing and Computer Vision》,第 3 版,Packt Publishing,2024 年。

4 Jacob Devlin、Ming-Wei Chang、Kenton Lee 与 Kristina Toutanova,《BERT:用于语言理解的深度双向变换器预训练》,2019 年北美计算语言学协会年会论文集,2019 年,https://aclanthology.org/N19-14233

5 Daniel Jurafsky 与 James Martin,《语音与语言处理:自然语言处理、计算语言学与语音识别导论(第 3 版)》,2023 年,https://web.stanford.edu/~jurafsky/slp 3

6 Masahiro Kaneko、Aizhan Imankulova、Danushka Bollegala 与 Naoaki Okazaki,《多语言掩码语言模型中的性别偏见》,2022 年北美计算语言学协会年会:人类语言技术会议论文集,2022 年,https://aclanthology.org/2022.naacl-main.1977。Sheng Liang、Philipp Dufter 与 Hinrich Schütze,《情境化表征中性别偏见的单语与多语削减》,第 28 届国际计算语言学会议论文集,2020 年,https://aclanthology.org/2020.coling-main.4466

7 Xi Ai 和 Bin Fang,《On-the-fly Cross-lingual Masking for Multilingual Pre-training》,Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics,2023 年,https://aclanthology.org/2023.acl-long.49

8 Ran Zhou、Xin Li、Ruidan He、Lidong Bing、Erik Cambria、Luo Si 与Chunyan Miao,《MELM:基于掩码实体语言建模的低资源命名实体识别数据增强方法》,第 60 届计算语言学协会年会论文集,2022 年,https://aclanthology.org/2022.acl-long.1600

9 Larisa Kolesnichenko、Erik Velldal 和 Lilja Øvrelid,《Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis》,Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023),2023 年,https://aclanthology.org/2023.resourceful-1.6

10 Nikolay Arefyev、Dmitrii Kharchev 和 Artem Shelmanov,《NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis》,Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing,2021 年,https://aclanthology.org/2021.emnlp-main.717