什么是掩码语言模型？

掩码语言建模可训练模型预测文本中缺失的单词。它通常用于为下游 NLP 任务预训练模型。

掩码语言模型 (MLM) 是一种大语言模型 (LLM)，用于在自然语言处理 (NLP) 任务中帮忙预测文本中缺失的单词。推而广之，掩码语言建模是一种针对 Transformer 模型的训练方法，典型代表为 Transformer 双向编码器表征 (BERT) 及其衍生的优化稳健型 BERT 预训练方法 (RoBERTa)。该方法通过训练模型补全文本中的掩码单词，预测出最合理且语义连贯的词汇以完成文本，从而处理 NLP 任务。¹

掩码语言建模通过训练模型理解单词之间的上下文关系，从而帮助完成从情感分析到文本生成的一系列任务。事实上，研发人员经常使用掩码语言建模来构建预训练模型，这些模型会经过进一步的监督微调，以用于处理文本分类或机器翻译等下游任务。因此，掩码语言模型为当前的许多先进语言建模算法奠定了基础。尽管掩码语言建模是一种语言模型预训练方法，但网上资料有时将其称为迁移学习方法。这或许并非毫无道理，因为一些研究小组已经开始将掩码语言建模作为最终任务来实现。

HuggingFace 转换器与 TensorFlow 文本库包含专为 Python 环境训练和测试掩码语言模型设计的函数，既支持终端任务也适用于下游任务。

掩码语言模型的工作原理

掩码语言模型所特有的一般性工作流程相当简单。作为一种无监督学习形式，掩码语言建模从一个大型且未经标注的文本数据集开始。算法会将输入文本中的随机单词样本替换为掩码标记，而掩码标记可以由标记 [掩码] 或输入词汇表中的其他单词标记组成。对于每个掩码标记，模型会预测哪些单词标记最有可能出现在原始输入文本中。²

例如，下面的句子出自莎士比亚戏剧《奥赛罗》，这个句子中有两个词被替换成了掩码标记，还有一个词被替换成了一个完全不同的单词标记：

然后，模型将训练双向编码器，以预测经过掩码处理的原始输入标记。模型如何做到这一点呢？诚然，要阐明掩码语言模型的内部运作机制，需要具备高等代数和机器学习方面的基础知识。不过，进行粗略的概述还是可以的。

对于输入文本数据中的每个单词标记，模型都会生成类似于 Bag of words 模型的词嵌入。模型会将这些词嵌入与位置编码相结合，以生成 Transformer 输入。简而言之，位置编码是指使用唯一的向量值来表示给定单词标记在序列中的位置。通过位置编码（或位置嵌入），模型可以通过单词间的位置关系捕捉单词的语义信息。

Transformer 模型随后会利用这些词嵌入和位置嵌入，针对每个掩码标记在输入词表范围内生成对应的概率分布。对于每个掩码标记，预测概率最高的词便是模型对该标记真实值的对应预测结果。³

掩码标记预测方法

掩码语言建模是 BERT Transformer 模型预训练的一个典型功能；事实上，这两者是同时引入机器学习领域的。在 BERT 出现之前，语言模型是单向的。这意味着，语言模型在学习语言表征时，只考虑特定单词前面的文本。然而，BERT 采用的掩码语言建模任务处理方法会同时考虑前后文本。⁴单向方法与双向方法之间的主要区别在于，Transformer 的自注意力层如何解码输出值。

在预测序列中的下一个单词时，或者在预测缺失的单词（我们讨论的例子）时，单向模型只考虑缺失值之前的单词。以这种方式工作的 Transformer 解码器也被称为因果解码器或反向解码器。在处理输入序列时，这种解码器只考虑目标输入标记之前（包括该输入标记）的所有输入，而无法访问目标输入标记之后的输入。相比之下，双向编码器（如 BERT 模型所采用的编码器）会使用所有输入标记（即掩码值前后的输入）来生成预测结果。⁵

举个例子，让我们回到前面提到的《奥赛罗》中的台词：“But I do think it is their husbands’ faults if wives do fall.”想象一下，由于某种原因，整段文字中唯独缺少了 wives 这个词：“But I do think it is their husbands’ faults if ________ do fall.”我们想要确定什么词可以填补这一空白。下图展示了两种解码器在处理例句时的不同之处：

本图中，y 代表被掩码标记的预测输出。单向变换器仅使用掩码标记之前的输入值来预测该标记内容。而双向变换器则利用所有输入值的位置嵌入（包括掩码前后所有标记）来预测被掩码标记的内容。

用例

如前所述，研究者常将掩码语言建模作为提升模型在下游 NLP 任务表现的手段。此类任务包括：

命名实体识别。该任务运用模型与神经网络识别文本中预定义的对象类别——如人名、城市名等。与许多机器学习目标类似，缺乏合适数据一直是命名实体识别面临的障碍。为此，研究者已探索将掩码语言建模作为数据增强手段用于命名实体识别，并取得显著成效。⁸

情感分析。情感分析是指对数据进行分析并将其分类为正面、负面或中性。这种分析方法通常用于对大规模在线客户评论进行分类。与命名实体识别类似，研究人员也已将掩码语言建模作为一种数据增强技术应用于情感分析。⁹此外，掩码语言建模在情感分析的领域适应方面也大有可为。有研究明确表明，在情感分类任务中，掩码语言建模有助于集中精力预测权重较高的词汇。¹⁰

如何选择合适的 AI 基础模型

如何选择正确的方法来准备数据集和使用 AI 模型？如何使用模型选择框架来平衡性能要求？

资源

深入了解 IBM Granite

了解 IBM® Granite™，我们的开放式、性能出色和值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和防护措施选项。

如何选择合适的 AI 基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

探索大语言模型 (LLM) 的威力

深入阅读 IBM 开发人员文章、博客和教程，加深您对大语言模型 (LLM) 的了解。

CEO 的模型优化指南

了解如何使用最新的 AI 技术和基础架构，不断推动团队提高模型性能并超越竞争对手。

采用差异化方法提供 AI 基础模型

深入了解企业级基础模型的价值，利用这种模型可信、高性能且经济高效的特点，为所有行业服务。

解锁生成式 AI + ML 的强大功能

了解如何将生成式 AI、机器学习和基础模型整合到您的业务运营中，以提高绩效。

2024 年 AI 实际应用

了解我们对 2,000 家组织进行的关于他们的 AI 计划的调研，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

脚注

1 Daniel Jurafsky 与 James Martin，《语音与语言处理：自然语言处理、计算语言学与语音识别导论（第 3 版）》，2023 年，https://web.stanford.edu/~jurafsky/slp3 3 。

2 Lewis Tunstall、Leandro von Werra 与 Thomas Wolf，《使用变换器的自然语言处理（修订版）》，O'Reilly Media，2022 年。

3 Daniel Jurafsky 和 James Martin，《语音与语言处理：自然语言处理、计算语言学、语音识别导论》，第 3 版，2023 年，https://web.stanford.edu/~jurafsky/slp3。Denis Rothman，《Transformers for Natural Language Processing and Computer Vision》，第 3 版，Packt Publishing，2024 年。

4 Jacob Devlin、Ming-Wei Chang、Kenton Lee 与 Kristina Toutanova，《BERT：用于语言理解的深度双向变换器预训练》，2019 年北美计算语言学协会年会论文集，2019 年，https://aclanthology.org/N19-14233。

5 Daniel Jurafsky 与 James Martin，《语音与语言处理：自然语言处理、计算语言学与语音识别导论（第 3 版）》，2023 年，https://web.stanford.edu/~jurafsky/slp 3。

6 Masahiro Kaneko、Aizhan Imankulova、Danushka Bollegala 与 Naoaki Okazaki，《多语言掩码语言模型中的性别偏见》，2022 年北美计算语言学协会年会：人类语言技术会议论文集，2022 年，https://aclanthology.org/2022.naacl-main.1977。Sheng Liang、Philipp Dufter 与 Hinrich Schütze，《情境化表征中性别偏见的单语与多语削减》，第 28 届国际计算语言学会议论文集，2020 年，https://aclanthology.org/2020.coling-main.4466。

7 Xi Ai 和 Bin Fang，《On-the-fly Cross-lingual Masking for Multilingual Pre-training》，Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics，2023 年，https://aclanthology.org/2023.acl-long.49。

8 Ran Zhou、Xin Li、Ruidan He、Lidong Bing、Erik Cambria、Luo Si 与Chunyan Miao，《MELM：基于掩码实体语言建模的低资源命名实体识别数据增强方法》，第 60 届计算语言学协会年会论文集，2022 年，https://aclanthology.org/2022.acl-long.1600。

9 Larisa Kolesnichenko、Erik Velldal 和 Lilja Øvrelid，《Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis》，Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023)，2023 年，https://aclanthology.org/2023.resourceful-1.6。

10 Nikolay Arefyev、Dmitrii Kharchev 和 Artem Shelmanov，《NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis》，Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing，2021 年，https://aclanthology.org/2021.emnlp-main.717。

什么是掩码语言模型？

最新的 AI 新闻 + 洞察分析

掩码语言模型的工作原理

掩码标记预测方法

最近的研究

为什么说基础模型是 AI 的范式转变

用例

资源

脚注

什么是掩码语言模型？

最新的 AI 新闻 + 洞察分析

掩码语言模型的工作原理

掩码标记预测方法

最近的研究

为什么说基础模型是 AI 的范式转变

用例

Share

资源

脚注