マスキング言語モデルとは。

英国ティーズのストックトンにある無限橋。

マスキング言語モデリングは、テキスト内の欠落した単語を予測するようにモデルをトレーニングします。通常、ダウンストリームのNLPタスクのモデルを事前トレーニングします。

マスキング言語モデル(MLM)は、自然言語処理(NLP)タスクでテキストから欠落している単語を予測するために使用される大規模言語モデル(LLM)の一種です。さらに言えば、マスキング言語モデルは、テキスト内のマスキングされた単語を埋めるようモデルを訓練し、それによってテキストを完成させる最も可能性が高く一貫性のある単語を予測させることで、NLPタスク向けにトランスフォーマーモデル(特にbidirectional encoder representations from transformers(BERT)およびその派生モデルであるrobustly optimized BERT pretraining approach(RoBERTa))を訓練する手法の一つです。1

マスキング言語モデリングは、単語間の文脈的関係を理解するモデルを学習することで、感情分析からテキスト生成まで、多くのタスクを支援します。実際、研究開発者は、マスキング言語モデリングを使用して、テキスト分類や機械翻訳などのダウンストリームタスク用に、さらに教師ありファイン・チューニングを行った事前トレーニング済みモデルを作成することがよくあります。それによって、マスキング言語モデルは、現在の多くの最先端の言語モデリング・アルゴリズムを支えています。マスキング言語モデリングは言語モデルを事前トレーニングするための方法ですが、オンライン情報源では転移学習方法と呼ばれることもあります。一部の研究グループは、マスキング言語モデリング自体をエンド・タスクとして実装し始めているため、これは正しい表現である可能性があります。

HuggingFaceトランスフォーマーとTensorflowテキストライブラリーには、エンド・タスクとダウンストリーム・タスクの両方で、Pythonでマスキング言語モデルをトレーニングおよびテストするために設計された機能が含まれています。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

マスキング言語語モデルの仕組み

マスキング言語モデルを特徴付ける一般的な手順は非常に簡単です。教師なし学習の一種であるマスキング言語モデリングは、注釈のない大規模なテキスト・データ・セットから始まります。アルゴリズムは、このインプットテキストからの単語のランダムなサンプルを、トークン[MASK]またはインプットテキストの語彙からの他の単語トークンで構成されるマスクされたトークンに置き換えます。マスクされたトークンごとに、モデルはどの単語トークンが元の入力テキストに出現した可能性が最も高いかを予測します。2

例えば、シェイクスピアのOthello(オセロ)の次の文では、2つの単語がマスクされたトークンに置き換えられ、別の単語がまったく別の単語トークンに置き換えられています。

Othelloの文章における単語マスキングの視覚化

モデルは次に双方向エンコーダーをトレーニングして、マスクされた元のインプットトークンを予測します。これはどのように行われるのでしょうか。確かに、マスキング言語モデルの内部機械を明らかにするには、高度な代数と機械学習の基盤が必要です。それでも、大まかな概要は可能です。

入力テキストデータ内のすべてのトークンについて、モデルはBag-of-Wordsと同様の埋め込みを生成します。モデルは、これらの単語埋め込みを位置エンコーディングと組み合わせて、トランスフォーマーのインプットを作成します。位置エンコーディングは、簡単に言うと、一意のベクトル値を使用して、シーケンス内の特定の単語トークンの位置を表します。このモデルは、位置エンコーディング(または位置埋め込み)を通じて、他の単語との位置関係を通じて単語に関する意味情報をキャプチャーできます。

 

トランスフォーマー・モデルは、これらの単語と位置の埋め込みを使用して、マスクされた各トークンのインプット語彙にわたる確率分布を生成します。マスクされた各トークンに対して最も高い予測確率を持つ単語が、各トークンの真値に対するモデルのそれぞれの予測です。3

 

マスクされたトークン予測へのアプローチ

マスキング言語モデリングは、BERTトランスフォーマー・モデルの事前トレーニングの主要な機能であり、実際、この2つは一緒に機械学習コミュニティーに導入されました。BERTが登場する以前、言語モデルは単一方向でした。これは、特定の単語の前にあるテキストのみを考慮することによって、言語表現を学習したことを意味します。ただし、マスキング言語モデリング・タスクに対するBERTのアプローチでは、前のテキストと後続のテキストの両方を考慮します。4単方向アプローチと双方向アプローチの主な違いは、トランスフォーマーの自己注意層がアウトプットをどのようにデコードするかによって異なります。

シーケンス内の次の単語(またはこの場合は欠損単語)を予測する場合、単方向モデルは欠損値の前にある単語のみを考慮します。この方法で動作するトランスフォーマー・デコーダーは、因果的または後方視的とも呼ばれます。入力シーケンスを処理する場合、デコーダーは、問題の入力トークンまでの入力のみを考慮します。デコーダーは、検討中のトークン入力に続くトークン入力へのアクセス権を持ちません。対照的に、BERTモデルで採用されている双方向エンコーダーは、すべての入力トークン、つまりマスクされた値の前後にいるトークンを使って予測を生成します。5

説明のために、前述のOthelloの言葉に戻りましょう。「しかし、私は夫のせいだと思います」というものです。ある理由で、この文章全体がwivesという単語を除いて存在すると想像してみてください。「しかし、もし________が堕落するのであれば、それは夫の責任であると考えます」。このギャップを埋めるものを特定したいと考えています。次の図は、両方のデコーダーがサンプル文をどのように処理するかという違いを示しています。

さまざまなエンコーダーによるトークンの処理方法を比較した視覚化

この図で、yはマスクされたトークンの予測出力を意味します。単方向トランスフォーマーは、マスクされたトークンの前のインプットのみを使用して、マスクされたトークンの値を予測します。ただし、双方向トランスフォーマーは、マスクされたトークンの値を予測するために、マスクの前後の値の両方のすべてのインプットからの位置埋め込みを使用します。

最近の研究

開発者と研究者は、マスキング言語モデルを使用して、Named Entity Recognition、質問応答、テキスト分類などの多くのNLPタスクを強化します。NLPの多くの分野と同様に、マスキング言語モデリングの研究は、ラテン系言語、主に英語に焦点を当てていることがよくあります。最近では、マスキング言語モデリングやダウンストリーム・タスクのために、日本語やロシア語などの非ラテン言語のデータ・セットを開発および評価する実験が公開されています。6さらに、ある研究グループでは、多言語マスキング言語モデルを事前トレーニングするための、弱い教師あり方法を提案しています。具体的には、多言語データ・セットの事前トレーニングにおいて言語間のフォワード・パスを実行するために、特別なマスクされたトークンを導入しています。彼らの方法では、多言語マスキング言語モデルを使用した場合に、言語間分類が大幅に改善されました。7

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

ユースケース

前述したように、研究者は、ダウンストリームNLPタスクのモデルのパフォーマンスを向上させる手段として、マスキング言語モデリングを使用することがよくあります。このようなタスクには以下が含まれます。

Named Entity Recognitionこのタスクでは、モデルとニューラル・ネットワークを使用して、人名や都市名など、テキスト内の事前定義されたカテゴリーを識別します。多くの機械学習の目標と同様、適切なデータの欠如は、Named Entity Recognitionにおける課題となっています。これに対処するため、研究者たちは名前付きエンティティ認識のためのデータ拡張の一形態としてマスキング言語モデリングを探求し、顕著な成功を収めています。8

センチメント分析。センチメント分析は、データを肯定的、否定的、または中立的に分析し、分類します。これは、オンライン顧客レビューの大規模なコレクションを分類するためによく使用されます。固有表現認識と同様に、研究者は感情分析のデータ拡張テクノロジーとして、マスキング言語モデリングを研究してきました。9さらに、マスキング言語モデリングは、感情分析におけるドメイン適応の可能性を示しています。研究では、感情分類器タスクにおいて、重みが大きい単語の予測に重点を置くのに役立つことが具体的に示唆されています。10

関連ソリューション
基盤モデル

watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。

watsonx.aiの詳細はこちら AIソリューションはこちら
脚注

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.

2 Lewis Tunstall, Leandro von Werra, and Thomas Wolf,自然言語処理 with Transformers, Revised Edition, O'Reilly Media, 2022.

3 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3rd edition, Packt Publishing, 2024.

4 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019, https://aclanthology.org/N19-1423.

5 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.

6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, and Naoaki Okazaki, "Gender Bias in Masked Language Models for Multiple Languages," Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter, and Hinrich Schütze, "Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations," Proceedings of the 28th International Conference on Computational Linguistics, 2020, https://aclanthology.org/2020.coling-main.446.

7 Xi Ai and Bin Fang, "On-the-fly Cross-lingual Masking for Multilingual Pre-training," Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 2023, https://aclanthology.org/2023.acl-long.49.

8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si, and Chunyan Miao, "MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER," Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.160.

9 Larisa Kolesnichenko, Erik Velldal, and Lilja Øvrelid, "Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis,"Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.

10 Nikolay Arefyev, Dmitrii Kharchev, and Artem Shelmanov, "NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis," Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.717.