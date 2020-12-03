言語モデルは、文中に単語が出現する確率、または文自体が存在する確率を推定します。そのため、多くのNLPアプリケーションの構成要素として役立ちます。しかし、特定のタスクや領域に役立つためには、膨大な量のトレーニング・データが必要となることがよくあります。

大規模なディープラーニング言語モデルは、これらの広範なトレーニングデータの問題に取り組むために設計されています。膨大な量の注釈なしデータを使用して事前トレーニングされ、汎用ディープラーニング・モデルを提供します。これらの事前トレーニングされたモデルをファイン・チューニングすることで、下流のユーザーは、注釈付きの小規模なトレーニング・データセットを使用してタスク固有のモデル（転移学習と呼ばれる手法）を作成できます。これらのモデルはNLPにおける画期的な進歩をもたらしています。現在では、より小さなデータセットで最先端の成果を達成できるようになりました。

最近まで、NLP言語モデルの最先端はRNNモデルでした。これらは、抽象的な要約、機械翻訳、一般的な自然言語生成などの順序付けられたタスクに役立ちます。RNNモデルは、コンテキスト内に現れる順序で、一度に1つの単語を順番に処理します。結果として、これらのモデルは並列化が困難であり、長いインプット全体で文脈上の関係を保持することが苦手です。前の投稿で説明したように、NLPではコンテキストは重要です。

2017年に導入されたモデルであるトランスフォーマーは、これらの問題を回避します。トランスフォーマー（BERTやGPTなど）は、文中の次の単語を予測するのに最も役立つ単語に「注意を払う」注意メカニズムを使用します。これらの注意メカニズムにより、トランスフォーマーはインプットされた単語の連続を一度に処理し、単語がテキスト内でどれだけ離れて出現していても、その単語間の関連する依存関係をマッピングします。その結果、Transformerは高度な並列化が可能で、はるかに大規模なモデルをより高速にトレーニングし、文脈上の手がかりを使用して、テキストを悩ませている多くの曖昧な問題を解決することができます。

個々のトランスフォーマーには独自の利点もあります。今年まで、BERTは最も人気のあるディープラーニングNLPモデルであり、多くのNLPタスクで最先端の成果を達成しました。

25億語でトレーニングされたBERTの主な利点は、双方向学習を使用して、左から右のコンテキストと右から左のコンテキストの両方の単語のコンテキストを同時に取得できることです。BERTの双方向トレーニング・アプローチは、マスクされた単語（Masted LM）を予測するように最適化されており、少数の事前トレーニング・ステップの後は、左から右へのトレーニングを上回るパフォーマンスを発揮します。モデルの学習プロセス中に、Next Sentence Prediction（NSP）トレーニングを行うことにより、文Bが文Aの前または後に続く場合に、文が互いにどのように関連しているかをモデルが理解できるようになります。その結果、より多くのコンテキストを導き出すことができます。たとえば、次の文における bank の意味を理解できます。「川岸（bank）に着いたらオールを上げてください」や「銀行（bank）が新しいデビットカードを送っています」です。これを理解するために、左から右への「川」と、右から左への「デビットカード」の手がかりを使用します。

BERT モデルとは異なり、GPTモデルは単方向です。GPTモデルの主な利点は、事前トレーニングされた膨大なデータにあります。第3世代GPTモデルであるGPT-3は、以前のモデルの約10倍である1,750億のパラメーターでトレーニングされました。この真に大規模な事前トレーニング済みモデルは、ユーザーがごくわずかなデータでNLPタスクを微調整し、新しいタスクを達成できることを意味します。トランスフォーマーは一般的にモデルのトレーニングに必要なデータ量を減らしましたが、GPT-3はモデルのトレーニングに必要なデータがはるかに少ないという点で、BERTよりも明らかに優れています。

たとえば、モデルはわずか10文の文章で、なぜ人間はAIを恐れるべきではないのかというテーマでエッセイを書くことを学習しました。（ただし、これらの自由形式のレポートの質のばらつきが、今日のテクノロジーの限界を示していることに注意してください。）