IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
自己教師あり学習(SSL)は、コンピューター・ビジョンや自然言語処理(NLP)のように、最先端の人工知能(AI)モデルをトレーニングするために、大量のラベル付きデータを必要とする分野で特に有用です。これらのラベル付きデータ・セットには人間の専門家による時間のかかるアノテーションが必要なため、十分なデータを収集することが非常に困難になる場合があります。自己教師ありアプローチは、トレーニング・データに手動でラベルを付ける必要の一部またはすべてを置き換えるため、時間とコスト効率が向上します。
分類や回帰のような精度が要求されるタスクのためにディープラーニング・モデルをトレーニングするには、与えられた入力に対するモデルの出力予測を、その入力に対する「正しい」予測(通常、グラウンド・トゥルースと呼ばれる)と比較できる必要があります。通常、手動でラベル付けされたトレーニング・データがその基準として機能します。この方法は人間による直接の介入が必要なため、「教師あり」学習と呼ばれます。自己教師あり学習では、ラベルなしデータから「グラウンド・トゥルース」を推測できるようにタスクが設計されています。
SSLでは、タスクはプレテキスト・タスクとダウンストリーム・タスクの2つのカテゴリに分類されます。プリテキストタスクでは、SSLを使用してAIシステムをトレーニングし、非構造化データの意味のある表現を学習させます。これらの学習された表現は、その後、教師あり学習タスクや強化学習タスクなどのダウンストリーム・タスクの入力として使用できます。新しいタスクで事前にトレーニングされたモデルを再利用することは、「転移学習」と呼ばれます。
教師あり学習は、BERTやGPTのような変換器ベースの大規模言語モデル(LLM)から、変分オートエンコーダー(VAE)や生成的敵対ネットワーク(GAN)のような画像合成モデル、SimCLRやモーメンタム・コントラスト(MoCo)のようなコンピューター・ビジョン・モデルまで、さまざまなタスクのための洗練されたディープラーニング・アーキテクチャの多様な配列のトレーニングに使用されています。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
自己教師あり学習は技術的には、教師なし学習のサブセットですが(ラベル付きデータ・セットを必要としないため)、グラウンド・トゥルースに対してパフォーマンスを最適化するという点で、教師あり学習と密接に関連しています。
従来の両方の機械学習パラダイムとの不完全な適合により、現在では集合的に「自己教師あり学習」とみなされるさまざまな手法が独自に分類されるようになりました。
この用語の造語は、チューリング賞を受賞したコンピューター科学者であり、ディープラーニング誕生における重要人物であるヤン・ルクン(Yann LeCun)1 、SSLを真の教師なし学習(同氏はこれを「負荷が高く、混乱を招く用語」と呼びました)と曖昧さをなくす必要があると宣言しました。2この名称(および正式な概念)は、2007年のRainaらによる論文「Self-taught learning: Transfer learning from unlabeled data(独学学習:ラベルなしデータからの転移学習)」に由来していると思われます。3現在SSLとみなされる一部の機械学習フレームワークは、オートエンコーダーと同様、この用語自体が存在するよりも何年も前から存在しています。
自己教師あり学習は教師なし学習のサブセットです。すべての自己教師あり学習は、教師なし学習ですが、ほとんどの教師なし学習は自己教師なし学習を伴いません。
教師なし学習も自己教師あり学習も、トレーニング・プロセスでラベルを使用しません。どちらの方法も、注釈付きのデータ・セットから外部から課せられた相関関係ではなく、ラベルなしデータに内在する相関関係とパターンを学習します。ラベル付けされていないデータに焦点を当てている点を除けば、自己教師あり学習と教師なし学習の違いは、教師なし学習と教師あり学習の違いとほとんど同じです。
従来の教師なし学習を使用した問題では、既知のグラウンド・トゥルースに照らして結果が測定されません。例えば、教師なしアソシエーション・モデルは、どの商品がよく一緒に購入されるかを学習することで、eコマースのレコメンドエンジンに活用することができます。モデルの有用性は、人間の予測を再現することからではなく、人間の観察者には明らかではない相関関係を発見することから得られます。
自己教師付き学習では、ラベルの付いていないトレーニング・データから暗黙的に導き出されたものであっても、根拠となる真実に照らして結果を測定します。教師ありモデルと同様に、自己教師ありモデルは損失関数を使用して最適化されます。損失関数は、グラウンド・トゥルースとモデル予測の乖離(「損失」)を測定するアルゴリズムです。トレーニングのなかで、自己教師モデルは、バック・プロパゲーション中に勾配降下法を用いて、損失を最小化する(それによって精度を向上させる)方法でモデルウェイトを調整します。
この重要な違いにより、2つの手法は異なるユースケースに焦点を当てており、教師なしモデルは、クラスタリング、異常検出、次元削減など、損失関数を必要としないタスクに使用され、自己教師ありモデルは、教師あり学習に典型的な分類および回帰タスクに使用されます。
教師あり学習と自己教師あり学習は主に同じ種類のタスクに使用され、どちらも損失関数によってパフォーマンスを最適化するためのグラウンド・トゥルースを必要としますが、自己教師ありモデルはラベル付けされていないデータでトレーニングされるのに対して、教師あり学習はトレーニングにラベル付けされたデータ・セットを必要とします。
ラベル付きデータセットは、モデルのトレーニングに非常に効果的です。トレーニング・データに注釈を付けることで、モデルは、注釈が反映する主要な特徴と相関関係を直接学習できます。モデルの予測と、トレーニング中に人間の専門家が手作業で注釈を付けた「予測」との乖離を最小限に抑えることで、教師ありモデルは、新しい(ラベルのない)入力データに対して、正しい推論を行うことを学習します。
最先端の教師ありアプローチでは高精度が得られますが、大量のトレーニングに注釈を付けることが研究プロセスのボトルネックになることがよくあります。例えば、インスタンス・セグメンテーションのようなピクセル固有の予測を必要とするコンピューター・ビジョンのタスクでは、トレーニング・データの注釈はピクセルレベルで行う必要があります。これにはコストと時間がかかり、利用可能なトレーニング・データの量と、ほとんどの企業や研究者がそれらを取得する能力が制限されます。
対照的に、自己教師ありモデルはさまざまな手法を使用して入力データ自体の構造から監視信号を取得し、ラベル付けの必要性をなくします。たとえば、文の一部をランダムに非表示(または「マスク」)し、元の(ラベルのない)文をグラウンド・トゥルースとして使用して、自己教師ありモデルに隠された単語を予測するタスクを課します。
人間がラベル付けしたデータを使用しない自己教師あり学習とは異なり、半教師あり学習では、ラベル付きデータとラベルなしデータの両方を使用してモデルをトレーニングします。たとえば、半教師ありモデルは、少量のラベル付きデータ・ポイントを使用して、ラベルのない残りのトレーニング・データ・セットのラベルを推測し、その後、データセット全体を教師あり学習に使用する場合があります。どちらのアプローチも教師あり学習における大規模なラベル付きデータ・セットの必要性を回避するため、動機は似ていますが、それぞれの方法論は異なります。
自己教師あり学習タスクは、損失関数がラベルなしの入力データをグラウンド・トゥルースとして使用できるように設計されています。これにより、モデルはラベルや注釈なしで入力データの正確で意味のある表現を学習できるようになります。
自己教師あり学習の目標は、ラベル付きデータの必要性を最小限に抑えるか、完全に置き換えることです。ラベル付けされたデータは比較的少なく、高価ですが、ラベルなしのデータは豊富で比較的安価です。基本的に、プリテキスト・タスクは、ラベルのないデータから「疑似ラベル」を生成します。「プレテキスト」という用語は、トレーニング・タスク自体が(必ずしも)有用ではないことを意味します。トレーニング・タスクが役立つのは、後続のダウンストリーム・タスクに役立つデータ表現をモデルに学習させるからです。したがって、プリテキスト・タスクは、しばしば表現学習とも呼ばれます。
SSLで事前にトレーニングされたモデルは、多くの場合、特定のダウンストリーム・タスクに合わせてファイン・チューニングされます。このファイン・チューニングには、多くの場合、真の教師あり学習が含まれます(ただし、教師あり学習のみでモデルをトレーニングするのに必要なラベル付きデータの一部が使用されます)。
SSLは、その方法論とユースケースの両方において多様ですが、SSLでトレーニングされたモデルは、自己予測学習と対照学習という2つの機械学習手法のいずれか(または両方)を使用します。
自己連想自己教師あり学習としても知られる自己予測手法は、他の部分に関する情報が与えられた場合に、個々のデータ・サンプルの一部を予測するようにモデルをトレーニングします。これらの方法でトレーニングされたモデルは、通常、識別モデルではなく、生成モデルになります。
ヤン・ルカンは、自己教師あり手法を「空白を埋める」という構造化された実践として特徴付けています。大まかに言うと、ラベル付けされていないデータの基本構造から、意味のある表現を学習するプロセスを簡単な言葉で説明しました。「入力の中に知らない部分があることにして、それを予測する」と。4 例えば、
これらの原理に基づいて構築された自己教師ありシステムでは、多くの場合、特定のモデル・アーキテクチャーとトレーニング手法が用いられます。
オートエンコーダー は、入力データを圧縮(または エンコード)し、その圧縮表現を使用して元の入力を再構成(または デコード)するようにトレーニングされたニューラル・ネットワークです。元の入力自体をグラウンド・トゥルースとして使用して、再構成誤差を最小限に抑えるようにトレーニングされています。
オートエンコーダーのアーキテクチャーはさまざまですが、通常は何らかの ボトルネックが発生します。 データがエンコーダー・ネットワークを進むにつれて、各層のデータ容量は段階的に減少します。これにより、ネットワークは入力データ内に隠された最も重要なパターン( 潜在変数または 潜在空間と呼ばれます)のみを学習するように強制されるため、デコーダー・ネットワークは情報が少なくなったにもかかわらず、元の入力を正確に再構築できます。
この基本フレームワークを変更すると、オートエンコーダーが便利な機能を学習できるようになります。
自己回帰モデルは、過去の動作に基づいて、将来の動作を予測します。これらは、言語、音声、動画など、固有の順序を持つデータは回帰でモデル化できるという論理に基づいています。
自己回帰アルゴリズムは、前のタイムステップの値を用いて時系列データをモデル化し、次のタイムステップの値を予測します。 線形回帰に使われるような従来の回帰アルゴリズムでは、独立変数が目標値 (または従属変数)を予測するために用いられるのに対して、自己回帰では、独立変数と従属変数は本質的に1つで、同じです。回帰が変数それ自体で実行されるので、 自己回帰と呼ばれます。
自己回帰は、テキストの生成や質問への回答などのタスクに優れたLLMのGPT、LLaMa、Claudeファミリーなどの因果言語モデルで主に使用されます。事前のトレーニングでは、ラベルのないトレーニング・データから抽出されたサンプル文の先頭が言語モデルに入力され、サンプル文の「実際の」次の単語がグラウンド・トゥルースとして機能する、次の単語を予測するタスクが与えられます。
もう1つの自己教師あり学習方法には、ラベルのないデータ・サンプルの特定の部分をマスキングし、不足している情報を予測または再構築するタスクをモデルに課すことが含まれます。損失関数は、元の(マスキング前の)入力をグラウンド・トゥルースとして使用します。たとえば、マスクされたオートエンコーダーは、ノイズ除去オーディオエンコーダーの逆のようなものです。無関係な情報を排除するのではなく、欠けている情報を予測して復元することを学習します。
マスキングは、マスクされた言語モデルのトレーニングにも使用されます。サンプル文からランダムな単語が省略され、モデルはそれらを埋めるようにトレーニングされます。マスク言語モデルのようなBERT(BARTやRoBERTaなど、そのアーキテクチャーを元に構築された多くのモデルも含め)は、多くの場合、自己回帰モデルよりテキスト生成に堪能していないというデメリットがあります。しかし、それでも 「双方向」という強みがあり、シーケンス内の単語の後ろにある単語を予測することも、次の単語以外の単語を予測することもできます。そのため、翻訳や要約、検索など、深い文脈の理解を必要とするタスクに適しています。
生得的関係予測 は、データ・サンプルが何らかの方法で変換された後もデータ・サンプルの理解を維持するようにモデルをトレーニングします。例えば、入力画像を回転させて、元の入力に対する回転の変化の度合いと方向を予測することをモデルに課します。5
対照自己教師あり学習では、モデルに複数のデータ・サンプルを入力し、それらの間の関係を予測するようにタスクを与えます。これらの方法でトレーニングされたモデルは通常、生成モデルではなく、識別モデルになります。
対照モデルは通常、トレーニングのためにデータとデータのペアを使用しますが、自己連想モデルはデータとラベルのペア(ラベルがデータから自己生成される)を使用します。これらのデータとデータのペアを用いて、モデルに対照学習させて、類似するものと類似しないものを区別させます。
これらのペアは多くの場合、データ拡張によって作成されます(ラベル付けされていないデータにさまざまな種類の変換や摂動を適用して、新しいインスタンスまたは 拡張ビューを作成します)。たとえば、画像データの一般的な拡張手法には、回転、ランダム・トリミング、反転、ノイズ処理、フィルタリング、色付けなどがあります。データ拡張は、データのばらつきを増大させ、モデルをさまざまな視点にさらすことで、モデルが意味のある動的なセマンティック表現をキャプチャできるように学習させるのに役立ちます
インスタンス識別ベースのモデルは、1つのデータサンプルをターゲット(又は「アンカー」)として、他のデータサンプルが「ポジティブ」(一致)または「ネガティブ」(不一致)と判定されるようにトレーニングを二項分類タスクの連続として構成します。
コンピューター・ビジョンでは、SimCLRやMoCoなどの手法は通常、ラベルのない生画像のバッチから開始し、変換のランダムな組み合わせを適用して、拡張画像サンプルのペア(またはセット)を生成します。これらの拡張画像は、それぞれ、ベクトル表現にエンコードされます。そして、対照損失関数を使用して、 正の一致(同じ元の画像から派生した拡張画像のペア)のベクトル表現の差を最小化し、負の一致間の差を最大化します。
したがって、インスタンス識別手法は、ランダムなデータ拡張のおかげで、些細な変動(特定の画像内の色、視点、または目に見える部分など)に対してロバストな、さまざまなカテゴリーの表現を学習するようにモデルをトレーニングします。これらの表現は、ダウンストリーム・タスクに非常によく一般化されます。
やや直感に反しますが、「非対照学習」とは、対照学習と密接に関連する方法を指し、対照学習以外の一般的な総称ではありません。モデルは正のペアのみを使用してトレーニングされ、それらの表現間の違いを最小限に抑えるように学習します。つまり、 対照(学習)ではありません。
対照学習と比較すると、非対照学習のアプローチは比較的単純です。非対照学習のアプローチは、正のサンプルのみを使用するため、トレーニング・エポックに使用するバッチ・サイズが小さくなり、負のサンプルを保存するためのメモリ・バンクを必要としません。これにより、事前トレーニングにおけるメモリと計算コストを節約できます。
Bootstrapping Your Own Latent(BYOL)6やBarlow Twins7 のような非対照モデルは、対照モデルや純粋な教師あり学習の結果と遜色のない結果を出しています。
異なるタイプ(モダリティー)のデータ・ポイントが与えられると、対照学習では、それらのモダリティー間のマッピングを学習できます。例えば、CLIP(Contrastive Language-Image Pre-training)は、画像エンコーダーとテキストエンコーダーを共同でトレーニングし、インターネットから収集した数百万もの容易に入手できるラベル付けされていない(画像とテキストの)ペアを使用して、どの画像にどのキャプションが適しているかを予測します。事前トレーニング後、自然言語処理(NLP)は、トレーニングで学習した視覚概念を参照するために(あるいは、新しい視覚概念を記述するために)使用され、CLIPでトレーニングされたモデルは、さまざまな伝達学習用途に極めて有用です。
対照学習は、動画とテキスト8、 動画と音声9、 および音声とテキスト10の間のアラインメントをトレーニングする目的にも使用されています。
自己教師あり学習は、さまざまなタスクや領域向けの人工知能モデルを事前トレーニングするために使用されてきました。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。