ゼロショット学習とは

共同執筆者

Senior Staff Writer, AI Models

IBM Think

ゼロショット学習とは

ゼロショット学習 (ZSL) は、AIモデルがオブジェクトや概念を認識して分類するようにトレーニングされ、それらのカテゴリや概念の例を事前に見なくても、それらのカテゴリや概念を分類する機械学習シナリオです。

分類や回帰のための最先端のディープラーニングモデルのほとんどは、関連するデータクラスのラベル付きサンプルを多数必要とする教師あり学習を通じてトレーニングされます。モデルは、ラベル付けされた訓練データセット上で予測を行うことによって「学習」します。データ・ラベルは、各訓練例について、可能な答えの範囲と正しい答え（またはグランド・トゥルース）の両方を提供します。ここでの「学習」とは、モデルの重みを調整して、モデルの予測とそのグランド・トゥルースの間の差異を最小限に抑えることを意味します。このプロセスには、トレーニングと更新を何回も行うのに十分な量のラベル付きサンプルが必要です。

教師あり学習は強力ではありますが、現実世界のシナリオによっては非現実的です。大量のデータサンプルに注釈を付けるにはコストと時間がかかり、希少疾患や新しく発見された種などの場合、例が不足しているか存在しない可能性があります。画像認識タスクを考えてみましょう。ある研究によると、人間は約30,000の個別に区別できるオブジェクトカテゴリを認識できます。¹ クラスごとにラベル付けされたデータで明示的にトレーニングする必要がある場合、人工知能モデルが人間の能力にリモートでアプローチすることは、時間、コスト、計算リソースの観点から現実的ではありません。

機械学習モデルは、最小限のトレーニングオーバーヘッドで多数のセマンティックカテゴリーに迅速に一般化できる必要性から、機械学習のサブセットである nショット学習（フューショット学習（FSL）およびワンショット学習も含む）が生まれました。フューショット学習では通常、転移学習とメタ学習ベースの手法を使用してモデルをトレーニングし、少数のラベル付きトレーニング・サンプル（またはワンショット学習の場合は 1 つのラベル付きサンプル）だけで新しいクラスを迅速に認識します。

ゼロショット学習は、すべてのnショット学習と同様に、特定のアルゴリズムやニューラル・ネットワーク・アーキテクチャーではなく、学習問題自体の性質を指します。ZSLでは、モデルは、トレーニング後に予測を行うように求められる目に見えないクラスのラベル付き例でトレーニングされません。

この問題設定では、そのクラスがトレーニング・データ内に（ラベルなしであっても）存在したかどうかは考慮されていません。たとえば、一部の大規模言語モデル（LLM）は、未知のデータクラスへの偶発的な参照や知識を含む可能性のあるテキストの大規模なコーパスに対する自己教師あり学習によって事前にトレーニングされているため、ZSLタスクに適しています。ZSLの手法は、ラベル付けされた事例を利用することなく、予測を行うために補助的な知識を利用します。

その汎用性と幅広いユースケースを考えると、ゼロショット学習は、データサイエンス、特にコンピュータービジョンと自然言語処理（NLP）の分野でますます注目すべき研究分野になっています。

一般化zero-shot学習（GSZL）

従来のZSL設定では、モデルは、目に見えないクラスのデータからのサンプルを含むデータセットでテストされます。Zero-shot手法の開発と検証には役立ちますが、一般的な現実世界の条件はほとんど反映されていません。一般化zero-shot学習（GSZL）は、データがモデルを指す特定のzero-shot学習問題を指します。分類するタスクは、未見のクラスまたは既知のクラスのいずれかに属する可能性があります。つまり、モデルがラベル付きの例からすでに「学習」したクラスです。

GSZLは、追加の課題を克服する必要があります。それは、分類器が、まだ公開されていない未確認のクラスよりも、トレーニングで確認されたクラスに予測を偏らせる傾向です。そのため、GSZLでは、そのバイアスを軽減するために追加のテクニックが必要になることがよくあります。

Zero-shot学習はどのように機能するのか

モデルが学習しようとするカテゴリのラベル付けされた例がない場合、ゼロショット学習問題では、補助的な情報、つまりテキスト記述、属性、埋め込み表現、または手元のタスクに関連するその他の意味情報を利用する。

Zero-shot学習技術は、クラス間の決定境界を直接モデル化するのではなく、通常、特定の入力が特定のクラスに属する可能性を表す確率ベクトルを出力します。GSZL手法では、最初にサンプルが既知のクラスに属するか新しいクラスに属するかを判断し、それに応じて処理を進める予備的な識別子を追加できます。

ラベルを理解する

教師あり学習では少数ショット学習（FSL）と同様に、モデルは各クラスの1つ以上のラベル付きサンプルを直接観察することによって、さまざまなクラスを認識することを学習します。このような明示的な注釈がない場合、ゼロショット学習はラベルの意味の理解をより根本的なものにする必要があります。

簡単な例えとして、子供が鳥がどんな形をしているのかを知りたいと考えていると想像してください。教師あり学習または FSL に似たプロセスで、子供は動物の絵の本で「鳥」とラベル付けされた画像を見て学習します。さらに進むと、彼女はすでに見た鳥の画像に似ているため、その鳥を認識します。しかし、ZSL シナリオでは、そのようなラベル付きの例は利用できません。代わりに、子供は百科事典の鳥に関する項目を読んで、鳥が羽、くちばし、翼を持ち、空を飛ぶことができる中型または中型の動物であることを学ぶかもしれません。そうすれば、彼女は鳥の概念を学んだので、これまで見たことがなくても、現実の世界で鳥を認識できるようになります。

前述したように、LLM は、データクラスの名前付けに使用される単語の意味を根本的に理解する能力に由来する、ZSL の自然な可能性を示しています。

転移学習

トレーニングに必要な時間とリソース、および目に見えないクラスを特定するために必要な補助情報の量を最小限に抑えるために、ZSLはモデルをゼロからトレーニングするのではなく、転移学習（トレーニングされたモデルを新しいタスクに転用する）を活用することがよくあります。

転移学習は、クラスとサンプルを意味の埋め込みとして表すZSLメソッドで主に使用されます。たとえば、ゼロショットテキスト分類を実行するモデルは、言語データの膨大なコーパスで事前トレーニング済みのBERTのようなトランスフォーマーベースのモデルを使用して、単語をベクトル埋め込みに変換する可能性があります。同様に、ゼロショット画像分類モデルは、分類に情報を与える可能性のある重要な画像特徴の特定に役立つフィルターの重みを既に学習しているため、ResNetやU-Netなどの事前トレーニング済み畳み込みニューラル・ネットワーク（CNN）を再利用する可能性があります。

転移学習はGSZLにとって特に重要であり、可視クラスに関するモデルの知識を未可視クラスに関する補助情報として使用できます。たとえば、物体検知モデルがハイイログマを認識することをすでに学習していると想像してください。ラベルを貼ったホッキョクグマの例を与えてホッキョクグマも認識できるように訓練する代わりに、ホッキョクグマは白い毛皮を持つハイイログマに似ていると理解できるように訓練することができます。

学習した知識を新しいタスクや異なるクラスに移行するこのプロセスは、ドメイン適応とも呼ばれる。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

属性ベースのメソッド

属性に基づくゼロショット学習法は、従来の教師あり学習と同様の論理を用います。各データクラスのラベル付けされた例で分類器を直接訓練するのではなく、色、形、その他の重要な特徴のような、特定のデータクラスのラベル付けされた特徴で分類器を訓練します。

ターゲットクラスはトレーニングでは直接表示されませんが、未表示のクラスの属性がトレーニングデータに存在する属性クラスに類似している場合、そのクラスのラベルを推測できます。

分類器が関連するすべての特徴を学習すると、さまざまなクラスの意味論的記述を利用できるようになります。このアプローチは、ターゲットクラスのラベル付きサンプルが利用できないが、その特徴のラベル付きサンプルが比較的豊富にある場合に特に役立ちます。たとえば、モデルはトラやシマウマの画像から「縞模様」を学習できます。カナリアの画像から「黄色」を学習し、ハエの画像から「飛んでいる昆虫」を学習できます。このモデルは、学習セットにハチの画像がないにもかかわらず、ハチを学習した特徴の組み合わせとして理解できるため、ハチのゼロショット分類を実行できるようになった："黄色で縞模様の飛ぶ昆虫"

属性ベースの ZSL メソッドは汎用性があり、適切な状況で便利ですが、次のような重要な欠点があります。

これらは、すべてのクラスが単一の属性ベクトルで記述できるという重要な前提に基づいていますが、常にそうであるとは限りません。Mall、Hariharan、Balaの3人は、性別、年齢、繁殖状態によって色や羽の模様が異なるアメリカゴジュウカラや、色、表面、正式な線の有無（または有無）によって大きく異なる屋外のバドミントンコートの例を挙げています。²
個々の属性の例に注釈を付けるには、特定のクラスの例に注釈を付けるのと同じくらいコストと時間がかかる可能性があります。
属性ベースのメソッドは、属性が不明であるか、利用可能なサンプルに存在しないクラスには一般化できません。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

埋め込みベースのメソッド

多くのZSLメソッドは、クラスとサンプルの両方を意味の埋め込みとして表現します。意味の埋め込みとは、さまざまなデータポイントの特徴や意味（およびデータポイント間の関係）を反映するために使用できるベクトル表現です。次に、特定のサンプルの意味の埋め込みと、それが分類される可能性のあるさまざまなクラスの埋め込みとの間の類似性を測定することによって、分類が決定されます。

データポイントが埋め込みとして表現されると、k近傍法アルゴリズムと類似の原理を使用して分類が決定されます。コサイン類似性、ユークリッド距離、ワッサーシュタイン距離などの距離のメトリクスが、埋め込みの近接性を測定するために使用されます。各潜在的なクラスの埋め込みにデータを入力します。そのデータ・サンプルの埋め込みが特定のクラスの埋め込みに近い（または類似している）ほど、そのクラスに属する可能性が高くなります。

これらの埋め込みは、さまざまな方法で生成できます。たとえば、

BERT、word2vec、Glove（Global Vectors）などの事前にトレーニングされたモデルやアルゴリズムは、単語のベクトル埋め込み（クラスラベルの名前など）を簡単に出力できます。
同様に、ResNetなどの事前トレーニング済みCNNのエンコーダーネットワーク（またはViTなどのトランスフォーマーベースの画像エンコーダー）は、画像に対して同じことを行うことができます。
オートエンコーダーは、サンプルまたはクラスの潜在表現（特定のデータ入力の最も特徴的な変数を分離する圧縮された低次元エンコード）を学習できます。
転移学習の代わりに、様々なニューラル・ネットワーク・アーキテクチャーを、ラベル付けされた例が利用可能な関連データクラスのサンプルのような、関連する訓練データ上でゼロから訓練し、効果的な埋め込みを出力することができます。

結合埋め込み空間

埋め込みベースのメソッドは通常、クラス・ラベルを説明する単語の埋め込みやそのクラスに属する可能性のある写真の画像埋め込みなど、さまざまな形式（またはモダリティ）のデータの補助情報およびベクトル空間埋め込みを処理するため、異なるデータ型の埋め込み間の比較を容易にする方法が必要です。

比較するには、異なるタイプとサイズのベクトル埋め込みを正規化し、共有の高次元意味空間（結合埋め込み空間と呼ばれる）に投影して、同一の設定で比較する必要があります。抽象的に言えば、これは、異なる分数を比較する最小公倍数を見つけるという概念と同様に機能します。異なる埋め込みソース間の強力な相関マッピングは、モデルの一般パフォーマンスに不可欠です。³

一部のゼロショット学習モデルでは、異なるモデルやアルゴリズムからの意味の埋め込みをより適切に調整するために、対照学習を使用しています。意味の埋め込みのペアを使用して、対照学習は、「正」のペア間の距離を最小化し（犬の画像と「犬」という単語の画像の埋め込みなど）、「負」の（一致しない）ペア間の距離を最大化するように、モデルをトレーニングします。

エンドツーエンドの共同トレーニング

さまざまなモデルの埋め込み間の整合性を確保する効果的な方法の1つは、これらのモデルを並べて共同トレーニングすることです。たとえば、OpenAIのContrastive Language-Image Pre-training（CLIP）モデルは、インターネットから取得した4億を超える画像とキャプションのペアからなるラベルのない巨大なデータ・セットでトレーニングされています。⁴

これらのペアリングは、画像エンコーダーとテキストエンコーダーを一緒に最初からトレーニングするために使用され、コントラスト損失を使用して、画像の埋め込みと対応するキャプションの埋め込みの間のコサイン類似性を最大化しました。これにより、ゼロショット分類の自然な機能が得られました。CLIP は、微調整を行わずに、27 の異なる画像分類データセットに対して強力な分類パフォーマンスを実証しました。

生成ベースの手法

生成AI は、zer0-shot学習の問題に対する代替ソリューションを提供します。つまり、ラベル付けされたサンプルを必要とせずに、補助情報を使用してサンプル・データを生成します。

生成ベースの手法では、目に見えないクラスの意味論的表現を活用してサンプルを生成し、ラベル付けすると、学習問題を標準の教師あり学習に変換するために使用できます。ラベルのないサンプル (または密接に関連するクラスの表現) はサンプルの合成に役立ちますが、ゼロショット設定では、このプロセスは主に意味論的な記述に依存することがよくあります。

OpenAIは、DALL-E 3テキストから画像への生成モデルのリリースペーパーで、合成キャプションが「グラウンド・トゥルース」キャプションと比較してモデルのパフォーマンスを向上させると指摘しています。⁵

変分オートエンコーダー

変分オートエンコーダー（VAE）は、トレーニングデータの潜在表現を潜在変数のパラメーター化された分布として学習する、自己教師あり生成モデルです。言い換えれば、データクラスを静的な意味の埋め込みとしてではなく、潜在空間内の確率分布としてエンコードすることを学習します。その後、デコーダを使用して、その潜在空間からランダムサンプルを生成できます。条件付きVAE（CVAE）は、選択された変数の確率を最大化することで合成されたサンプルの特性を制約することができます。

敵対的生成ネットワーク（GAN）

GANは、敵対的なゼロサム・ゲームで共同学習された2つのニューラル・ネットワークで構成されます。1つは意味属性とガウス・ノイズを使用してサンプルを合成する生成元、もう1つはサンプルが本物か「偽」（つまり、生成元によって合成されたもの）かを判断する識別子です。識別子からのフィードバックは、識別子が本物のサンプルと偽のサンプルを区別できなくなるまで、生成元をトレーニングするために使用されます。2014年に発表されたGANに関する最初の論文以降、このプロセスを改良し安定させるために多くの改良が加えられてきました。