ゼロショット学習とは

ライトアップされたサンフランシスコの航空写真

共同執筆者

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

ゼロショット学習とは

ゼロショット学習 (ZSL) は、AIモデルがオブジェクトや概念を認識して分類するようにトレーニングされ、それらのカテゴリや概念の例を事前に見なくても、それらのカテゴリや概念を分類する機械学習シナリオです。

分類や回帰のための最先端のディープラーニングモデルのほとんどは、教師あり学習によってトレーニングされるため、関連するデータクラスのラベル付き例が多数必要になります。モデルは、ラベル付けされた訓練データセット上で予測を行うことによって「学習」します。データ・ラベルは、各訓練例について、可能な答えの範囲と正しい答え(またはグランド・トゥルース)の両方を提供します。ここでの「学習」とは、モデルの重みを調整して、モデルの予測とそのグランド・トゥルースの間の差異を最小限に抑えることを意味します。このプロセスには、トレーニングと更新を何回も行うのに十分な量のラベル付きサンプルが必要です。

教師あり学習は強力ではありますが、現実世界のシナリオによっては非現実的です。 大量のデータサンプルに注釈を付けるにはコストと時間がかかり、希少疾患や新しく発見された種などの場合、例が不足しているか存在しない可能性があります。 画像認識タスクを考えてみましょう。ある研究によると、人間は約30,000の個別に区別できるオブジェクトカテゴリを認識できます。1 クラスごとにラベル付けされたデータで明示的にトレーニングする必要がある場合、人工知能モデルが人間の能力にリモートでアプローチすることは、時間、コスト、計算リソースの観点から現実的ではありません。

機械学習モデルは、最小限のトレーニングオーバーヘッドで多数のセマンティックカテゴリーに迅速に一般化できる必要性から、機械学習のサブセットである nショット学習フューショット学習(FSL)およびワンショット学習も含む)が生まれました。フューショット学習では通常、転移学習メタ学習ベースの手法を使用してモデルをトレーニングし、少数のラベル付きトレーニング・サンプル(またはワンショット学習の場合は 1 つのラベル付きサンプル)だけで新しいクラスを迅速に認識します。

ゼロショット学習はすべてのnショット学習と同様に、特定のアルゴリズムやニューラル・ネットワーク・アーキテクチャーではなく、学習問題自体の性質を指します。ZSLでは、モデルは、トレーニング後に予測を行うように求められる目に見えないクラスのラベル付き例でトレーニングされません。

この問題設定では、そのクラスがトレーニング・データ内に(ラベルなしであっても)存在したかどうかは考慮されていません。たとえば、一部の大規模言語モデル(LLM)は、未知のデータクラスへの偶発的な参照や知識を含む可能性のあるテキストの大規模なコーパスに対する自己教師あり学習によって事前にトレーニングされているため、ZSLタスクに適しています。ZSLの手法は、ラベル付けされた事例を利用することなく、予測を行うために補助的な知識を利用します。

その汎用性と幅広いユースケースを考えると、ゼロショット学習は、データサイエンス、特にコンピュータービジョン自然言語処理(NLP)の分野でますます注目すべき研究分野になっています。

一般化ゼロショット学習 (GSZL)

従来の ZSL 設定では、モデルは、目に見えないクラスのデータからのサンプルを含むデータセットでテストされます。 ゼロショット手法の開発と検証には役立ちますが、一般的な現実世界の条件はほとんど反映されていません。一般化ゼロショット学習(GSZL) は、データがモデルを指す特定のゼロショット学習問題を指します。分類するタスクは、未見のクラスまたは既知のクラスのいずれかに属する可能性があります。つまり、モデルがラベル付きの例からすでに「学習」したクラスです。

GSZL は、追加の課題を克服する必要があります。それは、分類器が、まだ公開されていない未確認のクラスよりも、トレーニングで確認されたクラスに予測を偏らせる傾向です。 そのため、GSZL では、そのバイアスを軽減するために追加のテクニックが必要になることがよくあります。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

ゼロショット学習はどのように機能しますか?

モデルが学習しようとするカテゴリのラベル付けされた例がない場合、ゼロショット学習問題では、補助的な情報、つまりテキスト記述、属性、埋め込み表現、または手元のタスクに関連するその他の意味情報を利用する。

ゼロショット学習技術は、クラス間の決定境界を直接モデル化するのではなく、通常、特定の入力が特定のクラスに属する可能性を表す確率ベクトルを出力します。 GSZL メソッドでは、最初にサンプルが既知のクラスに属するか新しいクラスに属するかを判断し、それに応じて処理を進める予備的な識別子を追加できます。

ラベルを理解する

教師あり学習では少数ショット学習(FSL)と同様に、モデルは各クラスの1つ以上のラベル付きサンプルを直接観察することによって、さまざまなクラスを認識することを学習します。このような明示的な注釈がない場合、ゼロショット学習はラベルの意味の理解をより根本的なものにする必要があります。

簡単な例えとして、子供が鳥がどんな形をしているのかを知りたいと考えていると想像してください。 教師あり学習または FSL に似たプロセスで、子供は動物の絵の本で「鳥」とラベル付けされた画像を見て学習します。 さらに進むと、彼女はすでに見た鳥の画像に似ているため、その鳥を認識します。 しかし、ZSL シナリオでは、そのようなラベル付きの例は利用できません。 代わりに、子供は百科事典の鳥に関する項目を読んで、鳥が羽、くちばし、翼を持ち、空を飛ぶことができる中型または中型の動物であることを学ぶかもしれません。 そうすれば、彼女は鳥の概念を学んだので、これまで見たことがなくても、現実の世界で鳥を認識できるようになります。

前述したように、LLM は、データ クラスの名前付けに使用される単語の意味を根本的に理解する能力に由来する、ZSL の自然な可能性を示しています。

転移学習

トレーニングに必要な時間とリソース、および目に見えないクラスを特定するために必要な補助情報の量を最小限に抑えるために、ZSLはモデルをゼロからトレーニングするのではなく、転移学習(トレーニングされたモデルを新しいタスクに転用する)を活用することがよくあります。

転移学習は、クラスとサンプルを意味の埋め込みとして表すZSLメソッドで主に使用されます。たとえば、ゼロショットテキスト分類を実行するモデルは、言語データの膨大なコーパスで事前トレーニング済みのBERTのようなトランスフォーマーベースのモデルを使用して、単語をベクトル埋め込みに変換する可能性があります。同様に、ゼロショット画像分類モデルは、分類に情報を与える可能性のある重要な画像特徴の特定に役立つフィルターの重みを既に学習しているため、ResNetやU-Netなどの事前トレーニング済み畳み込みニューラル・ネットワーク(CNN)を再利用する可能性があります。

転移学習はGSZLにとって特に重要であり、可視クラスに関するモデルの知識を未可視クラスに関する補助情報として使用できます。たとえば、物体検知モデルがハイイログマを認識することをすでに学習していると想像してください。ラベルを貼ったホッキョクグマの例を与えてホッキョクグマも認識できるように訓練する代わりに、ホッキョクグマは白い毛皮を持つハイイログマに似ていると理解できるように訓練することができます。

学習した知識を新しいタスクや異なるクラスに移行するこのプロセスは、ドメイン適応とも呼ばれる。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

属性ベースのメソッド

属性に基づくゼロショット学習法は、従来の教師あり学習と同様の論理を用います。各データクラスのラベル付けされた例で分類器を直接訓練するのではなく、色、形、その他の重要な特徴のような、特定のデータクラスのラベル付けされた特徴で分類器を訓練します。

ターゲット クラスはトレーニングでは直接表示されませんが、未表示のクラスの属性がトレーニング データに存在する属性クラスに類似している場合、そのクラスのラベルを推測できます。

分類器が関連するすべての特徴を学習すると、さまざまなクラスの意味論的記述を利用できるようになります。 このアプローチは、ターゲット クラスのラベル付きサンプルが利用できないが、その特徴のラベル付きサンプルが比較的豊富にある場合に特に役立ちます。 たとえば、モデルはトラやシマウマの画像から「縞模様」を学習できます。カナリアの画像から「黄色」を学習し、ハエの画像から「飛んでいる昆虫」を学習できます。 このモデルは、学習セットにハチの画像がないにもかかわらず、ハチを学習した特徴の組み合わせとして理解できるため、ハチのゼロショット分類を実行できるようになった:"黄色で縞模様の飛ぶ昆虫"

属性ベースの ZSL メソッドは汎用性があり、適切な状況で便利ですが、次のような重要な欠点があります。

  • これらは、すべてのクラスが単一の属性ベクトルで記述できるという重要な前提に基づいていますが、常にそうであるとは限りません。 Mall、Hariharan、Balaの3人は、性別、年齢、繁殖状態によって色や羽の模様が異なるアメリカゴジュウカラや、色、表面、正式な線の有無(または有無)によって大きく異なる屋外のバドミントンコートの例を挙げている2
  • 個々の属性の例に注釈を付けるには、特定のクラスの例に注釈を付けるのと同じくらいコストと時間がかかる可能性があります。
  • 属性ベースのメソッドは、属性が不明であるか、利用可能なサンプルに存在しないクラスには一般化できません。

埋め込みベースのメソッド

多くのZSLメソッドは、クラスとサンプルの両方を意味の埋め込みとして表現します。意味の埋め込みとは、さまざまなデータポイントの特徴や意味(およびデータポイント間の関係)を反映するために使用できるベクトル表現です。次に、特定のサンプルの意味の埋め込みと、それが分類される可能性のあるさまざまなクラスの埋め込みとの間の類似性を測定することによって、分類が決定されます。

データポイントが埋め込みとして表現されると、k近傍法アルゴリズムと類似の原理を使用して分類が決定されます。コサイン類似性、ユークリッド距離、ワッサーシュタイン距離などの距離のメトリクスが、埋め込みの近接性を測定するために使用されます。各潜在的なクラスの埋め込みにデータを入力します。そのデータ・サンプルの埋め込みが特定のクラスの埋め込みに近い(または類似している)ほど、そのクラスに属する可能性が高くなります。

これらの埋め込みは、さまざまな方法で生成できます。 たとえば、

  • BERT、word2vec、Glove (Global Vectors) などの事前にトレーニングされたモデルやアルゴリズムは、単語のベクトル埋め込み (クラスラベルの名前など) を簡単に出力できます。

  • 同様に、ResNet などの事前トレーニング済み CNN のエンコーダー ネットワーク (または ViT などのトランスフォーマーベースの画像エンコーダー) は、画像に対して同じことを行うことができます。

  • オートエンコーダーは、サンプルまたはクラスの潜在表現(特定のデータ入力の最も特徴的な変数を分離する圧縮された低次元エンコード)を学習できます。

  • 転移学習の代わりに、様々なニューラル・ネットワーク・アーキテクチャーを、ラベル付けされた例が利用可能な関連データクラスのサンプルのような、関連する訓練データ上でゼロから訓練し、効果的な埋め込みを出力することができます。

結合埋め込み空間

埋め込みベースのメソッドは通常、クラス・ラベルを説明する単語の埋め込みやそのクラスに属する可能性のある写真の画像埋め込みなど、さまざまな形式(またはモダリティ)のデータの補助情報およびベクトル空間埋め込みを処理するため、異なるデータ型の埋め込み間の比較を容易にする方法が必要です。

比較するには、異なるタイプとサイズのベクトル埋め込みを正規化し、共有の高次元意味空間(結合埋め込み空間と呼ばれる)に投影して、同一の設定で比較する必要があります。抽象的に言えば、これは、異なる分数を比較する最小公倍数を見つけるという概念と同様に機能します。異なる埋め込みソース間の強力な相関マッピングは、モデルの一般パフォーマンスに不可欠です。3

一部のゼロショット学習モデルでは、異なるモデルやアルゴリズムからの意味の埋め込みをより適切に調整するために、対照学習を使用しています。意味の埋め込みのペアを使用して、対照学習は、「正」のペア間の距離を最小化し(犬の画像と「犬」という単語の画像の埋め込みなど)、「負」の(一致しない)ペア間の距離を最大化するように、モデルをトレーニングします。

エンドツーエンドの共同トレーニング

さまざまなモデルの埋め込み間の整合性を確保する効果的な方法の1つは、これらのモデルを並べて共同トレーニングすることです。たとえば、OpenAIのContrastive Language-Image Pre-training(CLIP)モデルは、インターネットから取得した4億を超える画像とキャプションのペアからなるラベルのない巨大なデータ・セットでトレーニングされています。4

これらのペアリングは、画像エンコーダーとテキスト エンコーダーを一緒に最初からトレーニングするために使用され、コントラスト損失を使用して、画像の埋め込みと対応するキャプションの埋め込みの間のコサイン類似性を最大化しました。 これにより、ゼロショット分類の自然な機能が得られました。CLIP は、微調整を行わずに、27 の異なる画像分類データセットに対して強力な分類パフォーマンスを実証しました。

生成ベースの手法

生成AI は、ゼロショット学習の問題に対する代替ソリューションを提供します。それは、補助情報を使用してサンプル・データを生成することです。

生成ベースの手法では、目に見えないクラスの意味論的表現を活用してサンプルを生成し、ラベル付けすると、学習問題を標準の教師あり学習に変換するために使用できます。 ラベルのないサンプル (または密接に関連するクラスの表現) はサンプルの合成に役立ちますが、ゼロショット設定では、このプロセスは主に意味論的な記述に依存することがよくあります。

OpenAIは、DALL-E 3テキストから画像への生成モデルのリリースペーパーで、合成キャプションが「グラウンド・トゥルース」キャプションと比較してモデルのパフォーマンスを向上させると指摘しています。5

変分オートエンコーダー

変分オートエンコーダー(VAE)は、トレーニングデータの潜在表現を潜在変数のパラメーター化された分布として学習する、自己教師あり生成モデルです。言い換えれば、データクラスを静的な意味の埋め込みとしてではなく、潜在空間内の確率分布としてエンコードすることを学習します。その後、デコーダを使用して、その潜在空間からランダムサンプルを生成できます。条件付きVAE(CVAE)は、選択された変数の確率を最大化することで合成されたサンプルの特性を制約することができます。

敵対的生成ネットワーク(GAN)

GANは、敵対的なゼロサム・ゲームで共同学習された2つのニューラル・ネットワークで構成されます。1つは意味属性とガウス・ノイズを使用してサンプルを合成する生成元、もう1つはサンプルが本物か「偽」(つまり、生成元によって合成されたもの)かを判断する弁別子です。弁別子からのフィードバックは、弁別子が本物のサンプルと偽のサンプルを区別できなくなるまで、生成元をトレーニングするために使用されます。2014年に発表されたGANに関する最初の論文以降、このプロセスを改良し安定させるために多くの改良が加えられてきました。

VAEGAN

VAEとGANには両方とも次のような欠点があります。

  • VAE は安定していますが、サンプルが潜在空間から再構成される方法の性質により、ぼやけた画像が生成される傾向があります。

  • GAN は高品質の画像を生成することを学習しますが、2 つの別々の異なるトレーニング プロセスを統合する必要があるため、不安定になりがちです。

両方のプロセスを改良し、安定させるために多くの修正が開発されてきましたが、2つのモデルアーキテクチャーを組み合わせることで、ゼロショット設定で有望な結果が得られました。 6

大規模言語モデル(LLM)

LLMはラベル付きサンプルの合成にも使用できます。たとえば、Llama 2のような自己回帰モデルを使用してサンプルを生成し、テキスト分類タスク用のSentence-BERTのような双方向言語モデルのトレーニングに使用できます。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

1「Recognition-by-components: A theory of human image understanding」、Psychological Reviewvol. 94(pp. 115–147)、1987年。
2「Zero-shot Learning Using Multimodal Descriptions」、Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops、2022年。
3「Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation」、arXiv、18 April 2021。
4「CLIP: Connecting text and images」、OpenAI、2021年1月5日。
5「Improving Image Generation with Better Captions」、OpenAI、2023年。
6「Zero-VAE-GAN: Generating Unsenseen Feature for Generalized and Transductive Zero-shot Learning」、,PubMed、 13 January 2023。