転移学習とは

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

転移学習とは

転移学習は、1つのタスクまたはデータセットを通じて得られた知識を使用して、別の関連タスクや異なるデータ・セットのモデルのパフォーマンスを向上させる機械学習手法です。1言い換えれば、転移学習は、ある設定で学習した内容を使用して、別の設定での一般化を向上させます。2

転移学習には、データサイエンスの回帰問題の解決からディープラーニング・モデルのトレーニングまで、多くの用途があります。実際、ディープ・ニューラル・ネットワークの構築に大量のデータが必要であることを考えれば、後者にとっては特に魅力的です。

従来の学習プロセスでは、利用可能なラベル付きデータに基づいて、新しいタスクごとに新しいモデルを構築します。これは、従来の機械学習アルゴリズムでは、トレーニング・データとテスト・データが同じ特徴空間から取得されると想定しているため、データ分布が変化した場合、またはトレーニングされたモデルが新しいデータ・セットに適用された場合、ユーザーは、最初のモデルと同様のタスク(例:映画のレビューと音楽のレビューの感情分析分類子など)を試みる場合でも、新しいモデルを最初から再トレーニングする必要があります。ただし、転移学習アルゴリズムは、すでにトレーニングされたモデルまたはネットワークを開始点として使用します。次に、初期ソースタスクまたはデータで得られたモデルの知識を適用します(例:既存の学習タスク(映画レビューの分類など)を、新しいが関連するターゲットタスクまたはデータ(例:曲のレビューの分類)。3

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

転移学習の長所と短所

メリット

  • 計算コスト転移学習により、新しい問題のモデルを構築するために必要な計算コストが削減されます。事前トレーニング済みモデルや事前トレーニング済みネットワークを別のタスク用に転用することで、ユーザーはモデルのトレーニング時間、トレーニング・データ、プロセッサー・ユニット、その他の計算リソースを減らすことができます。たとえば希望する学習率を達成するために、エポック(つまりデータセットを通る経路の数)を減らすことが必要になる場合があります。このように、転移学習によってモデル・トレーニング・プロセスを加速し、簡素化することができます。

  • データセットのサイズ転移学習では特に、大規模なデータセットを取得する手間を抑えることができます。例えば、大規模言語モデル (LLM)では、最適なパフォーマンスを得るために大量のトレーニング・データが必要です。公開されている入手可能なデータセットでは品質に限界があり、また手動でラベル付けされた十分なデータを作成するには時間と費用がかかる場合もあります。

  • 一般化可能性転移学習はモデルの最適化を支援しますが、モデルの一般化可能性をさらに向上させることができます。転移学習には新しいデータ・セットを使用した既存のモデルの再トレーニングが関係するため、再トレーニングされたモデルは複数のデータセットから得られた知識で構成されます。1種類のデータセットのみでトレーニングされた最初の基本モデルよりも、さまざまなデータに基づき、より優れたパフォーマンスを示せる可能性があります。したがって、転移学習は 過剰適合 を抑制できます。4

もちろん、あるドメインから別のドメインに知識を移転したとしても、低品質のデータによる悪影響は相殺できません。転移学習を使用する場合でも、データ拡張や特徴量抽出などの前処理技術と特徴量エンジニアリングが必要です。

デメリット

転移学習に固有の欠点があるというよりは、それを誤って適用することから生じる潜在的なマイナスの結果があるということです。転移学習は、次の3つの条件が満たされた場合に最も効果的に機能します。

  • 両方の学習タスクが似ている

  • ソース・データセットとターゲット・データセットのデータ分布が大きく変わらない

  • 同等のモデルを両方のタスクに適用できる

これらの条件が満たされない場合、転移学習はモデルのパフォーマンスに負の影響を与える可能性があります。文献ではこれを負転移と呼んでいます。現在進行中の研究では、データ・セットとタスクが上記の条件を満たし、負転移にならないかどうかを判断するためのさまざまなテストが提案されています5。遠転移は、ソース・データ・セットとターゲット・データ・セットのデータ分布の相違が大きすぎることに起因する負転移を補正するために開発された方法の1つです。6

転移学習のタスク間の類似性を判別するための、広く普及している標準的な指標はないことに注意してください。しかし、データ・セットと機械学習タスクの類似性を予測するためのさまざまな評価方法を提案し、転移学習の実行可能性を示しているいくつかの研究もあります。7

AI Academy

カスタマー・サービスでAIを活用する

生成AIが、セルフサービス、ヒューマン・エージェント、コンタクト・センターの運用という3つの主要領域で、よりシームレスなエクスペリエンスで顧客を満足させ、組織の生産性を向上させる方法をご覧ください。

転移学習の種類

転移学習には、隣接する実践またはサブ設定が3つあります。それらの差異は、より広範な転移学習と同様に、主にソース・ドメイン、ターゲット・ドメイン、および完了すべきタスク間の関係の変化によって生じます。8

  • 帰納転移これは、ターゲット・ドメインとソース・ドメイン(つまりデータセット)の間の差異または類似性に関係なく、ソース・タスクとターゲット・タスクが異なる場合です。これはコンピューター・ビジョンのモデルで、大規模なデータセットでの特徴抽出用に事前トレーニングされたアーキテクチャーが、その後、物体検出などの特定のタスクのさらなるトレーニングに採用された場合などに見られます。マルチタスク学習は、同じデータセット上で2つの異なるタスク(画像分類や物体検出など)を同時に学習することで構成されており、帰納転移の一形態と見なすことができます。 9

  • 教師なし学習これは、ターゲットとソースのタスクが異なるため、帰納転移と似ています。しかし、帰納転移では、ソースやターゲットのデータにたいていラベルが付けられています。教師なし転移学習はその名のとおり、教師なし、つまり手動でラベル付けされたデータが存在しません10。一方、帰納転移は教師あり学習 とみなすことができます。教師なし学習の一般的な応用例として、不正アクセス検知があります。ラベル付けされていないトランザクションのデータセットに共通するパターンを特定することで、モデルは学習を進め、逸脱した行動を不正の可能性として特定できるようになります。

  • トランスダクティブ転移これは、ソース・タスクとターゲット・タスクが同じであるが、データセットセット(またはドメイン)が異なる場合に発生します。より具体的に言えば、通常ソース・データはラベル付けされていますが、ターゲット・データはラベル付けされていません。ドメイン適応は、あるデータ分布でタスクを実行することから得られた知識を別のデータ分布の同じタスクに適用するため、トランスダクティブ学習の一形態です。11トランスダクティブ転移学習の例としては、レストランのレビューでトレーニングおよびテストされたテキスト分類モデルを適用して、映画のレビューを分類するなどがあります。

転移学習とファインチューニング

転移学習は、ファインチューニングとは異なります。確かにどちらも、新しいモデルをトレーニングするのではなく、既存の機械学習モデルを再利用します。しかし、類似点は主にそれだけです。ファインチューニングとは、モデルが構築された初期の特定のタスクのパフォーマンスを向上させるために、タスク固有のデータ・セットでモデルをさらにトレーニングするプロセスを指します。たとえば、COCOやImageNetなどの大規模な画像セットを使用して汎用の物体検出モデルを作成し、その結果得られたモデルを自動車検出に特化した小さなラベル付きデータ・セットでさらにトレーニングすることができます。このようにして、ユーザーは自動車検出用の物体検出モデルをファインチューニングします。対照的に、転移学習は、ユーザーが同じ問題ではなく、新しい関連する問題にモデルを適応させることを意味します。

転移学習のユースケース

実際の機械学習や人工知能の環境には、転移学習が数多く応用されています。開発者とデータサイエンティストは、転移学習を使用して無数のタスクを支援し、強化学習などの他の学習アプローチと組み合わせることができます。

自然言語処理

NLPの転移学習に影響を与える顕著な問題の1つは、特徴の不一致です。異なるドメインの特徴は、異なる意味や含意を持つ場合があります(例ライトは軽量と照明を意味します)。この特徴表現の差異は、感情分類タスクや言語モデルなどに影響を与えます。ディープラーニング・ベースのモデル、特に単語の埋め込みは、ドメイン適応タスクの意味関係と方向性を適切に捉えることができるため、これを修正できる可能性が期待されています。12

コンピューター・ビジョン

多様なコンピューター・ビジョンのタスクに十分な量の手動でラベル付けされたデータを取得することが困難なため、畳み込みニューラル・ネットワーク(CNN)を使用した転移学習の応用を調べる研究が数多く行われています。注目すべき例の1つはResNetであり、画像分類と物体検出タスクのパフォーマンスの向上を実証する事前トレーニング済みのモデル・アーキテクチャーです13。最近の研究では、転移学習用の有名なImageNetデータ・セットが調査されており、このデータ・セットの小さなサブセットだけで、信頼性の高い一般化可能なモデルをトレーニングするには十分であると(コンピューター・ビジョンについて一般に出回っている意見とは正反対のことが)主張されています14。コンピューター・ビジョンの多くの転移学習チュートリアルでは、ResNetとImageNet(TensorFlowのKerasライブラリ付き)のいずれかまたは両方を使用しています。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約