転移学習とは

夜のバンコクのラウンドアバウト交差点の空中写真

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

転移学習とは

転移学習とは、ある機械学習のタスクやデータ・セットで事前にトレーニングされたモデルを活用し、それを別の関連するタスクやデータ・セットに適用することで、パフォーマンスと一般化可能性を向上させる機械学習手法です。1

言い換えれば、転移学習は、ある設定で学習した内容を使用して、別の設定での一般化を向上させます。2転移学習には、データサイエンスの回帰問題の解決からディープラーニング・モデルのトレーニングまで、多くの用途があります。実際、ディープ・ニューラル・ネットワークの構築に大量のデータが必要であることを考えれば、後者にとっては特に魅力的です。

従来の学習プロセスでは、利用可能なラベル付きデータに基づいて、新しいタスクごとに新しいモデルを構築します。これは、従来の機械学習アルゴリズムでは、トレーニング・データとテスト・データが同じ特徴空間から取得されると想定しているため、データ分布が変化した場合、またはトレーニングされたモデルが新しいデータ・セットに適用された場合、ユーザーは、最初のモデルと同様のタスク(例:映画のレビューと音楽のレビューの感情分析分類子など)を試みる場合でも、新しいモデルを最初から再トレーニングする必要があります。ただし、転移学習アルゴリズムは、すでにトレーニングされたモデルまたはネットワークを開始点として使用します。次に、初期ソースタスクまたはデータで得られたモデルの知識を適用します(例:既存の学習タスク(映画レビューの分類など)を、新しいが関連するターゲットタスクまたはデータ(例:曲のレビューの分類)。3

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

転移学習のメリットとデメリット

メリット

転移学習のメリットは以下の3つあります。

  • 計算コスト
  • データ・セットのサイズ
  • 一般化可能性

計算コスト

 

転移学習により、新しい問題のモデルを構築するために必要な計算コストが削減されます。事前トレーニング済みモデルや事前トレーニング済みネットワークを別のタスク用に転用することで、ユーザーはモデルのトレーニング時間、トレーニング・データ、プロセッサー・ユニット、その他の計算リソースを減らすことができます。例えば、望ましい学習率を達成するために必要なエポック数を減らすことができます(つまりデータ・セットをパススルーします)。このように、転移学習によってモデル・トレーニング・プロセスを加速し、簡素化することができます。

データ・セットのサイズ

 

転移学習では特に、大規模なデータ・セットを取得することの難しさを軽減できます。例えば、大規模言語モデル(LLM)では、最適なパフォーマンスを得るために大量のトレーニング・データが必要です。公開されている入手可能なデータ・セットでは品質に限界があったり、手動でラベル付けされた十分なデータを作成するには時間と費用がかかったりします。

一般化可能性

 

転移学習はモデルの最適化を支援しますが、モデルの一般化可能性をさらに向上させることができます。転移学習には新しいデータ・セットを使用した既存のモデルの再トレーニングが関係するため、再トレーニングされたモデルは複数のデータ・セットから得られた知識で構成されます。1種類のデータ・セットのみでトレーニングされた最初の基本モデルよりも、さまざまなデータに基づき、より優れたパフォーマンスを示せる可能性があります。したがって、転移学習は過剰適合を抑制できます。4

もちろん、あるドメインから別のドメインに知識を移転したとしても、低品質のデータによる悪影響は相殺できません。転移学習を使用する場合でも、データ拡張や特徴量抽出などの前処理技術と特徴量エンジニアリングが必要です。

デメリット

転移学習に固有の欠点があるというよりは、それを誤って適用することから生じる潜在的なマイナスの結果があるということです。転移学習は、次の3つの条件が満たされた場合に最も効果的に機能します。

  • 両方の学習タスクが似ている
  • ソース・データ・セットとターゲット・データ・セットのデータ分布が大きく変わらない
  • 同等のモデルを両方のタスクに適用できる

これらの条件が満たされない場合、転移学習はモデルのパフォーマンスに負の影響を与える可能性があります。文献ではこれを負転移と呼んでいます。現在進行中の研究では、データ・セットとタスクが上記の条件を満たし、負転移にならないかどうかを判断するためのさまざまなテストが提案されています5。遠転移は、ソース・データ・セットとターゲット・データ・セットのデータ分布の相違が大きすぎることに起因する負転移を補正するために開発された方法の1つです。6

転移学習のタスク間の類似性を判別するための、広く普及している標準的な指標はないことに注意してください。しかし、データ・セットと機械学習タスクの類似性を予測するためのさまざまな評価方法を提案し、転移学習の実行可能性を示しているいくつかの研究もあります。7

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

転移学習の種類

転移学習には、隣接する実践またはサブ設定が3つあります。

  • 帰納転移
  • 教師なし学習
  • トランスダクティブ転移

それらの差異は、より広範な転移学習と同様に、主にソース・ドメイン、ターゲット・ドメイン、および完了すべきタスク間の関係の変化によって生じます。8

帰納転移

 

帰納転移は、ターゲット・ドメインとソース・ドメイン(つまりデータ・セット)の間の差異または類似性に関係なく、ソース・タスクとターゲット・タスクが異なる場合です。これは、大規模なデータ・セットでの特徴抽出用に事前トレーニングされたアーキテクチャーが、その後、物体検出などの特定のタスクのさらなるトレーニングに採用された場合に、コンピューター・ビジョン・モデルで現れる可能性があります。マルチタスク学習は、同じデータ・セット上で2つの異なるタスク(画像分類や物体検出など)を同時に学習することで構成されており、帰納転移の一形態と見なすことができます。9

教師なし学習

 

教師なし学習は、ターゲットとソースのタスクが異なるため、帰納転移と似ています。しかし、帰納転移では、ソースやターゲットのデータにたいていラベルが付けられています。その名のとおり、教師なし転移学習は教師なし、つまり手動でラベル付けされたデータが存在しません。10これに比べ、帰納転移は教師あり学習とみなすことができます。教師なし学習の一般的な応用例として、不正アクセス検知があります。ラベル付けされていないトランザクションのデータ・セットに共通するパターンを特定することで、モデルは学習を進め、逸脱した行動を不正の可能性として特定できるようになります。

トランスダクティブ転移

 

トランスダクティブ転移、ソース・タスクとターゲット・タスクが同じであるが、データ・セット(またはドメイン)が異なる場合に発生します。より具体的に言えば、通常ソース・データはラベル付けされていますが、ターゲット・データはラベル付けされていません。ドメイン適応は、あるデータ分布でタスクを実行することから得られた知識を別のデータ分布の同じタスクに適用するため、トランスダクティブ学習の一形態です。11トランスダクティブ転移学習の例としては、レストランのレビューでトレーニングおよびテストされたテキスト分類モデルを適用して、映画のレビューを分類するなどがあります。

転移学習とファインチューニング

転移学習は、ファインチューニングとは異なります。確かにどちらも、新しいモデルをトレーニングするのではなく、既存の機械学習モデルを再利用します。しかし、類似点は主にそれだけです。ファインチューニングとは、モデルが構築された初期の特定のタスクのパフォーマンスを向上させるために、タスク固有のデータ・セットでモデルをさらにトレーニングするプロセスを指します。たとえば、COCOやImageNetなどの大規模な画像セットを使用して汎用の物体検出モデルを作成し、その結果得られたモデルを自動車検出に特化した小さなラベル付きデータ・セットでさらにトレーニングすることができます。このようにして、ユーザーは自動車検出用の物体検出モデルをファインチューニングします。対照的に、転移学習は、ユーザーが同じ問題ではなく、新しい関連する問題にモデルを適応させることを意味します。

転移学習のユースケース

実際の機械学習や人工知能の環境には、転移学習が数多く応用されています。開発者とデータサイエンティストは、転移学習を使用して無数のタスクを支援し、強化学習などの他の学習アプローチと組み合わせることができます。

自然言語処理

NLPの転移学習に影響を与える顕著な問題の1つは、特徴の不一致です。異なるドメインの特徴は、異なる意味や含意を持つ場合があります(例ライトは軽量と照明を意味します)。この特徴表現の差異は、感情分類タスクや言語モデルなどに影響を与えます。ディープラーニング・ベースのモデル、特に単語の埋め込みは、ドメイン適応タスクの意味関係と方向性を適切に捉えることができるため、これを修正できる可能性が期待されています。12

コンピューター・ビジョン

多様なコンピューター・ビジョンのタスクに十分な量の手動でラベル付けされたデータを取得することが困難なため、畳み込みニューラル・ネットワーク(CNN)を使用した転移学習の応用を調べる研究が数多く行われています。注目すべき例の1つはResNetであり、画像分類と物体検出タスクのパフォーマンスの向上を実証する事前トレーニング済みのモデル・アーキテクチャーです13。最近の研究では、転移学習用の有名なImageNetデータ・セットが調査されており、このデータ・セットの小さなサブセットだけで、信頼性の高い一般化可能なモデルをトレーニングするには十分であると(コンピューター・ビジョンについて一般に出回っている意見とは正反対のことが)主張されています14。コンピューター・ビジョンの多くの転移学習チュートリアルでは、ResNetとImageNet(TensorFlowのKerasライブラリ付き)のいずれかまたは両方を使用しています。

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約
脚注

Emilio Soria Olivas、Jose David Martin Guerrero、Marcelino Martinez Sober、Jose Rafael Magdalena Benedito、Antonio Jose Serrano Lopez著、「Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques」、Information Science Reference、2009年。

2 Ian Goodfellow、Yoshua Bengio、Aaron Courville共著、「Deep Learning」、MIT Press、2016年。

3 Jiawei Han、Micheline Kamber、Jian Pei著、「Data Mining: Concepts and Techniques(第3版)」、Elsevier、2012年。

4 Jindong WangおよびYiqiang Chen著、「 Introduction to Transfer Learning: Applications and Methods」、Springer、2023年。

5 Wen Zhang、Lingfei Deng、Lei Zhang、Dongrui Wu著、「A Survey on Negative Transfer」、IEEE/CAA Journal of Automatica Sinica、vol. 10、no. 2、2023年、305~329ページ、https://arxiv.org/abs/2009.00909

6 Ben Tan、Yangqiu Song、Erheng Zhong、Qiang Yang著、「Transitive Transfer Learning」、第21回ACM SIGKDD International Conference on Knowledge Discovery and Data Miningの議事録、2015年、1155~1164ページ、 https://dl.acm.org/doi/10.1145/2783258.2783295。Ben Tan、Yu Zhang、Sinno Jialin Pan、Qiang Yang著、「Domain Distant Transfer」、 第31回AAAI Conference on Artificial Intelligenceの議事録、2017年、2604~2610ページ、https://dl.acm.org/doi/10.5555/3298483.3298614

7 Changjian Shui、Mahdieh Abbasi、Louis-Émile Robitaille、Boyu Wang、Christian Gagné著、「A Principled Approach for Learning Task Similarity in Multitask Learning」、 第28回International Joint Conference on Artificial Intelligenceの議事録、2019年、3446~3452ページ、 https://www.ijcai.org/proceedings/2019/0478.pdf。Kshitij Dwivedi、Gemma Roig著、「Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning」、Conference on Computer Vision and Pattern Recognitionの議事録、2019年、12387~12396ページ、 https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf。Javier García、Álvaro Visús、Fernando Fernández著、「A taxonomy for similarity metrics between Markov decision processes」、 Machine Learning、vol. 111、2022年、4217~4247ページ、https://link.springer.com/article/10.1007/s10994-022-06242-4

8 Asmaul Hosna、Ethel Merry、Jigmey Gyalmo、Zulfikar Alom、Zeyar Aung、Mohammad Abdul Azim著、「Transfer learning: a friendly introduction」、 Journal of Big Data、vol. 9、2022年、 https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w。Sinno Jialin Pan、Qiang Yang著、「A Survey on Transfer Learning」、 IEEE Transactions on Knowledge and Data Engineering、vol. 22, no. 10、2010年、1345~1359ページ、 https://ieeexplore.ieee.org/document/5288526

9 Sinno Jialin Pan、Qiang Yang著、「A Survey on Transfer Learning」、 IEEE Transactions on Knowledge and Data Engineering、vol. 22、no. 10、2010年、1345~1359ページ、 https://ieeexplore.ieee.org/document/5288526。Ricardo Vilalta著、「Inductive Transfer」、 Encyclopedia of Machine Learning and Data Mining、Springer社、2017年。

10 Sinno Jialin Pan、Qiang Yang著、「A Survey on Transfer Learning」、 IEEE Transactions on Knowledge and Data Engineering、vol. 22、no. 10、2010年、1345~1359ページ、 https://ieeexplore.ieee.org/document/5288526

11 Sinno Jialin Pan、Qiang Yang著、「A Survey on Transfer Learning」、 IEEE Transactions on Knowledge and Data Engineering、vol. 22、no. 10、2010年、1345~1359ページ、 https://ieeexplore.ieee.org/document/5288526
Ian Goodfellow、Yoshua Bengio、Aaron Courville著、「Deep Learning」、MIT Press社、2016年。

12 Qiang Yang著、 「Transfer Learning」、Cambridge University Press社、2020年。Eyal Ben-David、Carmel Rabinovitz、Roi Reichart著、「PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models」、 Transactions of the Association for Computational Linguistics、vol. 8、2020年、504~521ページ、 https://aclanthology.org/2020.tacl-1.33.pdf

13 Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun著、「Deep Residual Learning for Image Recognition」、 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2016年、770~778ページ、 https://ieeexplore.ieee.org/document/7780459

14 Minyoung Huh、Pulkit Agrawal、Alexei Efros著、「What makes ImageNet good for transfer learning?」、Berkeley Artificial Intelligence Research Laboratory(BAIR)、2017年、 https://people.csail.mit.edu/minhuh/papers/analysis/