公開日:2024年2月12日
寄稿者:Jacob Murel Ph.D.、Eda Kavlakoglu
転移学習では、1つの機械学習タスクまたはデータ・セットからの事前トレーニングされたモデルを使用して、関連するタスクまたはデータ・セットのパフォーマンスと一般化可能性を向上させます。
転移学習は、1つのタスクまたはデータ・セットを通じて得られた知識を使用して、別の関連タスクや異なるデータ・セットのモデルのパフォーマンスを向上させる機械学習手法です1。言い換えれば、転移学習は、ある設定で学習した内容を使用して、別の設定での一般化を向上させます2。転移学習には、データサイエンスの回帰問題の解決から深層学習モデルのトレーニングまで、多くの用途があります。実際、ディープ・ニューラル・ネットワークの構築に大量のデータが必要であることを考えれば、後者にとっては特に魅力的です。
従来の学習プロセスでは、利用可能なラベル付きデータに基づいて、新しいタスクごとに新しいモデルを構築します。これは、従来の機械学習アルゴリズムでは、トレーニング・データとテスト・データが同じ特徴空間から取得されると想定しているため、データ分布が変化した場合、またはトレーニングされたモデルが新しいデータ・セットに適用された場合、ユーザーは、最初のモデルと同様のタスク(例:映画のレビューと音楽のレビューの感情分析分類子など)を試みる場合でも、新しいモデルを最初から再トレーニングする必要があります。ただし、転移学習アルゴリズムは、すでにトレーニングされたモデルまたはネットワークを開始点として使用します。次に、最初のソース・タスクまたはデータ(例:映画のレビューの分類)で得られたモデルの知識を、新しい関連性のあるターゲット・タスクまたはデータ(例:音楽のレビューの分類)に適用します3。
IBM watsonxの理解を深め、統計データ・セットを使用して機械学習モデルを作成する方法を学びます。
IBMニュースレターの購読
- 計算コスト。転移学習により、新しい問題のモデルを構築するために必要な計算コストが削減されます。事前トレーニング済みモデルや事前トレーニング済みネットワークを別のタスク用に転用することで、ユーザーはモデルのトレーニング時間、トレーニング・データ、プロセッサー・ユニット、その他の計算リソースを減らすことができます。例えば、望ましい学習率を達成するために必要なエポック数を減らすことができます(つまりデータ・セットをパススルーします)。このように、転移学習によってモデル・トレーニング・プロセスを加速し、簡素化することができます。
- データ・セットのサイズ。転移学習では特に、大規模なデータ・セットを取得することの難しさを軽減できます。例えば、大規模言語モデル(LLM)では、最適なパフォーマンスを得るために大量のトレーニング・データが必要です。公開されている入手可能なデータ・セットでは品質に限界があったり、手動でラベル付けされた十分なデータを作成するには時間と費用がかかったりします。
- 一般化可能性。転移学習はモデルの最適化を支援しますが、モデルの一般化可能性をさらに向上させることができます。転移学習には新しいデータ・セットを使用した既存のモデルの再トレーニングが関係するため、再トレーニングされたモデルは複数のデータ・セットから得られた知識で構成されます。1種類のデータ・セットのみでトレーニングされた最初の基本モデルよりも、さまざまなデータに基づき、より優れたパフォーマンスを示せる可能性があります。したがって、転移学習は過剰適合を抑制できます4。
もちろん、あるドメインから別のドメインに知識を移転したとしても、低品質のデータによる悪影響は相殺できません。転移学習を使用する場合でも、データ拡張や特徴量抽出などの前処理技術と特徴量エンジニアリングが必要です。
転移学習に固有の欠点があるというよりは、それを誤って適用することから生じる潜在的なマイナスの結果があるということです。転移学習は、次の3つの条件が満たされた場合に最も効果的に機能します。
これらの条件が満たされない場合、転移学習はモデルのパフォーマンスに負の影響を与える可能性があります。文献ではこれを負転移と呼んでいます。現在進行中の研究では、データ・セットとタスクが上記の条件を満たし、負転移にならないかどうかを判断するためのさまざまなテストが提案されています5。遠転移は、ソース・データ・セットとターゲット・データ・セットのデータ分布の相違が大きすぎることに起因する負転移を補正するために開発された方法の1つです6。
転移学習のタスク間の類似性を判別するための、広く普及している標準的な指標はないことに注意してください。しかし、データ・セットと機械学習タスクの類似性を予測するためのさまざまな評価方法を提案し、転移学習の実行可能性を示しているいくつかの研究もあります7。
転移学習には、隣接する実践またはサブ設定が3つあります。それらの差異は、より広範な転移学習と同様に、主にソース・ドメイン、ターゲット・ドメイン、および完了すべきタスク間の関係の変化によって生じます8。
- 帰納転移。これは、ターゲット・ドメインとソース・ドメイン(つまりデータ・セット)の間の差異または類似性に関係なく、ソース・タスクとターゲット・タスクが異なる場合です。これは、大規模なデータ・セットでの特徴抽出用に事前トレーニングされたアーキテクチャーが、その後、物体検出などの特定のタスクのさらなるトレーニングに採用された場合に、コンピューター・ビジョン・モデルで現れる可能性があります。マルチタスク学習は、同じデータ・セット上で2つの異なるタスク(画像分類や物体検出など)を同時に学習することで構成されており、帰納転移の一形態と見なすことができます9。
- 教師なし学習。これは、ターゲットとソースのタスクが異なるため、帰納転移と似ています。しかし、帰納転移では、ソースやターゲットのデータにたいていラベルが付けられています。その名のとおり、教師なし転移学習は教師なし、つまり手動でラベル付けされたデータが存在しません10。これに比べ、帰納転移は教師あり学習とみなすことができます。教師なし学習の一般的な応用例として、不正アクセス検知があります。ラベル付けされていないトランザクションのデータ・セットに共通するパターンを特定することで、モデルは学習を進め、逸脱した行動を不正の可能性として特定できるようになります。
- トランスダクティブ転移。これは、ソース・タスクとターゲット・タスクが同じであるが、データ・セット(またはドメイン)が異なる場合に発生します。より具体的に言えば、通常ソース・データはラベル付けされていますが、ターゲット・データはラベル付けされていません。ドメイン適応は、あるデータ分布でタスクを実行することから得られた知識を別のデータ分布の同じタスクに適用するため、トランスダクティブ学習の一形態です11。トランスダクティブ転移学習の例としては、レストランのレビューでトレーニングおよびテストされたテキスト分類モデルを適用して、映画のレビューを分類するなどがあります。
転移学習は、ファインチューニングとは異なります。確かにどちらも、新しいモデルをトレーニングするのではなく、既存の機械学習モデルを再利用します。しかし、類似点は主にそれだけです。ファインチューニングとは、モデルが構築された初期の特定のタスクのパフォーマンスを向上させるために、タスク固有のデータ・セットでモデルをさらにトレーニングするプロセスを指します。たとえば、COCOやImageNetなどの大規模な画像セットを使用して汎用の物体検出モデルを作成し、その結果得られたモデルを自動車検出に特化した小さなラベル付きデータ・セットでさらにトレーニングすることができます。このようにして、ユーザーは自動車検出用の物体検出モデルをファインチューニングします。対照的に、転移学習は、ユーザーが同じ問題ではなく、新しい関連する問題にモデルを適応させることを意味します。
実際の機械学習や人工知能の環境には、転移学習が数多く応用されています。開発者とデータサイエンティストは、転移学習を使用して無数のタスクを支援し、強化学習などの他の学習アプローチと組み合わせることができます。
NLPの転移学習に影響を与える顕著な問題の1つは、特徴の不一致です。異なるドメインの特徴は、異なる意味や含意を持つ場合があります(例えばライトは軽量と照明を意味します)。この特徴表現の差異は、感情分類タスクや言語モデルなどに影響を与えます。ディープラーニング・ベースのモデル、特に単語の埋め込みは、ドメイン適応タスクの意味関係と方向性を適切に捉えることができるため、これを修正できる可能性が期待されています12。
多様なコンピューター・ビジョンのタスクに十分な量の手動でラベル付けされたデータを取得することが困難なため、畳み込みニューラル・ネットワーク(CNN)を使用した転移学習の応用を調べる研究が数多く行われています。注目すべき例の1つはResNetであり、画像分類と物体検出タスクのパフォーマンスの向上を実証する事前トレーニング済みのモデル・アーキテクチャーです13。最近の研究では、転移学習用の有名なImageNetデータ・セットが調査されており、このデータ・セットの小さなサブセットだけで、信頼性の高い一般化可能なモデルをトレーニングするには十分であると(コンピューター・ビジョンについて一般に出回っている意見とは正反対のことが)主張されています14。コンピューター・ビジョンの多くの転移学習チュートリアルでは、ResNetとImageNet(TensorFlowのKerasライブラリ付き)のいずれかまたは両方を使用しています。
IBMの研究者は、CodeFlareが基盤モデルのTLタスクのトレーニング時間をどのように短縮するかについて議論しています。
IBMの研究者は、より単純で一般性が高いものにするために、特徴の重みを平均化する同変TLアルゴリズムを発表しました。
IBMの研究者は、分子炭水化物反応のモデル予測を向上させるためのTL法を提案しています。
1 Emilio Soria Olivas、Jose David Martin Guerrero、Marcelino Martinez Sober、Jose Rafael Magdalena Benedito、Antonio Jose Serrano Lopez著、『Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques』、Information Science Reference、2009年。
2 Ian Goodfellow、Yoshua Bengio、Aaron Courville著、『Deep Learning』、MIT Press、2016年。
3 Jiawei Han、Micheline Kamber、Jian Pei著、『Data Mining: Concepts and Techniques, 3rd edition』、Elsevier、2012年。
4 Jindong WangおよびYiqiang Chen著、『Introduction to Transfer Learning: Applications and Methods』、Springer、2023年。
5 Wen Zhang、Lingfei Deng、Lei Zhang、Dongrui Wu著、『A Survey on Negative Transfer』、IEEE/CAA Journal of Automatica Sinica、vol.10、no.2、2023年、pp.305-329、 https://arxiv.org/abs/2009.00909(ibm.com外部へのリンク)。
6 Ben Tan、Yangqiu Song、Erheng Zhong、Qiang Yang著、『Transitive Transfer Learning』、Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、2015年、pp.1155-1164、https://dl.acm.org/doi/10.1145/2783258.2783295(ibm.com外部へのリンク)。 Ben Tan、Yu Zhang、Sinno Jialin Pan、Qiang Yang、『Domain Distant Transfer』、Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence、2017年、pp.2604-2610、https://dl.acm.org/doi/10.5555/3298483.3298614(ibm.com外部へのリンク)。
7 Changjian Shui、Mahdieh Abbasi、Louis-Émile Robitaille1、Boyu Wang、Christian Gagné著、『A Principled Approach for Learning Task Similarity in Multitask Learning』、 Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence、2019年、pp.3446-3452、https://www.ijcai.org/proceedings/2019/0478.pdf(ibm.com外部へのリンク)。Kshitij DwivediおよびGemma Roig著『Representation Similarity Analysis for Efficient Task taxonomy & Transfer Learning』、Proceedings of Conference on Computer Vision and Pattern Recognition、2019年、pp.12387-12396、https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf(ibm.com外部へのリンク)。
Javier García、Álvaro Visús、Fernando Fernández著、『A taxonomy for similarity metrics between Markov decision processes』、Machine Learning、vol.111、2022、pp.4217–4247、https://link.springer.com/article/10.1007/s10994-022-06242-4(ibm.com外部へのリンク)。
8 Asmaul Hosna、Ethel Merry、Jigmey Gyalmo、Zulfikar Alom, Zeyar Aung、Mohammad Abdul Azim著、『Transfer learning: a friendly introduction』、Journal of Big Data、vol. 9、2022年、https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w(ibm.com外部へのリンク)。Sinno Jialin PanおよびQiang Yang著、『A Survey on Transfer Learning』、IEEE Transactions on Knowledge and Data Engineering、vol.22、no.10、2010年、pp.1345-1359、https://ieeexplore.ieee.org/document/5288526(ibm.com外部へのリンク)。
9 Sinno Jialin PanおよびQiang Yang著、『A Survey on Transfer Learning』、IEEE Transactions on Knowledge and Data Engineering、vol.22、no.10、2010年、pp.1345-1359、https://ieeexplore.ieee.org/document/5288526(ibm.com外部へのリンク)。Ricardo Vilalta著、『Inductive Transfer』、Encyclopedia of Machine Learning and Data Mining、Springer、2017年。
10 Sinno Jialin PanおよびQiang Yang著、『A Survey on Transfer Learning』、IEEE Transactions on Knowledge and Data Engineering、vol.22、no.10、2010年、pp.1345-1359、https://ieeexplore.ieee.org/document/5288526(ibm.com外部へのリンク)。
11 Sinno Jialin Pan and Qiang Yang、『A Survey on Transfer Learning』、IEEE Transactions on Knowledge and Data Engineering、vol.22、no.10、2010年、pp.1345-1359、https://ieeexplore.ieee.org/document/5288526(ibm.com外部へのリンク)。
Ian Goodfellow、Yoshua Bengio、Aaron Courville著、『Deep Learning』、MIT Press、2016年。
12 Qiang Yang著、『Transfer Learning』、Cambridge University Press、2020年。Eyal Ben-David、Carmel Rabinovitz、Roi Reichart著、『PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models』、Transactions of the Association for Computational Linguistics、vol.8、2020年、pp.504–521、https://aclanthology.org/2020.tacl-1.33.pdf(ibm.com外部へのリンク)。
13 Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun、『Deep Residual Learning for Image Recognition』、 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、2016年、pp.770-778、 https://ieeexplore.ieee.org/document/7780459(ibm.com外部へのリンク)。
14 Minyoung Huh、Pulkit Agrawal、Alexei Efros、『What makes ImageNet good for transfer learning?』、Berkeley Artificial Intelligence Research Laboratory (BAIR)、2017年、https://people.csail.mit.edu/minhuh/papers/analysis/(ibm.com外部へのリンク)。