IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
転移学習は、1つのタスクまたはデータセットを通じて得られた知識を使用して、別の関連タスクや異なるデータ・セットのモデルのパフォーマンスを向上させる機械学習手法です。1言い換えれば、転移学習は、ある設定で学習した内容を使用して、別の設定での一般化を向上させます。2
転移学習には、データサイエンスの回帰問題の解決からディープラーニング・モデルのトレーニングまで、多くの用途があります。実際、ディープ・ニューラル・ネットワークの構築に大量のデータが必要であることを考えれば、後者にとっては特に魅力的です。
従来の学習プロセスでは、利用可能なラベル付きデータに基づいて、新しいタスクごとに新しいモデルを構築します。これは、従来の機械学習アルゴリズムでは、トレーニング・データとテスト・データが同じ特徴空間から取得されると想定しているため、データ分布が変化した場合、またはトレーニングされたモデルが新しいデータ・セットに適用された場合、ユーザーは、最初のモデルと同様のタスク(例:映画のレビューと音楽のレビューの感情分析分類子など)を試みる場合でも、新しいモデルを最初から再トレーニングする必要があります。ただし、転移学習アルゴリズムは、すでにトレーニングされたモデルまたはネットワークを開始点として使用します。次に、初期ソースタスクまたはデータで得られたモデルの知識を適用します(例:既存の学習タスク(映画レビューの分類など)を、新しいが関連するターゲットタスクまたはデータ(例:曲のレビューの分類)。3
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
もちろん、あるドメインから別のドメインに知識を移転したとしても、低品質のデータによる悪影響は相殺できません。転移学習を使用する場合でも、データ拡張や特徴量抽出などの前処理技術と特徴量エンジニアリングが必要です。
転移学習に固有の欠点があるというよりは、それを誤って適用することから生じる潜在的なマイナスの結果があるということです。転移学習は、次の3つの条件が満たされた場合に最も効果的に機能します。
これらの条件が満たされない場合、転移学習はモデルのパフォーマンスに負の影響を与える可能性があります。文献ではこれを負転移と呼んでいます。現在進行中の研究では、データ・セットとタスクが上記の条件を満たし、負転移にならないかどうかを判断するためのさまざまなテストが提案されています5。遠転移は、ソース・データ・セットとターゲット・データ・セットのデータ分布の相違が大きすぎることに起因する負転移を補正するために開発された方法の1つです。6
転移学習のタスク間の類似性を判別するための、広く普及している標準的な指標はないことに注意してください。しかし、データ・セットと機械学習タスクの類似性を予測するためのさまざまな評価方法を提案し、転移学習の実行可能性を示しているいくつかの研究もあります。7
転移学習には、隣接する実践またはサブ設定が3つあります。それらの差異は、より広範な転移学習と同様に、主にソース・ドメイン、ターゲット・ドメイン、および完了すべきタスク間の関係の変化によって生じます。8
転移学習は、ファインチューニングとは異なります。確かにどちらも、新しいモデルをトレーニングするのではなく、既存の機械学習モデルを再利用します。しかし、類似点は主にそれだけです。ファインチューニングとは、モデルが構築された初期の特定のタスクのパフォーマンスを向上させるために、タスク固有のデータ・セットでモデルをさらにトレーニングするプロセスを指します。たとえば、COCOやImageNetなどの大規模な画像セットを使用して汎用の物体検出モデルを作成し、その結果得られたモデルを自動車検出に特化した小さなラベル付きデータ・セットでさらにトレーニングすることができます。このようにして、ユーザーは自動車検出用の物体検出モデルをファインチューニングします。対照的に、転移学習は、ユーザーが同じ問題ではなく、新しい関連する問題にモデルを適応させることを意味します。
実際の機械学習や人工知能の環境には、転移学習が数多く応用されています。開発者とデータサイエンティストは、転移学習を使用して無数のタスクを支援し、強化学習などの他の学習アプローチと組み合わせることができます。
NLPの転移学習に影響を与える顕著な問題の1つは、特徴の不一致です。異なるドメインの特徴は、異なる意味や含意を持つ場合があります(例ライトは軽量と照明を意味します)。この特徴表現の差異は、感情分類タスクや言語モデルなどに影響を与えます。ディープラーニング・ベースのモデル、特に単語の埋め込みは、ドメイン適応タスクの意味関係と方向性を適切に捉えることができるため、これを修正できる可能性が期待されています。12
多様なコンピューター・ビジョンのタスクに十分な量の手動でラベル付けされたデータを取得することが困難なため、畳み込みニューラル・ネットワーク(CNN)を使用した転移学習の応用を調べる研究が数多く行われています。注目すべき例の1つはResNetであり、画像分類と物体検出タスクのパフォーマンスの向上を実証する事前トレーニング済みのモデル・アーキテクチャーです13。最近の研究では、転移学習用の有名なImageNetデータ・セットが調査されており、このデータ・セットの小さなサブセットだけで、信頼性の高い一般化可能なモデルをトレーニングするには十分であると(コンピューター・ビジョンについて一般に出回っている意見とは正反対のことが)主張されています14。コンピューター・ビジョンの多くの転移学習チュートリアルでは、ResNetとImageNet(TensorFlowのKerasライブラリ付き)のいずれかまたは両方を使用しています。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。