IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
正則化は、機械学習モデルにおける過学習を減らす一連の手法です。通常、正則化を行うことで汎化能力が向上する代わりに、トレーニング精度がわずかに低下します。
正規化には、機械学習モデルの過剰適合を修正するためのさまざまな手法が含まれます。つまり、正則化はモデルの汎化能力、つまり新しいデータセットにおいて正確な予測を生成する能力を高める方法です。1正則化によってトレーニング・エラーが増える代わりに、汎化能力が高まります。言い換えれば、一般的に、正則化を行うことでトレーニング・データにおける精度が低下しますが、テスト・データにおける予測の精度が高くなります。
正則化は最適化とは異なります。基本的に、前者はモデルの汎用性を高め、後者はモデルのトレーニングの精度を高めます。どちらも機械学習とデータサイエンスにおける重要な概念です。
正則化にはさまざまな形式があります。完全なガイドを目指すのであれば、本一冊分の詳細な解説が必要になります。そのため、本記事では、機械学習における正則化の目的を理解するために必要な理論の概要と、いくつかの一般的な正則化手法の概要について説明します。
トレーニング誤差の増加をテスト誤差の減少というバランスとして、偏りと分散のトレードオフと呼ばれています。偏りと分散のトレードオフは、機械学習においてよく知られた問題です。まず、「偏り」と「分散」を定義する必要があります。以下に簡単に説明します。
偏りと分散は、それぞれトレーニング・セットとテスト・セットに対するモデルの精度と反比例して表されます。2言うまでもなく、開発者はモデルの偏りと分散を軽減したいと考えています。両方を同時に削減できるとは限らないため、正則化が必要になります。正則化を行うと、偏りの増加と引き換えにモデルの分散が減少します。
偏りを増やし、分散を減らすことで、正則化はモデルの過学習を解決します。過学習は、トレーニング・データの誤差が減少し、テスト・データの誤差が減少しなくなるか増加し始めるときに発生します。 3言い換えれば、過学習とは、偏りが小さく、分散が大きいモデルのことです。ただし、正則化によって偏りが過度になると、モデルは過小適合になります。
過小適合 (アンダーフィッティング)と呼ばれますが、過学習(オーバーフィッティング)と反対の意味を持つというわけではありません。むしろ過小適合とは、偏りと分散がともに大きいという特徴を持つモデルのことです。過小適合のモデルは、トレーニングやテストにおいて、不十分で誤った予測を生成します。多くの場合、トレーニング・データやパラメーターの不足が原因で起こります。
ただし、正則化はモデルの過小適合につながる可能性があります。正則化によって偏りが大きくなりすぎると、モデルの分散は減少せず、むしろ増大する可能性があります。特に単純なモデル、つまりパラメーターがほとんどないモデルの場合、正則化がこのような影響を与えることがあります。したがって、実装する正則化の種類と程度を決定する際、モデルの複雑さやデータセットなどを考慮する必要があります。 4
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
線形回帰とロジスティック回帰は、どちらも機械学習を支える予測モデルです。線形回帰(または最小二乗法)は、提供されたデータ・ポイント(つまり、トレーニング・データ)を通過させる最適な直線を見つけることで、1つまたは複数の予測子の影響を測定し、予測します。ロジスティック回帰は、さまざまな予測変数に基づき、二値的な出力のクラス確率を決定することを目的としています。」線形回帰は連続的な定量的予測を行い、ロジスティック回帰は離散的なカテゴリ予測を生成します。5
もちろん、どちらの回帰モデルでも予測変数の数が増えるにつれて、入出力の関係は必ずしも単純なものではなくなり、回帰式の調整が必要になります。正則化を利用してください。回帰モデルの正則化には主に3つの形式があります。このリストは簡単な概要にすぎないことに留意してください。これらの正則化手法の線形回帰およびロジスティック回帰への適用は、わずかですが違いがあります。
統計学では、これらの方法は「係数縮小」とも呼びます。予測モデルの予測係数の値を縮小させるためです。これら3つの手法すべてにおいて、ペナルティー項の強度はラムダによって制御され、さまざまな交差検証手法を使用して計算が可能です。
データ増強は、モデルのトレーニング・データを修正する正則化の手法です。既存のトレーニング・データから派生して人工データ・サンプルを作成することで、トレーニング・セットのサイズを拡張します。トレーニング・セットにより多くのサンプル、特に実世界のデータではまれなインスタンスを追加することで、モデルはより多くの多様性のあるデータに触れ、学習することができます。機械学習の研究では、最近、特に不均衡なデータセットを解決する手段として、分類器のデータ増強が研究されています。7ただし、データ増強は合成データとは異なります。前者はデータセットを多様化および拡大するために、既存のデータを変更した複製を作成するのに対し、後者は新しい人工データを作成します。
早期停止は、おそらく最も簡単に実装できる正則化の手法です。簡単に説明すると、モデル・トレーニング中の反復回数を制限します。ここでは、モデルはトレーニング・データを繰り返し学習し、訓練と検証の精度が向上しなくなった(そしておそらく悪化する)時点で停止します。目標は、検証誤差が停滞するか増加し始める直前までモデルをトレーニングし、可能な限り低い訓練誤差に到達することです。8
機械学習のPythonパッケージの多くは、早期停止のためのトレーニング・コマンド・オプションを備えています。実際、早期停止がデフォルトのトレーニング設定になっているものもあります。
ニューラル・ネットワークは、多くの人工知能アプリケーションやサービスを動かす、複雑な機械学習のモデルです。ニューラル・ネットワークは入力層、1つ以上の隠れ層、および出力層で構成され、各層は複数のノードで構成されます。
ドロップアウトは、学習中にネットワークからノードとその入力接続と出力接続をランダムにドロップすることで、ニューラル・ネットワークを正則化します(図3)。ドロップアウトは、固定サイズのアーキテクチャーのいくつかのバリエーションを学習します。各バリエーションではランダムに選ばれた異なるノードがアーキテクチャーから除外されています。テストではドロップアウトを使用しない単一のニューラル・ネットワークを使用され、ランダムに変更されたトレーニング・アーキテクチャーから導き出された近似的な平均化法が採用されます。このようにして、ドロップアウトは大量の異なるアーキテクチャを持つニューラル・ネットワークの訓練を模倣しています。9
重み減衰は、ディープ・ニューラル・ネットワークで使用される別の形式の正則化です。これは、線形モデルにおけるL2正則化と同様に、正則化パラメータによってネットワークの重みの二乗和を減少させます。10しかし、ニューラル・ネットワークで使用した場合、この減少はL1正則化と同様の効果があります。つまり、選択したニューロンの重みがゼロにまで減少します。11これにより、ネットワークからノードが効果的に除去され、スパース性によってネットワークの複雑さが軽減されます。 12
重み減衰は、表面的にはディープ・ニューラル・ネットワークにおけるドロップアウトに似ているように見えますが、これら2つの手法は異なります。重要な違いの1つは、ドロップアウトでは、ペナルティー値はケースにおけるネットワークの深さに応じて指数関数的に増加するのに対し、重み減衰ではペナルティー値が線形に増加することです。これにより、ドロップアウトは重みの減衰よりもネットワークの複雑さにペナルティーを課すことができると考える人もいます。13
多くのオンライン記事やチュートリアルでは、L2正則化と重み減衰を混同しています。実際、学問には一貫性がなく、L2と重み減衰を区別する人もいれば、14 それらを同一視する人もおり15 、それらの間の関係を説明するのに一貫性がない人もいます。16このような用語の不一致を解決することは、将来の研究に不可欠でありながら見過ごされている分野です。
[1] Deep Learning, Goodfellow et al., The MIT Press, 2016
[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013
[3] Deep Learning, Goodfellow et al.
[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023
[5] An Introduction to Statistical Learning, G. James et al.
[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016. また、 回帰:モデル、メソッド、アプリケーション、Farmeir、Ludwigなど第2版、Springer社、2021年
[7] “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Ghiasi et al., CVPR, 2021
[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2nd Ed. 2012
[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting,” JMLR, Srivastava et al., 2014
[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016.
[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,” arXiv, Jan. 2023
[12] “Comparing Biases for Minimal Network Construction with Back-propagation,” Proceedings, Hanson and Pratt, 1988
[13] “Surprising properties of dropout in deep networks,” Helmbold, David and Long, Philip, JMLR, 2018
[14] “Three Mechanisms of Weight Decay Regularization,” Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018
[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks,” Helmbold, David and Long, Philip, ResearchGate, 2016
[16] Deep Learning, Goodfellow et al.
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。