正則化とは

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

正則化とは

正則化は、機械学習モデルにおける過学習を減らす一連の手法です。通常、正則化を行うことで汎化能力が向上する代わりに、トレーニング精度がわずかに低下します。

正規化には、機械学習モデルの過剰適合を修正するためのさまざまな手法が含まれます。つまり、正則化はモデルの汎化能力、つまり新しいデータセットにおいて正確な予測を生成する能力を高める方法です。¹正則化によってトレーニング・エラーが増える代わりに、汎化能力が高まります。言い換えれば、一般的に、正則化を行うことでトレーニング・データにおける精度が低下しますが、テスト・データにおける予測の精度が高くなります。

正則化は最適化とは異なります。基本的に、前者はモデルの汎用性を高め、後者はモデルのトレーニングの精度を高めます。どちらも機械学習とデータサイエンスにおける重要な概念です。

正則化にはさまざまな形式があります。完全なガイドを目指すのであれば、本一冊分の詳細な解説が必要になります。そのため、本記事では、機械学習における正則化の目的を理解するために必要な理論の概要と、いくつかの一般的な正則化手法の概要について説明します。

バイアスと分散のトレードオフ

トレーニング誤差の増加をテスト誤差の減少というバランスとして、偏りと分散のトレードオフと呼ばれています。偏りと分散のトレードオフは、機械学習においてよく知られた問題です。まず、「偏り」と「分散」を定義する必要があります。以下に簡単に説明します。

バイアスは、予測値と実測値の平均の差を測定します。バイアスが大きくなると、トレーニング・データ・セットにおけるモデルの予測の精度が低下します。バイアスが大きくなると、トレーニングにおける誤差が大きくなります。
分散は、特定のモデルのさまざまな実現値における予測値の差です。分散が大きくなると、目に見えないデータにおけるモデルの予測精度が低くなります。分散が大きいということは、テストおよび検証におけるエラーが多いことを意味します。

偏りと分散は、それぞれトレーニング・セットとテスト・セットに対するモデルの精度と反比例して表されます。²言うまでもなく、開発者はモデルの偏りと分散を軽減したいと考えています。両方を同時に削減できるとは限らないため、正則化が必要になります。正則化を行うと、偏りの増加と引き換えにモデルの分散が減少します。

回帰モデルの適合

偏りを増やし、分散を減らすことで、正則化はモデルの過学習を解決します。過学習は、トレーニング・データの誤差が減少し、テスト・データの誤差が減少しなくなるか増加し始めるときに発生します。³言い換えれば、過学習とは、偏りが小さく、分散が大きいモデルのことです。ただし、正則化によって偏りが過度になると、モデルは過小適合になります。

過小適合（アンダーフィッティング）と呼ばれますが、過学習（オーバーフィッティング）と反対の意味を持つというわけではありません。むしろ過小適合とは、偏りと分散がともに大きいという特徴を持つモデルのことです。過小適合のモデルは、トレーニングやテストにおいて、不十分で誤った予測を生成します。多くの場合、トレーニング・データやパラメーターの不足が原因で起こります。

ただし、正則化はモデルの過小適合につながる可能性があります。正則化によって偏りが大きくなりすぎると、モデルの分散は減少せず、むしろ増大する可能性があります。特に単純なモデル、つまりパラメーターがほとんどないモデルの場合、正則化がこのような影響を与えることがあります。したがって、実装する正則化の種類と程度を決定する際、モデルの複雑さやデータセットなどを考慮する必要があります。⁴

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

線形モデルによる正則化の種類

線形回帰とロジスティック回帰は、どちらも機械学習を支える予測モデルです。線形回帰（または最小二乗法）は、提供されたデータ・ポイント（つまり、トレーニング・データ）を通過させる最適な直線を見つけることで、1つまたは複数の予測子の影響を測定し、予測します。ロジスティック回帰は、さまざまな予測変数に基づき、二値的な出力のクラス確率を決定することを目的としています。」線形回帰は連続的な定量的予測を行い、ロジスティック回帰は離散的なカテゴリ予測を生成します。⁵

もちろん、どちらの回帰モデルでも予測変数の数が増えるにつれて、入出力の関係は必ずしも単純なものではなくなり、回帰式の調整が必要になります。正則化を利用してください。回帰モデルの正則化には主に3つの形式があります。このリストは簡単な概要にすぎないことに留意してください。これらの正則化手法の線形回帰およびロジスティック回帰への適用は、わずかですが違いがあります。

ラッソ回帰（またはL1正則化）は、値の高い相関係数にペナルティを課す正則化手法です。モデルの二乗誤差和（SSE）損失関数に正則化項（ペナルティー項とも呼ばれる）を組み込みます。このペナルティー項は、係数の和の絶対値です。これはハイパーパラメーターであるラムダ（λ）によって制御され、選択された特徴量の重みがゼロに減少します。そのため、ラッソ回帰では、モデルから多重共線性の特徴が完全に除去されます。
リッジ回帰 （またはL2正則化）は、SSE損失関数にペナルティー項を組み込むことにより、ラッソ回帰と同様、値の高い係数にペナルティーを課す正則化手法です。とはいえ、ラッソ回帰とは異なる点があります。まず、リッジ回帰におけるペナルティー項は、係数の絶対値ではなく、係数の二乗和です。次に、リッジ回帰では特徴選択は行われません。ラッソ回帰のペナルティー項では、係数値をゼロに減少させることでモデルから特徴量を除去できますが、リッジ回帰は特徴量の重みがゼロに近づくよう減少させるものの、ゼロになることはありません。
エラスティック・ネットによる正則化は、基本的にリッジ回帰とラッソ回帰の両方を組み合わせますが、L1とL2の両方のペナルティー項をSSE損失関数に組み込みます。L2とL1は、特徴量の重みの和を二乗する、あるいは絶対値を取ることによって、それぞれペナルティー項の値を導出します。エラスティック・ネットは、これらのペナルティー値の両方をコスト関数（SSE）方程式に組み込みます。このようにして、エラスティック・ネットは多重共線性に対処しながら、特徴選択も可能にします。⁶

統計学では、これらの方法は「係数縮小」とも呼びます。予測モデルの予測係数の値を縮小させるためです。これら3つの手法すべてにおいて、ペナルティー項の強度はラムダによって制御され、さまざまな交差検証手法を使用して計算が可能です。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

機械学習における正則化の種類

データセット

データ増強は、モデルのトレーニング・データを修正する正則化の手法です。既存のトレーニング・データから派生して人工データ・サンプルを作成することで、トレーニング・セットのサイズを拡張します。トレーニング・セットにより多くのサンプル、特に実世界のデータではまれなインスタンスを追加することで、モデルはより多くの多様性のあるデータに触れ、学習することができます。機械学習の研究では、最近、特に不均衡なデータセットを解決する手段として、分類器のデータ増強が研究されています。⁷ただし、データ増強は合成データとは異なります。前者はデータセットを多様化および拡大するために、既存のデータを変更した複製を作成するのに対し、後者は新しい人工データを作成します。

モデル・トレーニング

早期停止は、おそらく最も簡単に実装できる正則化の手法です。簡単に説明すると、モデル・トレーニング中の反復回数を制限します。ここでは、モデルはトレーニング・データを繰り返し学習し、訓練と検証の精度が向上しなくなった（そしておそらく悪化する）時点で停止します。目標は、検証誤差が停滞するか増加し始める直前までモデルをトレーニングし、可能な限り低い訓練誤差に到達することです。⁸

機械学習のPythonパッケージの多くは、早期停止のためのトレーニング・コマンド・オプションを備えています。実際、早期停止がデフォルトのトレーニング設定になっているものもあります。

Neural networks

ニューラル・ネットワークは、多くの人工知能アプリケーションやサービスを動かす、複雑な機械学習のモデルです。ニューラル・ネットワークは入力層、1つ以上の隠れ層、および出力層で構成され、各層は複数のノードで構成されます。

ドロップアウトは、学習中にネットワークからノードとその入力接続と出力接続をランダムにドロップすることで、ニューラル・ネットワークを正則化します（図3）。ドロップアウトは、固定サイズのアーキテクチャーのいくつかのバリエーションを学習します。各バリエーションではランダムに選ばれた異なるノードがアーキテクチャーから除外されています。テストではドロップアウトを使用しない単一のニューラル・ネットワークを使用され、ランダムに変更されたトレーニング・アーキテクチャーから導き出された近似的な平均化法が採用されます。このようにして、ドロップアウトは大量の異なるアーキテクチャを持つニューラル・ネットワークの訓練を模倣しています。⁹

重み減衰は、ディープ・ニューラル・ネットワークで使用される別の形式の正則化です。これは、線形モデルにおけるL2正則化と同様に、正則化パラメータによってネットワークの重みの二乗和を減少させます。¹⁰しかし、ニューラル・ネットワークで使用した場合、この減少はL1正則化と同様の効果があります。つまり、選択したニューロンの重みがゼロにまで減少します。¹¹これにより、ネットワークからノードが効果的に除去され、スパース性によってネットワークの複雑さが軽減されます。¹²

重み減衰は、表面的にはディープ・ニューラル・ネットワークにおけるドロップアウトに似ているように見えますが、これら2つの手法は異なります。重要な違いの1つは、ドロップアウトでは、ペナルティー値はケースにおけるネットワークの深さに応じて指数関数的に増加するのに対し、重み減衰ではペナルティー値が線形に増加することです。これにより、ドロップアウトは重みの減衰よりもネットワークの複雑さにペナルティーを課すことができると考える人もいます。¹³

多くのオンライン記事やチュートリアルでは、L2正則化と重み減衰を混同しています。実際、学問には一貫性がなく、L2と重み減衰を区別する人もいれば、¹⁴ それらを同一視する人もおり¹⁵ 、それらの間の関係を説明するのに一貫性がない人もいます。¹⁶このような用語の不一致を解決することは、将来の研究に不可欠でありながら見過ごされている分野です。