過剰適合とは

過剰適合とは

機械学習では、アルゴリズムがトレーニング・データに適合しすぎる、あるいは正確に適合すると、過剰適合が生じます。その結果、モデルはトレーニング・データ以外のデータから正確な予測や結論を出すことができくなります。

過剰適合は、機械学習モデルの趣旨に反します。新しいデータに対してモデルを一般化することで、最終的に機械学習アルゴリズムを毎日使用して予測を行い、データを分類することが可能となります。

機械学習アルゴリズムが構築されると、サンプル・データ・セットを活用してモデルをトレーニングします。しかし、モデルがサンプル・データ上で行ったトレーニングの期間が長すぎたり、モデルが複雑すぎたりすると、データ・セット内の「ノイズ」つまり無関係な情報を学習し始める可能性があります。モデルがノイズを記憶し、トレーニング・セットに適合しすぎると、モデルは「過剰適合」になり、新しいデータに対してうまく一般化できなくなります。モデルが新しいデータに対してうまく一般化できない場合、目的としていた分類や予測の作業を実行できなくなります。

エラー率が低いことと分散が大きいことは、過剰適合の良い指標となります。この種の動作を防ぐために、通常、トレーニング・データ・セットの一部は、過剰適合をチェックするために「テスト・セット」として確保されます。トレーニング・データのエラー率が低く、テスト・データのエラー率が高い場合は、過剰適合であることを示します。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

過剰適合と過小適合

オーバートレーニングやモデルの複雑さによって過剰適合になる場合は、論理的な予防策として、トレーニング・プロセスを早期に一時停止する（「早期停止」とも呼ばれます）か、関連性の低い入力を除去することでモデルの複雑さを軽減することなどがあります。しかし、一時停止が早すぎた場合や、重要な特徴をあまりにも多く除外した場合は、逆の問題が発生し、モデルが過小適合になる可能性があります。過小適合は、モデルの学習時間が不十分な場合や、入力変数と出力変数の間の有意義な関連性を判別するには入力変数が不十分である場合に発生します。

どちらのシナリオでも、モデルはトレーニング・データ・セット内に主要な傾向を確立できません。また、結果として、過小適合になると、見えないデータに対する一般化が不十分になります。ただし、過剰適合とは異なり、過小適合のモデルはその予測において偏りが大きく、分散が小さくなります。これは、偏りと分散のトレードオフを示しており、過小適合のモデルが過剰適合状態にシフトした場合に起こります。モデルが学習するにつれて、偏りは小さくなりますが、過剰適合になると、分散は大きくなる可能性があります。モデルを適合させる場合、その目標は、主要な傾向を確立して新しいデータ・セットに幅広く適合できるように、過小適合と過剰適合の間の「スイート・スポット」を見つけることです。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

過剰適合モデルを検出する方法

機械学習モデルの精度を把握するために重要なのは、モデルの適合性をテストすることです。K分割交差検証は、モデルの精度を評価するための最も一般的な技法の1つです。

K分割交差検証では、データをK個の同じサイズのサブセットに分割します。これは「フォールド」とも呼ばれます。分割したK個のフォールドの1つはホールドアウト・セットまたは検証セットとも呼ばれるテスト・セットとして機能し、残りのフォールドはモデルをトレーニングします。このプロセスを各フォールドがホールドアウト・フォールドとして機能するまで繰り返します。各評価の後、スコアが保持され、すべての反復が完了すると、スコアが平均化されてモデル全体のパフォーマンスが評価されます。

過剰適合を回避する方法

線形モデルを使用することは過剰適合を回避するのに役立ちますが、実際の問題の多くは非線形モデルの問題です。過剰適合の検出方法を理解することに加え、過剰適合を完全に回避する方法を理解することも重要です。過剰適合を防ぐために使用できる技法には、以下が挙げられます。

早期停止：前述のとおり、この方法は、モデルがモデル内のノイズを学習し始める前に、トレーニングを一時停止しようとします。この方法はトレーニング・プロセスをあまりにも早期に停止してしまうことで、過小適合という逆の問題を引き起こすおそれがあります。過小適合と過剰適合の間の「スイート・スポット」を見つけることが、ここでの最終的な目標となります。
より多くのデータでトレーニングする：より多くのデータを取り込むようにトレーニング・セットを拡張すると、入力変数と出力変数の間の支配的な関係を解析する機会を増やすことができ、モデルの精度を高めることができます。そのため、クリーンで関連性の高いデータがモデルに注入される場合には、効率的な方法です。そうでない場合は、モデルに引き続き複雑さを加えることになり、過剰適合を引き起こす可能性があります。
データ拡張：クリーンで関連性の高いデータをトレーニング・データに注入することが望ましいですが、モデルをより安定させるために、ノイズの多いデータが追加されることがあります。ただし、この方法は慎重に行う必要があります。
特徴選択：モデルを作成する際に、所定の結果を予測するために使用されるパラメーターまたは特徴をいくつか設定しますが、多くの場合、この特徴は他にとっては不要です。特徴選択は、トレーニング・データ内で最も重要な特徴を特定し、無関係な特徴や不要な特徴を除外するプロセスです。これはよく次元削減と間違われることがありますが、異なるものです。ただし、どちらの方法も、モデルを簡素化してデータ内の主要な傾向を確立するのに役立ちます。
正則化：モデルが複雑すぎて過剰適合が発生する場合に、特徴の数を減らすことは理にかなっています。しかし、特徴選択の処理中に、除去すべき入力が分からない場合はどうしたらよいでしょうか。どの特徴をモデルから除去すべきか分からない場合は、正則化方式が特に役立ちます。正則化は、より大きい係数を持つ入力パラメーターに「ペナルティー」を課します。これにより、モデル内の分散量が制限されます。L1正則化、ラッソ正則化、ドロップアウトなど、数多くの正則化方式がありますが、これらはいずれも、データ内のノイズを特定し、削減することを目的としています。
アンサンブル方式：アンサンブル学習方式は、一連の分類子（決定木など）から構成され、最も一般的な結果を特定するためにその予測が集計されます。最もよく知られているアンサンブル方式は、バギングとブースティングです。バギングでは、トレーニング・セット内のランダムなサンプル・データを選択し、元に戻します。つまり、個々のデータ・ポイントは複数回選択可能です。いくつかのデータ・サンプルが生成されると、これらのモデルは個々に、タスクのタイプ（回帰や分類など）に応じてトレーニングされ、その予測の平均または多数を占めるものからより正確な評価が算出されます。これは、ノイズの多いデータ・セット内で分散を小さくするためによく使用されます。