過剰適合とは
watsonx.aiで過剰適合を回避する AI関連の最新情報を購読する
黒と青の背景
過剰適合とは

機械学習では、アルゴリズムがトレーニング・データに適合しすぎる、あるいは正確に適合すると、過剰適合が生じます。その結果、モデルはトレーニング・データ以外のデータから正確な予測や結論を出すことができくなります。

過剰適合は、機械学習モデルの趣旨に反します。新しいデータに対してモデルを一般化することで、最終的に機械学習アルゴリズムを毎日使用して予測を行い、データを分類することが可能となります。

機械学習アルゴリズムが構築されると、サンプル・データ・セットを活用してモデルをトレーニングします。 しかし、モデルがサンプル・データ上で行ったトレーニングの期間が長すぎたり、モデルが複雑すぎたりすると、データ・セット内の「ノイズ」つまり無関係な情報を学習し始める可能性があります。モデルがノイズを記憶し、トレーニング・セットに適合しすぎると、モデルは「過剰適合」になり、新しいデータに対してうまく一般化できなくなります。 モデルが新しいデータに対してうまく一般化できない場合、目的としていた分類や予測の作業を実行できなくなります。

エラー率が低いことと分散が大きいことは、過剰適合の良い指標となります。この種の動作を防ぐために、通常、トレーニング・データ・セットの一部は、過剰適合をチェックするために「テスト・セット」として確保されます。トレーニング・データのエラー率が低く、テスト・データのエラー率が高い場合は、過剰適合であることを示します。

IBMがIDCによってリーダーに選出される

IDC MarketScape: Worldwide AI Governance Platforms 2023レポートで、IBMがリーダーに選出された理由をお読みください。

関連コンテンツ

AIガバナンスに関するホワイトペーパーに登録する

過剰適合と過小適合

オーバートレーニングやモデルの複雑さによって過剰適合になる場合は、論理的な予防策として、トレーニング・プロセスを早期に一時停止する(「早期停止」とも呼ばれます)か、関連性の低い入力を除去することでモデルの複雑さを軽減することなどがあります。しかし、一時停止が早すぎた場合や、重要な特徴をあまりにも多く除外した場合は、逆の問題が発生し、モデルが過小適合になる可能性があります。 過小適合は、モデルの学習時間が不十分な場合や、入力変数と出力変数の間の有意義な関連性を判別するには入力変数が不十分である場合に発生します。

どちらのシナリオでも、モデルはトレーニング・データ・セット内に主要な傾向を確立できません。また、結果として、過小適合になると、見えないデータに対する一般化が不十分になります。ただし、過剰適合とは異なり、過小適合のモデルはその予測において偏りが大きく、分散が小さくなります。 これは、偏りと分散のトレードオフを示しており、過小適合のモデルが過剰適合状態にシフトした場合に起こります。モデルが学習するにつれて、偏りは小さくなりますが、過剰適合になると、分散は大きくなる可能性があります。モデルを適合させる場合、その目標は、主要な傾向を確立して新しいデータ・セットに幅広く適合できるように、過小適合と過剰適合の間の「スイート・スポット」を見つけることです。

過剰適合モデルを検出する方法

機械学習モデルの精度を把握するために重要なのは、モデルの適合性をテストすることです。K分割交差検証は、モデルの精度を評価するための最も一般的な技法の1つです。

K分割交差検証では、データをK個の同じサイズのサブセットに分割します。これは「フォールド」とも呼ばれます。分割したK個のフォールドの1つはホールドアウト・セットまたは検証セットとも呼ばれるテスト・セットとして機能し、残りのフォールドはモデルをトレーニングします。このプロセスを各フォールドがホールドアウト・フォールドとして機能するまで繰り返します。 各評価の後、スコアが保持され、すべての反復が完了すると、スコアが平均化されてモデル全体のパフォーマンスが評価されます。

過剰適合を回避する方法

線形モデルを使用することは過剰適合を回避するのに役立ちますが、実際の問題の多くは非線形モデルの問題です。過剰適合の検出方法を理解することに加え、過剰適合を完全に回避する方法を理解することも重要です。過剰適合を防ぐために使用できる技法には、以下が挙げられます。

  • 早期停止:前述のとおり、この方法は、モデルがモデル内のノイズを学習し始める前に、トレーニングを一時停止しようとします。この方法はトレーニング・プロセスをあまりにも早期に停止してしまうことで、過小適合という逆の問題を引き起こすおそれがあります。過小適合と過剰適合の間の「スイート・スポット」を見つけることが、ここでの最終的な目標となります。
  • より多くのデータでトレーニングする:より多くのデータを取り込むようにトレーニング・セットを拡張すると、入力変数と出力変数の間の支配的な関係を解析する機会を増やすことができ、モデルの精度を高めることができます。そのため、クリーンで関連性の高いデータがモデルに注入される場合には、効率的な方法です。そうでない場合は、モデルに引き続き複雑さを加えることになり、過剰適合を引き起こす可能性があります。
  • データ拡張:クリーンで関連性の高いデータをトレーニング・データに注入することが望ましいですが、モデルをより安定させるために、ノイズの多いデータが追加されることがあります。ただし、この方法は慎重に行う必要があります。
  • 特徴選択:モデルを構築する際に、所定の結果を予測するために使用されるパラメーターまたは特徴をいくつか設定しますが、多くの場合、この特徴は他にとっては不要です。 特徴選択は、トレーニング・データ内で最も重要な特徴を特定し、無関係な特徴や不要な特徴を除外するプロセスです。 これはよく次元削減と間違われることがありますが、異なるものです。ただし、どちらの方法も、モデルを簡素化してデータ内の主要な傾向を確立するのに役立ちます。
  • 正則化:モデルが複雑すぎて過剰適合が発生する場合に、特徴の数を減らすことは理にかなっています。しかし、特徴選択の処理中に、除去すべき入力が分からない場合はどうしたらよいでしょうか。 どの特徴をモデルから除去すべきか分からない場合は、正則化方式が特に役立ちます。正則化は、より大きい係数を持つ入力パラメーターに「ペナルティー」を課します。これ以後、モデル内の分散量が制限されます。L1正則化、ラッソ正則化、ドロップアウトなど、数多くの正則化方式がありますが、これらはいずれも、データ内のノイズを特定し、削減することを目的としています。
  • アンサンブル方式:アンサンブル学習方式は、一連の分類子(決定木など)から構成され、最も一般的な結果を特定するためにその予測が集計されます。最もよく知られているアンサンブル方式は、バギングとブースティングです。バギングでは、トレーニング・セット内のランダムなサンプル・データが置換によって選択されます。これは、個々のデータ・ポイントが複数回選択可能であることを意味します。いくつかのデータ・サンプルが生成されると、これらのモデルは個々に、タスクのタイプ(回帰や分類など)に応じてトレーニングされ、 その予測の平均または多数を占めるものからより正確な評価が算出されます。これは、ノイズの多いデータ・セット内で分散を小さくするためによく使用されます。
IBM Developerの画像認識のチュートリアルで、これらのアプローチの一部を活用する方法を見る
最近の研究

上記は過剰適合の規定された定義ですが、最近の研究(IBM外部へのリンク)によると、ディープラーニングやニューラル・ネットワークなどの複雑なモデルは、「完全適合または内挿」するようにトレーニングされていても、高度な精度で実行されることが分かっています。 この発見は、このトピックに関する歴史的な文献が示しているものに真っ向から対立し、「二重降下」のリスク曲線により説明されています。 モデルが内挿のしきい値を超えて学習すると、モデルのパフォーマンスが向上することが分かります。過剰適合を回避する前述の方式(早期停止や正則化など)は、実際に内挿を防ぐことができます。

関連ソリューション
IBM Watson® Studio

IBM Watson Studioは、データサイエンティストが任意のクラウドで大規模にAIモデルを構築、稼働、テスト、および最適化できるようにするオープン・データ・プラットフォームです。

IBM Watson Studioの詳細はこちら
IBM Cloud Pak® for Data

IBM Cloud Pak® for Dataは、オープンで拡張可能なデータ・プラットフォームで、データ・ファブリックを提供し、任意のクラウド上ですべてのデータを、AIおよび分析用に使用できるようにします。

IBM Cloud Pak for Dataの詳細はこちら
参考情報 勾配ベースのメタ学習における良性の過剰適合を理解する

経験的証拠により、過度にパラメーター化されたメタ学習手法が依然としてうまく機能していることが明らかにされています。この現象はしばしば、良性の過剰適合と呼ばれます。

堅固な過剰適合を、適切に学習が行われた平滑化によって軽減する

敵対的学習(AT)中により多くの学習が行われた平滑化を注入するために、2つの経験的手段を調査します