機械学習では、アルゴリズムがトレーニング・データに適合しすぎる、あるいは正確に適合すると、過剰適合が生じます。その結果、モデルはトレーニング・データ以外のデータから正確な予測や結論を出すことができくなります。
過剰適合は、機械学習モデルの趣旨に反します。新しいデータに対してモデルを一般化することで、最終的に機械学習アルゴリズムを毎日使用して予測を行い、データを分類することが可能となります。
機械学習アルゴリズムが構築されると、サンプル・データ・セットを活用してモデルをトレーニングします。 しかし、モデルがサンプル・データ上で行ったトレーニングの期間が長すぎたり、モデルが複雑すぎたりすると、データ・セット内の「ノイズ」つまり無関係な情報を学習し始める可能性があります。モデルがノイズを記憶し、トレーニング・セットに適合しすぎると、モデルは「過剰適合」になり、新しいデータに対してうまく一般化できなくなります。 モデルが新しいデータに対してうまく一般化できない場合、目的としていた分類や予測の作業を実行できなくなります。
エラー率が低いことと分散が大きいことは、過剰適合の良い指標となります。この種の動作を防ぐために、通常、トレーニング・データ・セットの一部は、過剰適合をチェックするために「テスト・セット」として確保されます。トレーニング・データのエラー率が低く、テスト・データのエラー率が高い場合は、過剰適合であることを示します。
オーバートレーニングやモデルの複雑さによって過剰適合になる場合は、論理的な予防策として、トレーニング・プロセスを早期に一時停止する(「早期停止」とも呼ばれます)か、関連性の低い入力を除去することでモデルの複雑さを軽減することなどがあります。しかし、一時停止が早すぎた場合や、重要な特徴をあまりにも多く除外した場合は、逆の問題が発生し、モデルが過小適合になる可能性があります。 過小適合は、モデルの学習時間が不十分な場合や、入力変数と出力変数の間の有意義な関連性を判別するには入力変数が不十分である場合に発生します。
どちらのシナリオでも、モデルはトレーニング・データ・セット内に主要な傾向を確立できません。また、結果として、過小適合になると、見えないデータに対する一般化が不十分になります。ただし、過剰適合とは異なり、過小適合のモデルはその予測において偏りが大きく、分散が小さくなります。 これは、偏りと分散のトレードオフを示しており、過小適合のモデルが過剰適合状態にシフトした場合に起こります。モデルが学習するにつれて、偏りは小さくなりますが、過剰適合になると、分散は大きくなる可能性があります。モデルを適合させる場合、その目標は、主要な傾向を確立して新しいデータ・セットに幅広く適合できるように、過小適合と過剰適合の間の「スイート・スポット」を見つけることです。
機械学習モデルの精度を把握するために重要なのは、モデルの適合性をテストすることです。K分割交差検証は、モデルの精度を評価するための最も一般的な技法の1つです。
K分割交差検証では、データをK個の同じサイズのサブセットに分割します。これは「フォールド」とも呼ばれます。分割したK個のフォールドの1つはホールドアウト・セットまたは検証セットとも呼ばれるテスト・セットとして機能し、残りのフォールドはモデルをトレーニングします。このプロセスを各フォールドがホールドアウト・フォールドとして機能するまで繰り返します。 各評価の後、スコアが保持され、すべての反復が完了すると、スコアが平均化されてモデル全体のパフォーマンスが評価されます。
線形モデルを使用することは過剰適合を回避するのに役立ちますが、実際の問題の多くは非線形モデルの問題です。過剰適合の検出方法を理解することに加え、過剰適合を完全に回避する方法を理解することも重要です。過剰適合を防ぐために使用できる技法には、以下が挙げられます。
上記は過剰適合の規定された定義ですが、最近の研究(IBM外部へのリンク)によると、ディープラーニングやニューラル・ネットワークなどの複雑なモデルは、「完全適合または内挿」するようにトレーニングされていても、高度な精度で実行されることが分かっています。この発見は、このトピックに関する歴史的な文献が示しているものに真っ向から対立し、「二重降下」のリスク曲線により説明されています。モデルが内挿のしきい値を超えて学習すると、モデルのパフォーマンスが向上することが分かります。過剰適合を回避する前述の方式(早期停止や正則化など)は、実際に内挿を防ぐことができます。
2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
今すぐ個人またはマルチ・ユーザーのサブスクリプションを購入すると、100を超えるオンライン・コースの完全なカタログにアクセスして、低価格でさまざまな製品のスキルを向上させることができます。
IBMのエキスパートが主催するこのカリキュラムは、ビジネス・リーダーが成長を促進するAI投資に優先順位を付けるために必要な知識を習得できます。
AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。
生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。
強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。