ホーム
Topics
モデルドリフト
公開済み:2024年1月18日
寄稿者: Jim Holdsworth
モデル・ドリフトとは、データにおける変動や入力変数と出力変数間の関係における変化によりモデルのパフォーマンスが低下することです。モデル・ドリフト(モデルの減衰とも呼ばれます)は、モデルのパフォーマンスに悪影響を及ぼし、誤った意思決定や不適切な予測を引き起こす可能性があります。
組織は、ドリフトを検知して軽減するために、データと人工知能プラットフォームのパフォーマンスを監視および管理できます。 モデルのパフォーマンスは初めは順調かもしれませんが、適切に監視されないと、最もよく訓練されたバイアスのないAIモデルであっても、時間の経過とともにデプロイメント後に元のパラメーターから「逸脱」し、望ましくない結果が生じる可能性があります。
AIモデルのトレーニングが受信データと一致しない場合、そのデータを正確に解釈したり、そのライブ・データを使用して正確な予測を確実に行うことができません。 ドリフトを迅速に検知して軽減しないと、さらに逸脱し、運用への被害が増大する可能性があります。
履歴データを使用して構築されたモデルはすぐに停滞する可能性があります。 多くの場合、古い履歴データでは捉えることができない、新しいデータ・ポイント(新しい変化、新しいパターン、新しい傾向)が常に入ってきます。
AI 導入の障壁、特に AI ガバナンスとリスク管理ソリューションの欠如について学びます。
世界は常に変化しているため、データも常に変化します。そのため、世界を理解するために使用されるモデルは常に見直し、更新する必要があります。 ここでは、対処する必要があり、それぞれに原因が異なる3種類のモデル・ドリフトをご紹介します。
1つ目はコンセプト・ドリフトです。これは、入力変数とターゲット変数の間にずれがあるときに発生します。この時点で、定義が有効ではなくなるため、アルゴリズムが誤った答えを出し始めます。 独立変数のシフトは、次のようなさまざまな期間にわたって影響を与える可能性があります。
天候の変化に対応した購買行動の季節性など、コンセプト・ドリフトは定期的に繰り返され、後退します。 例えば、冬季には、通常、晩秋から初冬にかけて除雪車や除雪機の売上が増加します。 予想される降雪量に応じて地理的な調整も行う必要があります。
予期せぬ展開が新たな購入パターンを引き起こす可能性もあります。 例えば、ChatGPTが突然話題となり、AIハードウェアやソフトウェア製品の需要が高まり、AI関連企業の株価が上昇したことはその一例です。 これらのニュース記事が公開される前にトレーニングされた予測モデルでは、その後の結果を予測できませんでした。 もう一つの例は、新型コロナウイルス感染症(Covid-19)の感染拡大の影響で、これも購買活動に突然の変化をもたらしました。ゲームや運動器具の売り上げが急増する一方、レストランやホテルの訪問者数が大幅に減少しました。
一部のドリフトは徐々に、または予想されるペースで発生します。 例えば、スパマーやハッカーは長年にわたってさまざまなツールやトリックを使用してきました。 保護ソフトウェアとスパム・フィルターが改良されるにつれて、悪意のある行為者もそれに応じて攻撃を強化しています。 デジタル・インタラクションを保護するように設計されたAIは、これに歩調を合わせて進化していく必要があり、静的モデルはすぐに役に立たなくなります。
2つ目はデータ・ドリフトで、入力データの基になるデータ分布が変更されています。 小売業では、ある商品の売上が、別の新商品の投入や競合商品の生産中止により影響を受ける可能性があります。または、あるWebサイトが最初は若い人たちによって採用され、その後年配の人たちにも受け入れられるようになった場合、若いユーザーの利用パターンに基づいたオリジナルのモデルは、年配のユーザーベースではうまく機能しないかもしれません。
3つ目は、データ・パイプラインに変更があったときに発生するアップストリーム・データにおける変化です。 例えば、アップストリーム・データの通貨単位が米ドルやユーロなど別の通貨に変更されたり、測定値の単位がキロメートルではなくマイルに変更されたり、気温を摂氏ではなく華氏に変更されたりするかもしれません。 このような変更により、データのラベル付け方法の変化を考慮して構築されていないモデルは機能しなくなります。
組織がモデル・ドリフトを検知して修正できるようにするには、次のことを考慮する必要があります。
運用データがモデルのトレーニングで使用したデータと異なるため、AIモデルの精度はデプロイメント後数日以内に低下する可能性があります。 これにより、予測が不正確になり、重大なリスクにさらされる可能性があります。組織は、モデルの精度が事前に設定されたしきい値を下回ったときに自動的に検知するAIプログラムと監視ツールを使用する必要があります。 また、モデル・ドリフトを検知するためのこのプログラムでは、ドリフトの原因となったトランザクションを追跡し、ラベルを付け直してモデルを再トレーニングし、実行時に予測力を回復できるようにする必要があります。
ドリフトを測定するには、2つの方法があります。1つ目は、統計指標を使用する統計手法です。 ほとんどの指標は通常、企業内ですでに使用されているため、この方が導入が簡単です。 2つ目はモデルベースの手法です。 これは、1つまたは複数のポイントと参照ベースラインの類似度を測定します。
組織は、ライフサイクルを通じて定期的にAIモデルをテストする必要があります。 このテストには、次のものが含まれるとよいでしょう。
Forrester社によるTotal Economic Impact調査によると、「統合されたデータとAI環境でモデルを構築、実行、管理することで、[organizations]はAIモデルがどこでも公平かつ説明可能で法規制に準拠していることを確実にできます。 このエンド・ツー・エンドのAIアプローチはまた、AIモデルが本番稼動しているときに、モデルのドリフトやバイアスを検知して修正し、モデルのリスクを管理するための独自の権限を組織に与えます。
ベスト・プラクティスは、すべてのモデルを中央のダッシュボードから一元管理することです。 統合アプローチにより、組織は指標を継続的に追跡し、開発、検証、展開を通じて精度とデータの一貫性に変化があった場合にチームに警告することができます。 一元化された全体的なビューは、組織がサイロを打破し、データ系統全体にわたって透明性を高めるのに役立ちます。
本番稼働データとトレーニングで使用されるデータを比較し、リアルタイムでモデル予測を行うAIモデルを通じて、ドリフトのシナリオと規模を検知します。 このようにして、ドリフトを迅速に発見し、再トレーニングをすぐに開始できるようにします。 この検知は、機械学習オペレーション(MLOps)が反復的であるのと同様に反復的です。
時間ベースの分析は、ドリフトがどのように進化し、いつ発生したかを確認するのに役立ちます。例えば、毎週確認を行うと、ドリフトが毎日どのように変化したかが表示されます。 タイムラインの分析は、ドリフトが徐々に起こったのか突然起こったのかを判断するのにも役立ちます。
より新しく、より適切なサンプルが追加された新しいデータ・セットをトレーニングに使用します。 目標は、大規模言語モデル(LLM)を迅速かつ正確に本番環境に戻すことです。 モデルを再トレーニングしても問題が解決しない場合は、新しいモデルが必要かもしれません。
組織は、バッチ・データを使用してモデルをトレーニングするのではなく、最新の実際のデータが利用可能になり次第、そのデータを使用して機械学習(ML)モデルを更新することで、「オンライン学習」を実践できます。
モデルのトレーニングに使用されるデータが実際に使用される運用データと大幅に異なるため、モデルがドリフトしているように見えることがあります。 例えば医療分野でのユースケースで、トレーニングでは高解像度のスキャンが使用されているにもかかわらず、現場では低解像度のスキャンしか利用できない場合、結果は不正確になります。