モデル・ドリフトとは、データにおける変動や、入力変数と出力変数間の関係により、機械学習モデルのパフォーマンスが低下することです。モデル・ドリフト(モデルの減衰とも呼ばれます)は、モデルのパフォーマンスに悪影響を及ぼし、誤った意思決定や不適切な予測を引き起こす可能性があります。
組織は、ドリフトを検知して軽減するために、データおよび人工知能(AI)プラットフォーム上でパフォーマンスを監視および管理できます。長期にわたって適切に監視しないと、最もよく訓練され、偏りのないAIモデルでさえ、元のパラメーターから「ドリフト」し、導入時に望ましくない結果が生じる可能性があります。ドリフト検知は、強力なAIガバナンスの中核となるコンポーネントです。
履歴データを使用して構築されたモデルはすぐに停滞する可能性があります。多くの場合、古い履歴データでは捉えることができない新しいデータ・ポイント(新しい変化、新しいパターン、新しい傾向)が常に入ってきます。AIモデルのトレーニングが受信データと一致しない場合、そのデータを正確に解釈することや、そのライブ・データを使用して正確な予測を確実に行うことはできません。
ドリフトを迅速に検知して軽減しないと、さらに逸脱し、運用への被害が増大する可能性があります。ドリフト検知により、組織はモデルから正確なアウトプットを継続的に受け取ることができます。
世界は常に変化しているため、データも常に変化します。そのため、世界を理解するために使用されるモデルは常に見直し、更新する必要があります。ここでは、対処する必要があり、それぞれに原因が異なる3種類のモデル・ドリフトをご紹介します。
コンセプト・ドリフトは、入力変数とターゲット変数の間にずれがあるときに発生します。この時点で、定義が有効ではなくなるため、アルゴリズムが誤った答えを出し始めます。独立変数のシフトは、次のようなさまざまな期間にわたって影響を与える可能性があります。
天候の変化に対応した購買行動の季節性など、コンセプト・ドリフトは定期的に繰り返され、後退します。例えば、冬季には、通常、晩秋から初冬にかけて除雪車や除雪機の売上が増加します。予想される降雪量に応じて地理的な調整も行う必要があります。
予期せぬ展開が新たな購入パターンを引き起こす可能性もあります。例えば、ChatGPTが突然話題となり、AIハードウェアやソフトウェア製品の需要が高まり、AI関連企業の株価が上昇したことはその一例です。これらのニュース記事が公開される前にトレーニングされた予測モデルは、その後の結果を予測することができない場合があります。
もう一つの例は、新型コロナウイルス感染症(Covid-19)の感染拡大の影響で、これも購買活動に突然の変化をもたらしました。ゲームや運動器具の売り上げが急増する一方、レストランやホテルの訪問者数が大幅に減少しました。
一部のドリフトは徐々に、または予想されるペースで発生します。例えば、スパマーやハッカーは長年にわたってさまざまなツールや手法を使用してきました。保護ソフトウェアとスパム・フィルターの改良に合わせて、悪意のある行為者も適応して進化しています。デジタルな交流の保護のために設計されたAIは、これに歩調を合わせて進化を続ける必要があります。静的なモデルはすぐに役に立たなくなります。
データ・ドリフト(共変量シフトとも呼ばれます)は、入力データの基礎となるデータ分布が変化したときに発生します。小売業では、ある商品の売上が、別の新商品の投入や競合商品の生産中止により影響を受ける可能性があります。または、あるWebサイトが最初は若い人たちによって採用され、その後年配の人たちにも受け入れられるようになった場合、若いユーザーの利用パターンに基づいたオリジナルのモデルは、年配のユーザーベースではうまく機能しないかもしれません。
アップストリーム・データの変更は、データ・パイプラインに変更がある場合に発生します。たとえば、アップストリーム・データは、通貨を米ドルからユーロに変更する場合、または測定値をキロメートルではなくマイルに変更する場合、温度を摂氏ではなく華氏に変更する場合があるかもしれません。このような変更により、データのラベル付け方法の変化を考慮して構築されていないモデルは機能しなくなります。
企業やデータサイエンティストは、モデルが時代遅れになる前に、さまざまなデータ・ドリフト検知方法を使用して、機械学習モデルのドリフトを常に把握し、その方針を修正することができます。
最も一般的な方法の多くは、2つの確率分布間の潜在的な偏差を測定する時間分布ベースの手法です。成果が著しく異なる場合は、入力データの統計的特性が変化した可能性があり、その結果、データ・ドリフトが発生しています。
データ・ドリフト検知は、組織内を流れるデータの品質と信頼性を継続的に監視する手法であるデータ・オブザーバビリティーの中核となる側面です。Pythonコーディング言語は、オープンソースのドリフト検知機能の作成に使用するため、データサイエンスで特に人気があります。
コルモゴロフ・スミルノフ(K-S)検定は、2つのデータセットが同じ分布に由来するかどうかを測定します。データサイエンスの分野では、K-S検定はノンパラメトリックであり、分布が事前に確立された仮定や基準を満たす必要はありません。
データサイエンティストがコルモゴロフ-スミルノフ検定を使用する主な理由は次の 2 つです。
データ・サンプルが特定の母集団から得られるかどうかを判断します。
2つのデータ・サンプルを比較し、それらが同じ母集団に由来するかどうかを確認します。
K-S検定の結果、2つのデータ・セットが異なる母集団からのものであることが示された場合は、データ・ドリフトが発生している可能性が高く、K-S検定は信頼性の高いドリフト検出器となります。
数学者レオニード・ワッサーシュタインにちなんで命名されたワッサーシュタイン距離は、データ・ドリフトの厳しさを視覚化するものとして、シンプルな比喩を使用しています。2つの小さな土の山をイメージしましょう。一方の土の山からもう一方の土の山を作るのに必要な作業量をデータ・ドリフトとします。このため、ワッサーシュタイン距離は、コンピュータやデータ科学ではearth mover’s distance(EMD)としても知られています。
ドリフト検知の手法として、ワッサーシュタイン距離は学習データと機械学習モデルに入力される新しい入力データを比較します。特徴間の複雑な関係を識別することに優れ、一貫した成果を得るために外れ値をナビゲートすることができます。
集団安定性指数(PSI)は、2つのデータセット間でカテゴリー特徴の分布を比較し、その分布が時間とともにどの程度変化したかを判定します。
より大きな分布の乖離は、より高いPSI値を表し、モデル・ドリフトの存在を示しています。PSIは、独立した特徴と依存する特徴の両方を評価することができます。これらは他の変数に基づいて変化します。
1つまたはそれ以上のカテゴリー特徴の分布によって高いPSIが返される場合、マシン・モデルの再調整または再構築が必要になる可能性があります。
企業は、次のベスト・プラクティスに従うことで、データ・ドリフトの検知と修復をより適切に管理できます。
本番データがモデルのトレーニングで使用したデータと異なるため、AIモデルの精度はデプロイメント後数日以内に低下する可能性があります。これにより、予測が不正確になり、重大なリスクにさらされる可能性があります。
組織はモデルのドリフトやバイアスを防ぐために、モデルの精度が事前に設定されたしきい値を下回る(またはドリフトする)ときに自動的に検知する、AIドリフト検出器と監視ツールを使用する必要があります。
このモデル・ドリフトを検知するプログラムでは、ドリフトの原因となったトランザクションを追跡し、再ラベリングを行ってモデルを再トレーニングし、実行時に予測力を回復できるようにする必要があります。
統計的ドリフト検知では、統計指標を使用してデータ・サンプルを比較および分析します。ほとんどの指標は通常、企業内ですでに使用されているため、この方が導入が簡単です。モデルベースのドリフト検知は、参照ベースラインと比較した点または点のグループ間の類似性を測定します。
組織は、AIモデル、特に生成AIモデルを、ライフサイクル全体を通じて定期的にテストする必要があります。このテストには、次のものが含まれるとよいでしょう。
Forrester社によるTotal Economic Impact調査によると、「統合されたデータとAI環境でモデルを構築、実行、管理することで、[organizations]はAIモデルがどこでも公平かつ説明可能で法規制に準拠していることを確実にできます。このエンド・ツー・エンドのAIアプローチはまた、AIモデルが本番稼動しているときに、モデルのドリフトやバイアスを検知して修正し、モデルのリスクを管理するための独自の権限を組織に与えます。」
ベスト・プラクティスは、すべてのモデルを中央のダッシュボードから一元管理することです。統合アプローチ により、組織は指標を継続的に追跡し、開発、検証、展開を通じて精度とデータの一貫性に変化があった場合にチームに警告することができます。一元化された全体的なビューは、組織がサイロを打破し、データ・リネージュ全体にわたって透明性を高めるのに役立ちます。
本番データとトレーニングで使用されるデータを比較し、リアルタイムでモデル予測を行うAIモデルを通じて、ドリフトのシナリオと規模を検知します。このようにして、ドリフトを迅速に発見し、再トレーニングをすぐに開始できます。この検知は、機械学習オペレーション(MLOps)が反復的であるのと同様に反復的です。
より新しく、より適切なサンプルが追加された新しいデータ・セットをトレーニングに使用します。目標は、大規模言語モデル(LLM)を迅速かつ正確に本番環境に戻すことです。モデルを再トレーニングしても問題が解決しない場合は、新しいモデルが必要かもしれません。大規模言語モデル運用(LLMOP)手法は、組織がLLMの監視と再トレーニングを行う際に役立ちます。
組織は、バッチ・データを使用してモデルをトレーニングするのではなく、最新の実際のデータが利用可能になったときに、機械学習(ML)モデルを更新することで、「オンライン学習」を実践できます。
モデルのトレーニングに使用されるデータが、実際に使用される運用データと異なるため、モデルがドリフトしているように見える可能性があります。医療分野でのユースケースで、トレーニングでは高解像度のスキャンが使用されていても、現場では低解像度のスキャンしか利用できない場合、結果は不正確になります。
2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
今すぐ個人またはマルチ・ユーザーのサブスクリプションを購入すると、100を超えるオンライン・コースの完全なカタログにアクセスして、低価格でさまざまな製品のスキルを向上させることができます。
IBMのエキスパートが主催するこのカリキュラムは、ビジネス・リーダーが成長を促進するAI投資に優先順位を付けるために必要な知識を習得できます。
AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。
生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。
強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。