モデル・ドリフトとは？

共同執筆者

Jim Holdsworth

Staff Writer

IBM Think

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

モデル・ドリフトとは？

モデル・ドリフトとは、データにおける変動や、入力変数と出力変数間の関係により、機械学習モデルのパフォーマンスが低下することです。モデル・ドリフト（モデルの減衰とも呼ばれます）は、モデルのパフォーマンスに悪影響を及ぼし、誤った意思決定や不適切な予測を引き起こす可能性があります。

組織は、ドリフトを検知して軽減するために、データおよび人工知能（AI）プラットフォーム上でパフォーマンスを監視および管理できます。長期にわたって適切に監視しないと、最もよく訓練され、偏りのないAIモデルでさえ、元のパラメーターから「ドリフト」し、導入時に望ましくない結果が生じる可能性があります。ドリフト検知は、強力なAIガバナンスの中核となるコンポーネントです。

履歴データを使用して構築されたモデルはすぐに停滞する可能性があります。多くの場合、古い履歴データでは捉えることができない新しいデータ・ポイント（新しい変化、新しいパターン、新しい傾向）が常に入ってきます。AIモデルのトレーニングが受信データと一致しない場合、そのデータを正確に解釈することや、そのライブ・データを使用して正確な予測を確実に行うことはできません。

ドリフトを迅速に検知して軽減しないと、さらに逸脱し、運用への被害が増大する可能性があります。ドリフト検知により、組織はモデルから正確なアウトプットを継続的に受け取ることができます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

モデル・ドリフトの原因

世界は常に変化しているため、データも常に変化します。そのため、世界を理解するために使用されるモデルは常に見直し、更新する必要があります。ここでは、対処する必要があり、それぞれに原因が異なる3種類のモデル・ドリフトをご紹介します。

1. コンセプト・ドリフト

コンセプト・ドリフトは、入力変数とターゲット変数の間にずれがあるときに発生します。この時点で、定義が有効ではなくなるため、アルゴリズムが誤った答えを出し始めます。独立変数のシフトは、次のようなさまざまな期間にわたって影響を与える可能性があります。

季節的

天候の変化に対応した購買行動の季節性など、コンセプト・ドリフトは定期的に繰り返され、後退します。例えば、冬季には、通常、晩秋から初冬にかけて除雪車や除雪機の売上が増加します。予想される降雪量に応じて地理的な調整も行う必要があります。

急激

予期せぬ展開が新たな購入パターンを引き起こす可能性もあります。例えば、ChatGPTが突然話題となり、AIハードウェアやソフトウェア製品の需要が高まり、AI関連企業の株価が上昇したことはその一例です。これらのニュース記事が公開される前にトレーニングされた予測モデルは、その後の結果を予測することができない場合があります。

もう一つの例は、新型コロナウイルス感染症（Covid-19）の感染拡大の影響で、これも購買活動に突然の変化をもたらしました。ゲームや運動器具の売り上げが急増する一方、レストランやホテルの訪問者数が大幅に減少しました。

段階的

一部のドリフトは徐々に、または予想されるペースで発生します。例えば、スパマーやハッカーは長年にわたってさまざまなツールや手法を使用してきました。保護ソフトウェアとスパム・フィルターの改良に合わせて、悪意のある行為者も適応して進化しています。デジタルな交流の保護のために設計されたAIは、これに歩調を合わせて進化を続ける必要があります。静的なモデルはすぐに役に立たなくなります。

2. データ・ドリフト

データ・ドリフト（共変量シフトとも呼ばれます）は、入力データの基礎となるデータ分布が変化したときに発生します。小売業では、ある商品の売上が、別の新商品の投入や競合商品の生産中止により影響を受ける可能性があります。または、あるWebサイトが最初は若い人たちによって採用され、その後年配の人たちにも受け入れられるようになった場合、若いユーザーの利用パターンに基づいたオリジナルのモデルは、年配のユーザーベースではうまく機能しないかもしれません。

3. アップストリーム・データにおける変化

アップストリーム・データの変更は、データ・パイプラインに変更がある場合に発生します。たとえば、アップストリーム・データは、通貨を米ドルからユーロに変更する場合、または測定値をキロメートルではなくマイルに変更する場合、温度を摂氏ではなく華氏に変更する場合があるかもしれません。このような変更により、データのラベル付け方法の変化を考慮して構築されていないモデルは機能しなくなります。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

ドリフトを検知する方法

企業やデータサイエンティストは、モデルが時代遅れになる前に、さまざまなデータ・ドリフト検知方法を使用して、機械学習モデルのドリフトを常に把握し、その方針を修正することができます。

最も一般的な方法の多くは、2つの確率分布間の潜在的な偏差を測定する時間分布ベースの手法です。成果が著しく異なる場合は、入力データの統計的特性が変化した可能性があり、その結果、データ・ドリフトが発生しています。

データ・ドリフト検知は、組織内を流れるデータの品質と信頼性を継続的に監視する手法であるデータ・オブザーバビリティーの中核となる側面です。Pythonコーディング言語は、オープンソースのドリフト検知機能の作成に使用するため、データサイエンスで特に人気があります。

コルモゴロフ・スミルノフ（K-S）検定

コルモゴロフ・スミルノフ（K-S）検定は、2つのデータセットが同じ分布に由来するかどうかを測定します。データサイエンスの分野では、K-S検定はノンパラメトリックであり、分布が事前に確立された仮定や基準を満たす必要はありません。

データサイエンティストがコルモゴロフ-スミルノフ検定を使用する主な理由は次の 2 つです。

データ・サンプルが特定の母集団から得られるかどうかを判断します。
2つのデータ・サンプルを比較し、それらが同じ母集団に由来するかどうかを確認します。

K-S検定の結果、2つのデータ・セットが異なる母集団からのものであることが示された場合は、データ・ドリフトが発生している可能性が高く、K-S検定は信頼性の高いドリフト検出器となります。

ワッサーシュタイン距離

数学者レオニード・ワッサーシュタインにちなんで命名されたワッサーシュタイン距離は、データ・ドリフトの厳しさを視覚化するものとして、シンプルな比喩を使用しています。2つの小さな土の山をイメージしましょう。一方の土の山からもう一方の土の山を作るのに必要な作業量をデータ・ドリフトとします。このため、ワッサーシュタイン距離は、コンピュータやデータ科学ではearth mover’s distance（EMD）としても知られています。

ドリフト検知の手法として、ワッサーシュタイン距離は学習データと機械学習モデルに入力される新しい入力データを比較します。特徴間の複雑な関係を識別することに優れ、一貫した成果を得るために外れ値をナビゲートすることができます。

集団安定性指数

集団安定性指数（PSI）は、2つのデータセット間でカテゴリー特徴の分布を比較し、その分布が時間とともにどの程度変化したかを判定します。

より大きな分布の乖離は、より高いPSI値を表し、モデル・ドリフトの存在を示しています。PSIは、独立した特徴と依存する特徴の両方を評価することができます。これらは他の変数に基づいて変化します。

1つまたはそれ以上のカテゴリー特徴の分布によって高いPSIが返される場合、マシン・モデルの再調整または再構築が必要になる可能性があります。

モデル・ドリフトを回避するためのベスト・プラクティス

企業は、次のベスト・プラクティスに従うことで、データ・ドリフトの検知と修復をより適切に管理できます。

ドリフトの検知を自動化する

本番データがモデルのトレーニングで使用したデータと異なるため、AIモデルの精度はデプロイメント後数日以内に低下する可能性があります。これにより、予測が不正確になり、重大なリスクにさらされる可能性があります。

組織はモデルのドリフトやバイアスを防ぐために、モデルの精度が事前に設定されたしきい値を下回る（またはドリフトする）ときに自動的に検知する、AIドリフト検出器と監視ツールを使用する必要があります。

このモデル・ドリフトを検知するプログラムでは、ドリフトの原因となったトランザクションを追跡し、再ラベリングを行ってモデルを再トレーニングし、実行時に予測力を回復できるようにする必要があります。

統計的ドリフト検知では、統計指標を使用してデータ・サンプルを比較および分析します。ほとんどの指標は通常、企業内ですでに使用されているため、この方が導入が簡単です。モデルベースのドリフト検知は、参照ベースラインと比較した点または点のグループ間の類似性を測定します。

モデルのテストを自動化する

組織は、AIモデル、特に生成AIモデルを、ライフサイクル全体を通じて定期的にテストする必要があります。このテストには、次のものが含まれるとよいでしょう。

モデルの実稼働前の検証は、バイアスやドリフトを検知するテストによって行われ、その後テストレポートを生成します。
成功したモデルのデプロイ前テスト構成をデプロイ後バージョンに転送し、自動テストを継続します。
モデル、データ、テスト結果情報の記録システムとの同期。
自動化。一貫性のある信頼性の高い通知が提供されることで、チームがモデルの監視ではなくモデル開発に集中できる時間が増えます。

統一環境で管理する

Forrester社によるTotal Economic Impact調査によると、「統合されたデータとAI環境でモデルを構築、実行、管理することで、[organizations]はAIモデルがどこでも公平かつ説明可能で法規制に準拠していることを確実にできます。このエンド・ツー・エンドのAIアプローチはまた、AIモデルが本番稼動しているときに、モデルのドリフトやバイアスを検知して修正し、モデルのリスクを管理するための独自の権限を組織に与えます。」

ベスト・プラクティスは、すべてのモデルを中央のダッシュボードから一元管理することです。統合アプローチにより、組織は指標を継続的に追跡し、開発、検証、展開を通じて精度とデータの一貫性に変化があった場合にチームに警告することができます。一元化された全体的なビューは、組織がサイロを打破し、データ・リネージュ全体にわたって透明性を高めるのに役立ちます。

継続的なドリフト監視の実施

本番データとトレーニングで使用されるデータを比較し、リアルタイムでモデル予測を行うAIモデルを通じて、ドリフトのシナリオと規模を検知します。このようにして、ドリフトを迅速に発見し、再トレーニングをすぐに開始できます。この検知は、機械学習オペレーション（MLOps）が反復的であるのと同様に反復的です。

根本原因を分析する

時間ベースの分析は、ドリフトがどのように進化し、いつ発生したかの確認に役立ちます。例えば、毎週確認を行うと、ドリフトが毎日どのように変化したかが表示されます。

タイムラインの分析は、ドリフトが徐々に起こったのか突然起こったのかを決定するのにも役立ちます。説明可能なAIのアプローチは、この透明性をAIの使用に適用し、モデルがなぜ、どのようにして成果を出したのかを、組織が監視できるようにします。

モデルを再トレーニングする

より新しく、より適切なサンプルが追加された新しいデータ・セットをトレーニングに使用します。目標は、大規模言語モデル（LLM）を迅速かつ正確に本番環境に戻すことです。モデルを再トレーニングしても問題が解決しない場合は、新しいモデルが必要かもしれません。大規模言語モデル運用（LLMOP）手法は、組織がLLMの監視と再トレーニングを行う際に役立ちます。