IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
機械学習におけるデータ漏洩は、モデルがトレーニング中に、予測時には利用できない情報を使用してしまう場合に発生します。漏洩の結果、予測モデルはユースケースでデプロイされるまでは正確に見えます。しかし、それが不正確な結果をもたらし、不適切な意思決定や誤った洞察につながります。
予測モデリングの目的は、モデルのトレーニング中には入手できない現実世界の将来データに基づいて正確な予測を行う機械学習モデルを作成することです。不正確な結果を避けるため、モデルはトレーニングの際のデータと同じデータに照らしては評価されません。そのため、データサイエンティストは通常、利用可能なデータを2つのセットに分割します。1つはモデルのトレーニング用、もう1つはモデルが目に見えないデータに対してどの程度優れたパフォーマンスを発揮するかを検証するためです。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
データ漏洩は、モデルを作成するためにトレーニング・データセット外のデータが使用されたときに発生しますが、モデルを予測に使用する際には、この将来データは利用できなくなります。このモデルはテストや検証ではうまく機能しますが、本番環境で使用すると完全に不正確になります。
漏洩には、ターゲットの漏洩とトレーニングの汚染の2種類があります。
ターゲットの漏洩:モデルには、モデルを使用して予測を行うときには利用できないデータが含まれています。
現実世界の予測では利用できない情報を使用すると、過剰適合につながり、モデルはトレーニングおよび検証データでは非常に優れたパフォーマンスを発揮しますが、本番環境ではパフォーマンスが低下します。
トレーニングとテストの汚染:トレーニングデータと検証データの両方がモデルの作成に使用される場合に発生し、その多くが不適切な分割や前処理が原因です。
例えば、クレジットカード詐欺を予測するために作成されたモデルを想像してみてください。この問題は、モデルが不完全なデータに基づいて信頼性の高い将来予測を行う必要がある予測アプリケーションで懸念されます。生のデータセットには、顧客、取引金額、場所、不正行為が検出されたかどうか、チャージバックを受けたかどうかに関する情報が含まれます。
モデルをトレーニングする場合、不正アクセス検知とチャージバックの列に真または偽の値が入力されます。現実世界では通常、不正が検知された後にチャージバックが開始されるため、検知の時点ではこの情報を利用できません。
この情報を使用してモデルをトレーニングすると、チャージバックのある取引はほぼ常に不正行為であることが学習されます。トレーニングでは不正行為とチャージバックの関係が強いため、検証中、モデルは高い精度を示します。ただし、デプロイ時にはチャージバックの情報が利用できず、モデルの実際のパフォーマンスは低下します。
データサイエンティストが、家の大きさ、寝室の数、近隣地域などの特徴に基づいて住宅価格を予測するモデルを構築していると想像してください。数値的な特徴(家の大きさや築年数など)をすべて同じスケールに標準化することは、一般的な前処理手順であり、多くの機械学習アルゴリズムに役立ちます。
一方、データサイエンティストが、データセットをトレーニングとテストの各データセットに分割する前に、データセット全体に標準化を適用する場合を考えてみます。この場合、モデルはトレーニング中にテスト・セットからの情報を間接的に「参照」します。結果として、テスト・セットの情報が前処理ステップで使用されたため、テスト・データに対するモデルの性能が人工的に誇張されて見える場合があります。これにより、モデルがテスト・セットで十分な性能を発揮しやすくなりますが、新しい未見のデータに対する一般化の能力が低下する可能性があります。
スケーリング、代入、特徴選択などの前処理ステップは、分割する前にデータセット全体に適用するのではなく、トレーニング・データにのみ適合させ、その後検証セットに適用する必要があります。スケーリングや正規化などのトランスフォーマーを誤って適用すると、特にニューラル・ネットワーク・モデルにおいて、トレーニングとテストの汚染につながる可能性があります。このような不適切に実行された前処理ステップがデータセット全体に対して実行されると、予測にバイアスが生じ、モデルの性能は実際とは違うものに感じられます。
データの漏洩は、対処に時間がかかる、数百万ドル規模の損害につながる可能性があるとともに、機械学習における漏洩はさまざまな要因によって発生します。一般的な原因として、次のようなものが挙げられます。
将来的な情報の包含:現実世界のシナリオでの予測時点で利用できない、入手不可能な情報が使用された場合。
不適切な特徴の選択:ターゲットと相関しているが、因果的に関連していない特徴が選択された場合。このようなモデルは、現実世界の予測ではアクセスできない情報をエクスプロイトすることを学習しています。
外部データの汚染:外部データセットと学習データをマージすると、外部データにはターゲット変数に関する直接的または間接的な情報が含まれる可能性があるため、バイアスのかかった予測や不正確な予測につながるかもしれません。
データの前処理エラー:データをトレーニング・セットと検証セットに分割する前にスケーリングするとき、またはデータセット全体の情報を使用して欠損値を入力するときに、不正確なデータ分割が発生します。これは、大規模な前処理が必要になることが多いディープラーニング・モデルでは特に問題になる可能性が高く、トレーニング・データとテスト・データの混在を避けることが重要になります。
不正な交差検証:時間依存データを含むデータセットに対して交差検証を実行するときに、将来のデータ・ポイントが含まれていると、モデルはアクセスすべきでない情報にアクセスし、過度に楽観的な評価が行われることになります。
正規化:特徴のスケーリングや正規化などのデータ変換は、個別に適用せず、トレーニング・データとテスト・データの両方に誤って適用すると、データの漏洩につながります。
検証とプロセスの変更による漏洩:検証方法を変更すると、トレーニング・セットに新しい情報を入れることになり、漏洩が生じる可能性があります。モデルを微調整した後に交差検証を再実行したり、データを再分割したりしてプロセスを途中で調整すると、誤ってトレーニング・プロセスに情報が漏洩する場合があります。
データの漏洩は、予測モデリングのための機械学習アルゴリズムをトレーニングする際によくある落とし穴です。国立医学図書館の研究1によると、機械学習が適用されている17の異なる科学分野において、少なくとも294件の科学論文がデータ漏洩の影響を受け、過度に楽観的な性能につながっていることがわかりました。
Yale社の研究2によると、データの漏洩は、漏洩した情報がノイズを引き起こしたり、非現実的なパターンを生み出したりすることにより、ニューロイメージング・ベースのモデルの性能メトリクスが過大または過小になる可能性があります。これらのモデルは病気の診断に活用され、治療法を特定するだけでなく、神経科学者が脳と身体の関係をより深く理解するために使用されています。
機械学習モデルにおけるデータの漏洩は、多様なフィールドやデータの種類でさまざまな影響を与える可能性がありますが、最も一般的なものは次のとおりです。
新しいデータへの一般化が不十分:現実世界を反映していない情報でモデルをトレーニングすると、モデルは未知のデータへの一般化が困難になります。新しいデータに対する予測が不正確で信頼性が低いものになる可能性があります。
意思決定におけるバイアス:漏洩したデータにバイアスがあると、モデルの動作が歪んでしまうリスクがあり、結果として不公平で現実世界のシナリオから逸脱した決定を下してしまうリスクがあります。
信頼性の低い洞察と結果:データの漏洩により、モデルから得られた洞察の信頼性が損なわれ、ユーザーが結果に不信感を抱くようになります。
性能メトリクスの誇張:機械学習モデルからの漏洩により、多くの場合、モデルは誤って高い精度と正確性を示します。
リソースの浪費:モデルをトレーニングした後にデータの漏洩を発見して修正する場合、時間とコストがかかります。データの漏洩を修正するには、モデルをゼロから再トレーニングする必要があります。これは計算コストが高く、データの前処理から再トレーニングまでのモデル・パイプライン全体を再開発しなければならないため、人的労力と計算コストの面で大量のリソースを消費する可能性があります。
信頼の喪失:信頼性の低いモデルは、最終的にはデータサイエンス・チームと分析プロセス全体に対する不信感につながります。
法的およびコンプライアンス上のリスク:予測分析におけるデータの漏洩は、法的および規制上のリスクが生じます。機密情報が悪用されると、罰則や風評被害につながる可能性があります。
データの漏洩を検知するには、組織がどのようにモデルが準備され、処理されるかを認識しておく必要があります。機械学習モデルの整合性を検証するには、厳密なストラテジーが必要です。モデルの構築とデータ漏洩の検知に関して留意すべきベスト・プラクティスをいくつかご紹介します。
準備:データは適切に分割され、前処理手順はトレーニング・データセットにのみ適用する必要があります。すべての特徴をレビューして、予測中に将来的な情報や利用できない情報を表していないことを確認します。
検索:モデルのトレーニング後、漏洩を示す可能性のある疑わしいパターンを調査します。特徴の重要度とモデル動作を確認して、非現実的な関係を検知します。
テスト:現実世界のデータを使用して制限されたモデルをテストします。現実世界のシナリオでの性能も監視し、性能が大幅に低下した場合は、トレーニング中に漏洩が発生したことを示している可能性があります。
漏洩を検知するための一般的な危険信号は次のとおりです。
異常に高い性能:特に検証データにおいて、モデルが予想よりも大幅に高い精度、適合率、または再現率を示した場合、データの漏洩を示している可能性があります。
トレーニングとテストの性能の不一致:トレーニング・セットとテスト・セットの性能に大きな隔たりがある場合、モデルが漏洩により過剰適合している可能性があります。
一貫性のない交差検証結果:交差検証のフォールド全体で性能が大きく異なる場合、または異常に高いように見える場合は、トレーニング・テストによる漏洩または不適切な分割が原因である可能性があります。
予期しないモデルの動作:モデルが論理的に意味をなさない特徴に大きく依存している場合、漏洩を示している可能性があります。
データの漏洩を最小限に抑えるにはさまざまな方法があり、モデルの整合性を保護するためにいくつかのツールが採用されています。交差検証、特に時系列またはK分割交差検証は、モデルを正しく評価し、潜在的な漏洩を明らかにするのに役立ちます。LLM(大規模言語モデル)では、推論中に後で遭遇する可能性のあるデータでモデルをトレーニングして、新しいインプットに応答する能力を損なうことを避けるために、交差検証と厳密なデータ処理を実施することが不可欠です。トレーニング中に影響を受けない別のホールドアウト・セットを使用することで、漏洩に対する保護が強化されます。
特徴の重要度は、モデルが予測中に利用できないデータに依存しているかどうかを明らかにすることができます。データとモデル予測の視覚化により、漏洩を示すパターンや異常が判明する可能性があります。また、各領域の専門家は、モデルが非現実的または利用不可能なデータを使用しているかどうかを特定するためにモデルを精査し、問題のある特徴の発見を支援してくれます。
データの漏洩を防ぐために、組織は慎重なデータの取り扱いと体系的な評価に取り組む必要があります。ここでは、いくつかの重要な実践方法をご紹介します。
データの前処理:セット間の情報漏洩を防ぐために、スケーリングや欠損値の代入などの前処理手順をトレーニング・セットとテスト・セットに個別に適用します。スケーリング、エンコード、代入などの前処理をトレーニング・セットとテスト・セットに対して個別に実行し、可能な限りパイプラインを自動化します。
適切なデータ分割:トレーニング・セットとテスト・セットを正しく分割します。慎重に計画されたトレーニングおよびテストの分割により、テスト・セットの情報がトレーニング・フェーズに漏れることを防止します。時間に依存するデータの場合は、将来の情報を含むデータがトレーニング・プロセスに入るのを防ぐために、時系列に分割します。漏洩をチェックするには、トレーニング中に使用されていない、現実世界のデータを代表する個別の検証セットを維持します。
交差検証:K分割交差検証を使用して、データの複数のサブセットでモデルをテストします。これにより、潜在的な漏洩を発見して一般化を改善できます。
特徴量エンジニアリング:将来の情報を含むデータを導入する特徴の作成は避けてください。特徴をレビューして、予測時に利用可能なもののみが反映されていることを確認します。特徴の関連性を定期的に評価して、それらが適切であることを確認し、予測時に利用できない情報が導入されないようにします。
時間ベースの検証:時系列データの場合は、時間ベースの検証を使用して、現実世界の性能を模倣します。これにより、過去のデータを使用して将来の結果を予測し、将来のデータ漏洩を回避できるようになります。トレーニング中に将来の情報を含むデータからの漏洩を避けるために、ローリング期間検証やウォークフォワード検証などの手法を使用して、時系列データを慎重に処理します。
定期的なモデル評価:トレーニングおよびテスト中に性能を継続的に監視し、漏洩を示す予期せぬ変化を検知します。
データの漏洩にはもう1つの定義があります。これは機械学習とは関係なく、データ・セキュリティーの観点から意図せずにデータが漏洩することを指します。データ損失防止(DLP)におけるデータの漏洩は、機密情報が意図せず権限のない第三者に公開された場合に生じます。例えば、クラウド・ストレージ・サーバーの構成が誤っていると、個人情報(PII)や企業秘密に簡単にアクセスできる可能性があります。
データ漏洩の最も一般的な原因は、従業員がノートPCを置き忘れたり、Eメールやメッセージング・プラットフォームで機密情報を共有したりするなどのヒューマン・エラーです。ハッカーは、公開されたデータを使用して個人情報を盗んだり、クレジットカードの詳細情報を盗んだり、ダークウェブでデータを販売したりする可能性があります。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。