異常値検知、または外れ値検知は、通常、標準、または期待されるものから逸脱し、データ・セットの残りの部分と矛盾する観測、イベント、またはデータ・ポイントを識別することです。
異常検知は統計の分野で長い歴史があります。かつてはアナリストや科学者が図表を精査して、異常とみられる要素を探していました。現代の異常検知は人工知能(AI)と機械学習(ML)を活用し、データ・セットの通常の振る舞いの予期せぬ変化を自動的に特定します。
異常なデータが存在する場合、例えばインフラストラクチャーの障害、上流のソースからの破壊的変更、セキュリティーの脅威など、水面下で発生した重大なインシデントを示している可能性があります。また異常なデータの存在から、アーキテクチャーの最適化やマーケティング戦略の改善の余地が浮き彫りになることもあります。
異常検知はさまざまな業種で幅広いユースケースがあります。例えば金融では不正アクセス検知、製造では欠陥や装置不具合の特定、サイバーセキュリティーでは異常なネットワーク・アクティビティーの検知、医療では患者の異常の特定に使用されています。
異常の発生はまれであることが多く、また正常な振る舞いの特性は複雑で変化するため、外れ値検知は簡単ではない場合があります。ビジネスの観点から見て、誤検知やデータのノイズではない本物の異常を見極めることは不可欠です。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
データサイエンスの分野では、データの異常は重大な影響を及ぼす可能性があり、誤った結論や誤解を招く結論につながりかねません。例えば、外れ値が1つ存在することによって、データ・セットの平均が大きく歪み、データを正確に表していない平均値となる恐れがあります。また、データの異常は機械学習アルゴリズムの性能に影響する場合もあります。データの基本パターンではなくノイズに適合したモデルとなる可能性があるためです。
データの異常を特定して対処することは、次のような理由からきわめて重要です。
データ品質の向上:データの異常を特定し対処することで、データ品質を大幅に向上させることができます。正確で信頼性の高いデータ分析には品質の高さが不可欠です。アナリストはデータの異常に対処することでデータ・セットのノイズやエラーを減らし、実際の基本パターンに沿ったデータを得ることができます。
意思決定の強化:データに基づく意思決定は、正確で信頼性の高いデータ分析が判断の土台となります。アナリストはデータの異常を特定し対処することで結果の信頼性を高め、より良い情報に基づいた意思決定の実現と、結果の改善につなげることができます。
機械学習の性能の最適化:データの異常は機械学習アルゴリズムの性能に大きく影響することがあります。データの基本パターンではなくノイズに適合したモデルとなる可能性があるためです。アナリストはデータの異常を特定し対処することで機械学習モデルの性能を最適化し、正確で信頼性の高い予測を実現できます。
異常検知システムは、意図的でない異常と意図的な異常の2種類の異常を検知することができます。
意図しない異常とは、データ収集プロセスでのエラーやノイズが原因で標準から逸脱したデータ・ポイントのことです。こうしたエラーは系統的に生じる場合とランダムな場合とがあり、センサーの故障やデータ入力時の人為的ミスなどの問題に起因します。意図しない異常でデータ・セットが歪むことがあり、正確なインサイトの獲得が困難になります。
意図的な異常とは、特定の行動や出来事によって標準から逸脱したデータ・ポイントのことです。こうした異常から、特異な現象や傾向が浮き彫りとなって、データ・セットに関する貴重な洞察が得られることがあります。例えば、ホリデー・シーズン中に売上が急増することは意図的な異常とみなせる可能性があります。通常の売上パターンからは逸脱しているものの、現実世界の出来事から想定できる変化だからです。
ビジネス・データには、ポイントアノマリー、コンテクスチュアル・アノマリー、コレクティブ・アノマリーという3つの主要な時系列データのアノマリーが存在します。
点異常とは、データ・セットの大部分から大きく外れて存在する個々のデータ・ポイントのことで、グローバル外れ値とも呼ばれます。これは意図的なものであれ、意図的でないものであれ、エラーやノイズ、あるいは特殊な現象に起因するものです。点異常の例としては、銀行口座でこれまでの引き出し額を大幅に上回る多額の引き出しが行われるケースが挙げられます。
文脈上の異常とは、特定の文脈の中で標準から逸脱したデータ・ポイントのことです。これらの異常は、単独で考えれば必ずしも外れ値ではないが、特定の文脈の中で見れば異常となります。
例えば家庭のエネルギー使用量を考えてみましょう。通常家に誰もいない真昼にエネルギー消費量が急増した場合、文脈依存型異常と考えられます。このデータ・ポイントは、通常家に人がいる朝夕の時間帯のエネルギー使用量と比較した場合には外れ値ではないかもしれませんが、現象が発生した時間帯というコンテキストからすると異常です。
集団型異常は、個々のデータ・インスタンスとしては正常に見えても、全体として見ると標準から逸脱しているデータ・インスタンスの一群が該当します。集団型異常の例としては、ネットワーク・トラフィックのデータ・セットにおいて、あるタイミングで複数のIPアドレスからのトラフィックが突然急増するケースが挙げられます。
データの異常を検知するために異常検知システムを使用することは、データ分析の重要な側面であり、正確で信頼できる結果の獲得につながります。異常検知システムの構築で使用できる異常検知のメソッドには、次のようなさまざまな種類があります。
視覚化はデータの異常を検知する強力なツールです。データに含まれる潜在的な外れ値やパターンをデータサイエンティストが迅速に特定できます。チャートやグラフを使用してデータをプロットすることで、データ・セットに異常なデータ・ポイントや傾向がないかをアナリストが視覚的に検査できます。
統計的検定は、予想される分布またはパターンと観測データとをデータサイエンティストが比較してデータの異常を検知するために使用できます。
例えばグラブス検定では、各データ・ポイントをデータの平均および標準偏差と比較して、データ・セット内の外れ値を特定できます。同様に、コルモゴロフ・スミルノフ検定では、データ・セットが正規分布などの特定の分布に従っているかどうかを判断できます。
機械学習アルゴリズムは、データの基本パターンを学習し、そのパターンからの逸脱を特定することで、データの異常を検知するために使用できます。最も一般的なML異常検知アルゴリズムには、以下のようなものがあります。
異常検知アルゴリズムは、さまざまな機械学習トレーニング手法を使用して、パターンの識別と異常データの検知を学習できます。データ・チームのトレーニング・データ・セットに含まれるラベル付きデータの有無やその量に応じて、教師なし、教師あり、半教師ありの主な異常検知手法のうちのどれを使用するかが決まります。
教師なし異常検知の手法では、データ・エンジニアはラベルなしのデータ・セットをモデルに与えてトレーニングします。モデルはこのデータ・セットを使用して、パターンや異常を自ら発見します。この手法は、適用できる用途の広さと関連性から、圧倒的に多く利用されていますが、膨大なデータ・セットと計算能力が必要です。教師なし機械学習は人工ニューラル・ネットワークに依存するディープラーニングのシナリオで最もよく見られます。
教師あり異常検知の手法では、正常なデータと異常なデータの両方のインスタンスを含むラベル付きデータ・セットでトレーニングしたアルゴリズムを使用します。ラベル付きのトレーニング・データが一般的に利用できないことや、正常クラスと異常クラスが本質的に不均衡であることから、この異常検知手法はほとんど使用されません。
半教師ありの手法は、教師なし異常検知と教師あり異常検知の両方の利点を最大限に活用します。限られた量のラベル付きデータをアルゴリズムに与えると、部分的なトレーニングを実行できます。データ・エンジニアは、部分的にトレーニングしたこのアルゴリズムを使用して、より大きなデータ・セットへの自律的なラベル付けを行います。これを「擬似ラベリング」と呼びます。このラベル付けが信頼できることが示された場合、新しくラベル付けしたデータ・ポイントを元のデータ・セットと組み合わせて、アルゴリズムをファイン・チューニングします。
機械学習の自動化のためには、教師あり機械学習と教師なし機械学習の適切な組み合わせを見極めることが不可欠です。人間が介入しない教師なしの手法によってデータ分類の大部分を行えれば理想的です。一方でデータ・エンジニアは、基本状態のベースラインの確立に役立つトレーニング・データをアルゴリズムに与えることができなくてはなりません。半教師ありの手法では、異常検知の拡張に対応しつつ、個々の異常に関する手動のルールを柔軟に作成できます。
異常検知のモデルは、不正取引、マネー・ロンダリング、クレジット・カード詐欺、偽の確定申告請求、異常な取引パターンなどの不正行為をリアルタイムで特定するために、銀行、保険、証券業界で広く利用されています。
侵入検知システム(IDS)やその他のサイバーセキュリティー・テクノロジーは、検知を使用して、異常または疑わしいユーザー・アクティビティーやネットワーク・トラフィック・パターンを特定し、マルウェア感染や不正アクセスなどの潜在的なセキュリティー脅威や攻撃を示します。
異常検知アルゴリズムは、高解像度のカメラ映像、センサー・データ、メトリクスを分析することにより、製品や包装の欠陥を特定するために、多くの場合コンピューター・ビジョンとともに採用されます。
異常検知は、ITシステムの性能を監視し、サーバーログの異常なパターンを特定し、パターンやエクスペリエンスから障害を再構築し、潜在的な問題や障害を予測することで、オペレーションを円滑に進めるために使用することができます。
航空、エネルギー、輸送などの業界における異常検知は、モノのインターネット(IoT)センサーや運用技術(OT)デバイスからのデータの異常を識別することで、機器の故障やメンテナンスの必要性を予測するのに役立ちます。エネルギーに関しては、消費パターンを監視し、使用状況の異常を特定するために異常検知を使用すると、より効率的なエネルギー管理と設備の故障の早期検知につながります。
加盟店は、異常検知モデルを使用して顧客行動の異常なパターンを特定し、不正アクセス検知、顧客離れの予測、マーケティングストラテジーの改善に役立てることができます。eコマースでは、偽のレビュー、アカウントの乗っ取り、異常な購入行動、その他の詐欺やサイバー犯罪の兆候を特定するために異常検知が使用されています。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。