異常検知とは何ですか。
Databandはこちら
画面につながるデータ・ソースを示す図

公開日:2023年12月12日
寄稿者:Joel Barnard

異常検知とは何ですか。

異常検知とは、標準の状態や想定から逸脱していて、データ・セットの残りの部分と一致しない観測結果、事象、データ・ポイントを特定することを指し、外れ値検知ともいいます。

異常検知は統計の分野で長い歴史があります。かつてはアナリストや科学者が図表を精査して、異常とみられる要素を探していました。現代の異常検知は人工知能(AI)機械学習(ML)を活用し、データ・セットの通常の振る舞いの予期せぬ変化を自動的に特定します。

異常なデータが存在する場合、例えばインフラストラクチャーの障害、上流のソースからの破壊的変更、セキュリティーの脅威など、水面下で発生した重大なインシデントを示している可能性があります。また異常なデータの存在から、アーキテクチャーの最適化やマーケティング戦略の改善の余地が浮き彫りになることもあります。

異常検知はさまざまな業種で幅広いユースケースがあります。例えば金融では不正アクセス検知、製造では欠陥や装置不具合の特定、サイバーセキュリティーでは異常なネットワーク・アクティビティーの検知、医療では患者の異常の特定に使用されています。

異常の発生はまれであることが多く、また正常な振る舞いの特性は複雑で変化するため、外れ値検知は簡単ではない場合があります。ビジネスの観点から見て、誤検知やデータのノイズではない本物の異常を見極めることは不可欠です。

IBM Databandのデモを今すぐ予約する

プロアクティブなデータの可観測性が、データ・インシデントの早期発見と迅速な解決にどのように役立つかをご覧ください。

関連コンテンツ

IBMニュースレターの購読

異常検知が重要な理由

データサイエンスの分野では、データの異常は重大な影響を及ぼす可能性があり、誤った結論や誤解を招く結論につながりかねません。例えば、外れ値が1つ存在することによって、データ・セットの平均が大きく歪み、データを正確に表していない平均値となる恐れがあります。また、データの異常は機械学習アルゴリズムのパフォーマンスに影響する場合もあります。データの基本パターンではなくノイズに適合したモデルとなる可能性があるためです。

データの異常を特定して対処することは、次のような理由からきわめて重要です。

データ品質の向上:データの異常を特定し対処することで、データ品質を大幅に向上させることができます。正確で信頼性の高いデータ分析には品質の高さが不可欠です。アナリストはデータの異常に対処することでデータ・セットのノイズやエラーを減らし、実際の基本パターンに沿ったデータを得ることができます。

意思決定の強化:データに基づく意思決定は、正確で信頼性の高いデータ分析が判断の土台となります。アナリストはデータの異常を特定し対処することで結果の信頼性を高め、より良い情報に基づいた意思決定の実現と、結果の改善につなげることができます。

機械学習のパフォーマンスの最適化:データの異常は機械学習アルゴリズムのパフォーマンスに大きく影響することがあります。データの基本パターンではなくノイズに適合したモデルとなる可能性があるためです。アナリストはデータの異常を特定し対処することで機械学習モデルのパフォーマンスを最適化し、正確で信頼性の高い予測を実現できます。

異常の種類

異常検知システムで発見できるデータの異常は、意図しない異常と意図的な異常の2種類に大別できます。

意図しない異常とは、データ収集プロセスでのエラーやノイズが原因で標準から逸脱したデータ・ポイントのことです。こうしたエラーは系統的に生じる場合とランダムな場合とがあり、センサーの故障やデータ入力時の人為的ミスなどの問題に起因します。意図しない異常でデータ・セットが歪むことがあり、正確なインサイトの獲得が困難になります。

一方、意図的な異常とは、特定の行動や出来事が原因で標準から逸脱したデータ・ポイントのことです。こうした異常から、特異な現象や傾向が浮き彫りとなって、データ・セットに関する貴重なインサイトが得られることがあります。

例えば、ホリデー・シーズン中に売上が急増することは意図的な異常とみなせる可能性があります。通常の売上パターンからは逸脱しているものの、現実世界の出来事から想定できる変化だからです。

ビジネス・データに関しては、主な時系列データ異常として、点異常、文脈依存型異常、集団型異常という3種類があります。

点異常とは、データ・セットの大部分から大きく外れて存在する個々のデータ・ポイントのことで、グローバル外れ値とも呼ばれます。意図的な異常と意図しない異常のどちらの場合もあり、エラー、ノイズ、特異な現象に起因することがあります。

点異常の例としては、銀行口座でこれまでの引き出し額を大幅に上回る多額の引き出しが行われるケースが挙げられます。

文脈依存型異常とは、特定のコンテキストにおいて標準から逸脱しているデータ・ポイントのことです。単独で見た場合には必ずしも外れ値ではないものの、特定のコンテキストのもとで見ると異常とみなされます。

例えば家庭のエネルギー使用量を考えてみましょう。通常家に誰もいない真昼にエネルギー消費量が急増した場合、文脈依存型異常と考えられます。このデータ・ポイントは、通常家に人がいる朝夕の時間帯のエネルギー使用量と比較した場合には外れ値ではないかもしれませんが、現象が発生した時間帯というコンテキストからすると異常です。

集団型異常は、個々のデータ・インスタンスとしては正常に見えても、全体として見ると標準から逸脱しているデータ・インスタンスの一群が該当します。

集団型異常の例としては、ネットワーク・トラフィックのデータ・セットにおいて、あるタイミングで複数のIPアドレスからのトラフィックが突然急増するケースが挙げられます。

異常検知のメソッド

データの異常を検知するために異常検知システムを使用することは、データ分析の重要な側面であり、正確で信頼できる結果の獲得につながります。異常検知システムの構築で使用できる異常検知のメソッドには、次のようなさまざまな種類があります。

視覚化はデータの異常を検知する強力な手段です。データに含まれる潜在的な外れ値やパターンをデータサイエンティストが迅速に特定できます。チャートやグラフを使用してデータをプロットすることで、データ・セットに異常なデータ・ポイントや傾向がないかをアナリストが視覚的に検査できます。

統計的検定は、予想される分布またはパターンと観測データとをデータサイエンティストが比較してデータの異常を検知するために使用できます。

例えばグラブス検定では、各データ・ポイントをデータの平均および標準偏差と比較して、データ・セット内の外れ値を特定できます。同様に、コルモゴロフ・スミルノフ検定では、データ・セットが正規分布などの特定の分布に従っているかどうかを判断できます。

機械学習アルゴリズムは、データの基本パターンを学習したうえで、そのパターンからの逸脱を特定することで、データの異常を検知するために使用できます。ML異常検知アルゴリズムでは次のようなものが特に一般的です。

  • 決定木:決定木の一種であるアイソレーション・フォレストは、特徴量をランダムに選択したうえで、その最大値と最小値の間の分割値をランダムに選択する方法によって異常値を分離するアンサンブル学習法です。

  • ワンクラス・サポート・ベクター・マシン(SVM):ワンクラスSVMは、「正常」なインスタンスのみでトレーニングを行う分類アルゴリズムの技法のひとつで、正常なデータを含む境界を確立することを目的としています。この境界の外側にあるインスタンスは異常とみなされます。

  • k近傍法(k-NN)k-NNは、k個の近傍点のうちで多数派のクラスに基づいてデータ・ポイントを分類する単純なアルゴリズムです。同じクラスの近傍点が著しく少ないインスタンスは異常とみなすことができます。

  • 単純ベイズ法:要因の存在に基づいて事象が発生する確率を定義し、同じ根本原因との関係を検知することによって機能する手法です。

  • オートエンコーダー:ニューラル・ネットワークの一種。タイム・スタンプ付きのデータを使用してデータのパターンを予測し、過去のデータと一致しない異常を特定します。

  • 局所外れ値因子法(LOF):LOFは密度ベースのアルゴリズムです。データ・ポイントの局所的な密度の偏差を測定し、近傍と比較します。近傍に比べて著しく密度が低いデータ・ポイントは外れ値とみなされます。

  • k平均法:k平均法はクラスタリング手法のひとつです。ラベルなしのデータ・ポイントの平均距離を分析し、それに基づいて個々のグループへのクラスタリングを行います。
異常検知の手法

異常検知アルゴリズムは、さまざまな機械学習トレーニング手法を使用して、パターンの識別と異常データの検知を学習できます。データ・チームのトレーニング・データ・セットに含まれるラベル付きデータの有無やその量に応じて、教師なし、教師あり、半教師ありの主な異常検知手法のうちのどれを使用するかが決まります。

教師なし異常検知の手法では、データ・エンジニアはラベルなしのデータ・セットをモデルに与えてトレーニングします。モデルはこのデータ・セットを使用して、パターンや異常を自ら発見します。この手法は、適用できる用途の広さと関連性から、圧倒的に多く利用されていますが、膨大なデータ・セットと計算能力が必要です。教師なし機械学習は人工ニューラル・ネットワークに依存するディープラーニングのシナリオで最もよく見られます。

教師あり異常検知の手法では、正常なデータと異常なデータの両方のインスタンスを含むラベル付きデータ・セットでトレーニングしたアルゴリズムを使用します。ラベル付きのトレーニング・データが一般的に利用できないことや、正常クラスと異常クラスが本質的に不均衡であることから、この異常検知手法はほとんど使用されません。

半教師ありの手法は、教師なし異常検知と教師あり異常検知の両方の利点を最大限に活用します。限られた量のラベル付きデータをアルゴリズムに与えると、部分的なトレーニングを実行できます。データ・エンジニアは、部分的にトレーニングしたこのアルゴリズムを使用して、より大きなデータ・セットへの自律的なラベル付けを行います。これを「擬似ラベリング」と呼びます。このラベル付けが信頼できることが示された場合、新しくラベル付けしたデータ・ポイントを元のデータ・セットと組み合わせて、アルゴリズムをファイン・チューニングします。

機械学習の自動化のためには、教師あり機械学習と教師なし機械学習の適切な組み合わせを見極めることが不可欠です。人間が介入しない教師なしの手法によってデータ分類の大部分を行えれば理想的です。一方でデータ・エンジニアは、基本状態のベースラインの確立に役立つトレーニング・データをアルゴリズムに与えることができなくてはなりません。半教師ありの手法では、異常検知の拡張に対応しつつ、個々の異常に関する手動のルールを柔軟に作成できます。

異常検知のユースケース

異常検知のモデルは、不正取引、マネー・ロンダリング、クレジット・カード詐欺、偽の確定申告請求、異常な取引パターンなどの不正行為をリアルタイムで特定するために、銀行、保険、証券業界で広く利用されています。

サイバーセキュリティーでは、侵入検知システム(IDS)が異常検知を利用してネットワーク・トラフィックにおける異常または不審なアクティビティーを特定し、マルウェア感染や不正アクセスなど、潜在的なセキュリティーの脅威や攻撃を明らかにします。

医療業界では、通常と異なる患者の状態や異常を医療データの中から特定するために異常検知が使用されており、病気の検知、患者の健康状態の監視、より効果的な治療を可能にしています。

製造業では、異常検知アルゴリズムとコンピューター・ビジョンを使用して、高解像度のカメラ映像、センサーのデータ、生産のメトリクスを分析することで、製品や梱包の欠陥を特定しています。

ITシステムでは、パフォーマンスを監視してスムーズな運用を継続するために異常検知が使用されています。異常なパターンをサーバーのログの中から特定し、パターンや過去の経験に基づいて障害の全体像を推測して、潜在的な問題や障害を予測します。

航空、エネルギー、輸送などの業界では、設備の故障予測やメンテナンスの必要性の予測に異常検知が役立っています。IoT(モノのインターネット)ベースのセンサーを使用して産業装置からデータを収集し、逸脱を特定し、将来の故障を予測します。

エネルギーに関しては、消費パターンを監視して使用状況の異常を特定するために異常検知が使用されており、より効率的なエネルギー管理と設備の故障の早期検知を可能にしています。

eコマースでは、偽のレビュー、アカウントの乗っ取り、異常な購入などの不正行為を特定するために異常検知が使用されています。

また企業は、顧客の行動から通常と異なるパターンを特定する目的でも異常検知モデルを使用し、不正アクセス検知、顧客離れの予測、マーケティング戦略の改善に役立てています。

関連製品
IBM Databand

IBM® Databand®は可観測性ソフトウェアで、メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知してトリアージ・アラートを発信し、データ品質の問題を修復するデータ・パイプラインとデータ・ウェアハウスに対応しています。

Databandはこちら

IBM DataStage

IBM® DataStage®はETLとELTのパターンをサポートしており、オンプレミスにもクラウドにも対応する柔軟でほぼリアルタイムのデータ統合を実現します。

データステージを探索

IBM Knowledge Catalog

IBM® Knowledge CatalogはAI時代を支えるインテリジェントなデータ・カタログで、データと知識資産、そしてその関係へのアクセス、管理、分類、共有を可能にします。

ナレッジカタログを探索する
参考情報 Databandの異常検知でデータ配信の期限を遵守

この記事では、データ・チームがDatabandの異常検知を活用してデータ・パイプラインの問題の特定を迅速化し、自ら設定したデータのSLAの達成を容易にする方法について紹介します。

教師あり学習と教師なし学習

教師ありと教師なしというデータサイエンスの2つのアプローチについて、基本を学びます。どちらのアプローチが自身の状況に合っているかを見極めてください。

データの品質、価値、信頼性を確保する方法

高品質のデータを確保することは、データエンジニアと組織全体の責任です。この記事では、データ品質の重要性、データを監査および監視する方法、主要な関係者から同意を得る方法について説明しています。

次のステップ

IBM Databand を使用してプロアクティブなデータ可観測性を今すぐ実装して、データの健全性の問題が発生したことをユーザーよりも前に知ることができます。

Databandはこちら