機械学習における異常検知:業務を最適化するための外れ値の特定

著者

Camilo Quiroz-Vázquez

IBM Staff Writer

機械学習における異常検知

企業が潜在的なインサイトを備えたより大規模なデータ・セットを収集し、ビジネス活動に活かす際、データ・セットに含まれる異常なデータや外れ値を検出することは、非効率性、めったに発生しない事象、問題の根本的な原因、または業務改善の機会を発見する上で不可欠です。しかし、異常とはどういったもので、なぜ検知することが重要なのでしょうか。

異常の種類は、企業や業務によって異なります。異常検出とは、単に業務内容とその目標に基づいて「正常な」パターンと指標を定義し、運用上の通常の動作から外れたデータ・ポイントを識別することを意味します。たとえば、ある一定の期間、ウェブサイトやアプリケーションのトラフィックが平均より高くなった場合、サイバーセキュリティ上の脅威の兆候かもしれません。その場合、不正行為検出アラートを自動的にトリガーできるシステムが必要です。あるいは、単にあるマーケティング戦略が上手くいっていることを示している可能性もあります。異常は本質的に悪いものではありませんが、異常を認識し、状況を理解するためのデータを所有することは、ビジネスを理解し、保護するためには不可欠です。

データサイエンスに取り組むIT部門が抱える課題は、拡大し、変化し続けるデータ・ポイントを理解することです。本ブログでは、人工知能を活用した機械学習技術を用いた、教師あり異常検知、教師なし異常検知、半教師あり異常検知という3つの異なる異常検知方法で、異常な動作を検知する方法について説明します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

教師あり学習

教師あり学習手法では、実世界のインプット・データとアウトプット・データを使用して異常を検知します。これらのタイプの異常検知システムでは、データ・アナリストがデータ・ポイントを正常もしくは異常としてラベル付けし、トレーニング・データとして使用する必要があります。ラベル付きデータでトレーニングされた機械学習モデルは、与えられた例に基づいて外れ値を検出できます。このタイプの機械学習は、既知の異常値の検出には役立ちますが、未知の異常を発見したり、将来の問題を予測したりすることはできません。

教師あり学習の一般的な機械学習アルゴリズムには、次のようなものが挙げられます:

k近傍(KNN)アルゴリズム

 

このアルゴリズムは、異常検出に使用される密度ベースの分類器または回帰モデリング・ツールです。回帰モデリングは、ラベル付きデータと変数データの間の関係を見つけるために使用される統計ツールです。これは、類似したデータ・ポイントは互いに近くに存在するという仮定に基づいて機能します。データ・ポイントが点の密集したセクションから大きく離れた場所に存在する場合、それは異常とみなされます。

局所外れ値因子法(LOF)

 

局所外れ値因子法は、密度ベースのアルゴリズムであるという点でKNNに似ています。主な違いは、KNNが互いに最も近いデータ・ポイントに基づいて推定を行うのに対し、LOFは局所も密度の高いデータ・ポイントから遠くに離れている点を外れ値と結論づける点です。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

教師なし学習

教師なし学習手法では、ラベル付きデータを必要とせず、より複雑なデータ・セットの処理が可能です。教師なし学習は、生物学的ニューロンが互いに信号を送る方法を模倣したディープラーニングニューラル・ネットワーク、またはオート・エンコーダーによって実現されます。これらの強力なツールは、入力データからパターンを見つけ、どのデータが正常と認識されるか推定を行うことができます。

これらの手法は、未知の異常を発見し、大規模なデータセットを手動でふるいにかける作業を減らすのに大いに役立ちます。ただし、データサイエンティストは、教師なし学習によって収集された結果をモニタリングする必要があります。これらの手法は、入力されたデータについて推定を行っているため、異常値に誤ってラベルを付ける可能性があります。

非構造化データ向けの機械学習アルゴリズムには次のようなものが挙げられます:

  • k平均法
  • アイソレーション・フォレスト
  • ワンクラス・サポート・ベクター・マシン(SVM)

k平均法

 

このアルゴリズムは、類似したデータ・ポイントをクラスタリングすることを目的として、データ・ポイントを数式で処理するデータ視覚化手法です。「平均」(または平均データ)は、他のすべてのデータが関連するクラスターの中心のポイントを指します。データ分析を通じて、このクラスターを使用してパターンを見つけ、平均から外れたデータについて推論することができます。

アイソレーション・フォレスト

 

このタイプの異常検知アルゴリズムは教師なしデータを使用します。ラベル付けされた正常なデータ・ポイントによって機能する教師あり異常検知手法とは異なり、この手法は最初のステップで異常を分離することを試みます。「ランダムフォレスト」と同様に、データ・ポイントをマッピングし、分析する領域をランダムに選択する「決定木」を作成します。このプロセスが繰り返され、他のポイントまでの位置に基づき各ポイントは0から1の間の異常スコアを獲得します。値が0.5未満の場合は通常、正常とみなされ、しきい値を超えた値は異常である可能性が高くなります。アイソレーション・フォレスト・モデルは、Python用の無料機械学習ライブラリscikit-learn(リンクはibm.com外部にあります)で見つけられます。

ワンクラス・サポート・ベクター・マシン(SVM)

 

この異常検出手法は、トレーニング・データを使用して、正常と見なされるデータの境界線を作成します。設定された境界内にあるクラスター化されたポイントは正常と見なされ、境界の外側にあるポイントは異常としてラベル付けされます。

半教師あり学習

半教師あり異常検知手法は、上記の2つの手法のメリットを組み合わせたものです。エンジニアは、教師なし学習法を活用して特徴の学習を自動化し、非構造化データを扱うことができます。ですが、人間による監督と組み合わせることで、モデルがどのようなパターンを学習するか監視し、コントロールすることが可能になります。この取り組みは通常、モデルの予測精度を高めるのに有益です。

線形回帰:この予測型機械学習ツールは、従属変数と独立変数の双方を使用します。一連の統計方程式を通じて従属変数の値を決定するための基礎として、独立変数は使用されます。情報が部分的にしかわからない状況下で将来の結果を予測するために、これらの方程式はラベル付きデータとラベルなしデータを使用します。

異常検知のユースケース

異常検知は、さまざまな業界において事業を維持、改善するための重要なツールです。使用される教師あり、教師なし、半教師ありの学習アルゴリズムは、収集するデータの種類と解決すべき業務上の課題に応じて変わります。異常検出のユースケースには、次のようなものがあります。

教師あり学習のユースケース:

小売

 

前年の売上合計からを元にしたラベル付きデータを使用することで、将来の売上目標を予測することができます。また、過去の実績や会社全体のニーズに基づき、ある営業担当者の成果の基準を設定するのにも役立ちます。すべての販売データが既知のものであるため、パターンを分析し、製品、マーケティング、季節による変動に関する洞察を得ることができます。

天気予報

 

履歴データを使用することで、教師あり学習アルゴリズムは気象パターンの予測を支援します。気圧、気温、風速に関する最近のデータを分析することで、気象学者は状況の変化を考慮した、より正確な予報を作成することができます。

教師なし学習のユースケース:

侵入検知システム

 

このタイプのシステムはソフトウェアまたはハードウェアの形で提供され、セキュリティー違反や悪意のあるアクティビティの兆候がないか、ネットワーク・トラフィックを監視します。機械学習アルゴリズムをトレーニングすることで、ネットワークに対する潜在的な攻撃をリアルタイムで検知し、ユーザー情報とシステム機能を保護できるようになります。

これらのアルゴリズムは、時系列データに基づいて通常のパフォーマンスを可視化できます。このデータは、長期間にわたって一定の間隔でデータ・ポイントを分析したものです。ネットワーク・トラフィックの急増や予期しないトラフィック・パターンは、セキュリティー侵害の可能性があるものとして印をつけ、調査することができます。

製造業

 

機械が適切に機能していることを確認することは、製品の製造、品質保証の最適化、サプライチェーンの維持継続において不可欠です。機器に取り付けられたセンサーからラベル付けされていないデータを取得し、潜在的な故障や不具合について予測を行うことで、教師なし学習アルゴリズムを予知保全に活用することができます。これにより、企業は重大な故障が発生する前に修理を行うことができ、マシンのダウンタイムを短縮できます。

半教師あり学習のユースケース:

医療

 

医療専門家は、機械学習アルゴリズムを使用して、既知の病気や障害を含む画像にラベルを付けることができます。しかし、画像は人により異なるため、異常となり得る所見のすべてにラベル付けすることは不可能です。トレーニングが完了すると、アルゴリズムは患者情報を処理し、ラベルのない画像で推論を行い、異常となりうる所見にフラグを立てることができます。

不正アクセス検知

 

予測アルゴリズムでは、ラベル付きデータとラベルなしデータの両方を必要とする半教師あり学習を使用して、不正行為を検知することができます。ユーザーのクレジットカードの利用記録にはラベルが付けられているため、異常な支出パターンの検出に使用できます。

しかし、不正アクセス検知ソリューションは、以前に詐欺と分類されていたトランザクションだけに依存しているわけではありません。現在の場所、ログイン・デバイス、ラベルのないデータを必要とするその他の要素など、ユーザーの行動に基づいて推定を行うことも可能です。

異常検知の可観測性

異常検知は、パフォーマンス・データに対する可観測性を向上させるソリューションとツールによって実現されます。これらのツールによって異常を迅速に特定できるようになり、問題の防止と修復に活用できます。IBM Instana Observabilityは、人工知能と機械学習を活用して、すべてのチームメンバーに詳細かつコンテキスト化されたパフォーマンス・データの画像を提供し、精度の高いエラー予測と異常発生前のトラブルシューティングが可能になります。

IBM watsonx.ai™は、大規模なデータセットを分析して有意義な洞察を引き出すことができる、強力な生成AIツールを提供します。IBM watson.aiは、迅速かつ包括的な分析を通じて、現在起きている異常の検知と今後起こりうる外れ値の予測に使用可能なパターンや傾向を特定します。watson.aiは、多様なビジネス・ニーズに合わせ、さまざまな業界で活用できます。

関連ソリューション
分析ツールとソリューション

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
IBM Cognos Analytics

より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。

Cognos Analyticsの詳細はこちら
次のステップ

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら 分析サービスを発見する