S
Smarter Business

3分で読める「ここまで来たAIOps!」2.AIOpsと自動化技術による運用の効率化・高度化(前編)

post_thumb

谷松 清孝
日本アイ・ビー・エム
IBMコンサルティング事業本部
ハイブリッド・クラウド・サービス
アソシエイト・パートナー

 

三島 善行
日本アイ・ビー・エム
IBMコンサルティング事業本部
ハイブリッド・クラウド・マネージメント
シニア・プロジェクト・マネージャー

 

小林 武彦
日本アイ・ビー・エム
IBMコンサルティング事業本部
AIOps Technology IT Architect

2. AIOpsと自動化技術による運用の効率化・高度化

前回の記事では、ITシステム運用の課題を説明しましたが、今回はITシステム運用の課題を解消・軽減することを目的とした技術であるAIOpsと自動化技術の動向について説明します。

AIOpsを用いた運用高度化がここ数年、話題になっています。「運用」というとITIL(Information Technology Infrastructure Library)のサービス・マネージメント・プラクティスに様々なカテゴリーが定義されていますが、今回はサービスの可用性に影響する「モニタリング(イベント検知)およびイベント管理」「インシデント管理」に注目し、AIOpsの観点から見ていきたいと思います。

イベント検知~AIを用いたイベント検知高度化~

モニタリング(イベントの検知)は、監視対象のメトリクスが一定の閾値を超えたら通知する閾値監視が一般的です。例としてメモリーの使用率が一定期間連続で90%を超えたら異常通知、などが挙げられます。またあらかじめ定義したエラー・ログが出力された際に通知するログ監視もよく利用されると思います。これらの通知は事前に検知ルールを定義する必要があり、その管理が煩雑になります。また、想定できるイベントしか検知ができず、事前に想定できていないイベントは検知することができません。そのため、想定できていない通常と異なる挙動が発生した場合、システムの障害の検知が遅れてしまいます。

そこでAIを用いてイベント検知の高度化を行います。CPUやメモリの使用率といったリソースメトリクスについて、一般的な閾値による監視ではなく、平常時と異なるリソース利用量の変化が発生した場合に検知を行います。例えば、平時では朝9時~10時はピーク時間帯でメモリ使用量が90%程度でその他の時間帯は50%程度であるにも関わらず、ある日の夕方ではメモリ使用量が80%を超えた、といったケースです。

通常の閾値監視ですと、時間帯に応じた閾値を設定することは難しいと思います。このケースでは、閾値を90%としておくのではないかと思います。しかしその場合、夕方にメモリー使用量が80%を超え、通常と異なる事象が発生していることを検知できません。システムとしてはメモリー使用量が90%を超えていないので問題ない状況ですが、業務としては異常な状態かもしれません。こうしたケースでもAIに平常時のリソース利用量の推移を学習させモデルを作成することで、固定的な閾値監視ではなく、平常時と異なる挙動を検知できるようになるため、夕方のメモリー使用量の変化を検知することが可能になります。

また、システム・ログなどを利用し、アプリケーションの異常な状態を検知する「ログ異常検知」もあります。従来のログ監視では、ログ・レベルを設定し、エラーやクリティカル・レベルのログのみを監視することが多いと思いますが、この方法ではあらかじめ想定された異常しか検知できません。通常時に出力されるログを可能な限り多くAIに学習させることにより、通常状態と異なるログが出力された場合に検知します。ログ監視ではこうすることで、想定できていないシステムの異常な挙動を検知することが可能になります。

さらに、ゴールデン・シグナルと言われるユーザーに影響を与える可能性のある異常を検知するアプリケーション・パフォーマンス・マネージメント(APM)もあります。1つ1つのリソースやログの監視ではなく、ユーザーに対するレスポンス遅延などユーザー体験の低下につながるイベントを検知します。こうしたAIOpsの機能を活用することで、イベントの検知を高度化していきます。

次回の記事

ITシステム運用を高度化するためには、イベントの検知だけでは不十分です。ユーザー影響を最小化するために対処の自動化が必要ですし、高度化を推進していくためにイベントの管理や分析が必要になります。次回は対処の自動化や管理・分析に関してご説明します。