イベント・タイプ

Instana は、アプリケーションのサービス品質の管理に役立つ 3 種類のイベントを検出します。

インシデント

インシデント は、エッジ・サービスと重要なインフラストラクチャーに影響を与える状況を理解するのに役立ちます。それらの動作と正常性を自動的に学習し、それらが正常でなくなったときにアラートを送信します。 エッジ・サービスとは、モニター対象アプリケーション外部の顧客やその他のシステムが実際にアクセスできるサービス、つまりアプリケーションの外部成果物です。

エッジ・サービスでの主要パフォーマンス指標 (KPI) の違反、またはクリティカルなインフラストラクチャーの問題を Instana が検出すると、インシデントが即時に作成されます。 詳しくは、 Analyze and Derive Application Health のブログを参照してください。

Instana は、検出されたアプリケーション・サービスの次の KPI を追跡します。

  • 負荷 (呼び出し数/秒)。
  • 待ち時間 (ミリ秒単位の応答時間)。
  • エラー (エラー率)。

Instana はサービスごとにこれらの KPI を自動的に測定し、各 KPI に対して機械学習を適用して、サービスの正常性を把握します。 検出される一般的な問題には次のものがあります。

  • エラー率が通常よりも高い。
  • サービスのパフォーマンスが遅い。
  • 負荷が突然低下する。

KPI は、サービスとアプリケーションのすべてのトレースをキャプチャーして分析した上で決定します。 トレースは、ステータスコードや例外などのエラーを自動的に捕捉し、問題が発生したかどうかを特定します。 トレースでは、各サービスおよびその基盤となるコンポーネントで費やされた時間も測定されます。 Google のDapperアーキテクチャに基づくと、トレースとはスパンで構成されるツリーであり、スパンは処理の基本単位です。 マイクロサービスでは、1 スパンは、データベースなどのサービスまたはコンポーネントに対する 1 つの要求に相当します。 つまり、アプリケーションのエンドツーエンドのトレースだけでなく、個々のサービス・コンポーネントのパフォーマンスに関する情報も取得することになります。

サービスの正常性が影響を受ける場合、Instana は新しいインシデントを作成します。また、問題とイベントの動的グラフを走査して、インシデントとその他のインシデントを相関付けます。 これにより、サービスとイベントの影響に関する状況の概要が判明します。

問題

発行は、通常とは異なる事象が発生した場合にトリガーされるイベントです。

クリティカルなインフラストラクチャーの問題 (ディスク飽和状態や Elasticsearch クラスターのスプリット・ブレーン状態など) の場合、最終結果がデータ損失となる可能性が高いため、インシデントがトリガーされます。

この例では、1 台の Linux マシンの CPU スチール時間が疑わしいため、 問題としてマークされています。 問題自体はアラートをトリガーしません。Instana は問題が発生したことを単に指摘します。 このシステムが接続されているサービスの動作が悪い場合、この問題はインシデントの一部です。 この方法は、イベントとパフォーマンスの問題を手動で相関付ける必要がないため、Instana の大きなメリットの 1 つです。 ある処理が一時的にCPUを過剰に使用しているからといって、必ずしも問題があるとは限りません。 これが問題に関連する情報になるのは、サービスが影響を受ける場合のみです。

Instana は、問題が最初に発生した時刻と、条件が存在しなくなった時刻 (開始時刻と終了時刻) を記録します。 この場合、CPU スチールが 2 分 30 秒 (07:08:37 から 07:10:54 まで) にわたり 5% の制限を超えたことが分かります。 課題行をクリックすると、課題詳細パネルに詳細が表示されます。 CPU スチールの増加は 17:10 頃に明確になっています。

組み込みイベントの表示 リンクを使用すると、この問題の 「イベント」&「アラート」 設定内の対応する定義に直接アクセスできます。 これにより、特定の問題がどの基準で作成されたかを理解できます。

注。

  • 15分に1回程度の呼び出しなど、トラフィックの発生頻度が低いアプリケーション、サービス、またはエンドポイントは、当社の問題検出において十分な根拠があるとは見なされません。
  • 問題の重大度は、その存続期間中に変化することがあります。 これは、この特定の問題が到達した最高の重大度を表します。

変更

環境内での変更には、デプロイ、設定変更、サーバーの起動または停止などが含まれますが、これらに限定されず、以下のように分類されます:

  • 変更 - コンポーネントの構成の変更。
  • オフライン/オンライン - 管理対象コンポーネントの稼働状況を追跡する。

Instana は、モニター対象の各テクノロジーに固有の関連構成を追跡して変更を認識し、何かがオンラインになる (Instanaによってモニターされる) か、オフラインになる (Instana によってモニターされなくなる) かをモニターします。

すべての変更が記録されます。通常、変更の持続時間 (開始時刻と終了時刻の差) はわずか 1 秒です。 問題と同様に、変更イベントも関連性のあるインシデントに相関付けられるため、システムがオフラインになったからといってアラートを出すことはありません。 この場合、営業日の終わりに負荷が減少し、不要になったためにオフになった可能性もあります。