イベント・タイプ

Instana は、アプリケーションのサービス品質の管理に役立つ 3 種類のイベントを検出します。

インシデント

インシデント は、エッジ・サービスと重要なインフラストラクチャーに影響を与える状況を理解するのに役立ちます。それらの動作と正常性を自動的に学習し、それらが正常でなくなったときにアラートを送信します。エッジ・サービスとは、モニター対象アプリケーション外部の顧客やその他のシステムが実際にアクセスできるサービス、つまりアプリケーションの外部成果物です。

エッジ・サービスでの主要パフォーマンス指標 (KPI) の違反、またはクリティカルなインフラストラクチャーの問題を Instana が検出すると、インシデントが即時に作成されます。詳しくは、 Analyze and Derive Application Health のブログを参照してください。

Instana は、検出されたアプリケーション・サービスの次の KPI を追跡します。

負荷 (呼び出し数/秒)。
待ち時間 (ミリ秒単位の応答時間)。
エラー (エラー率)。

Instana はサービスごとにこれらの KPI を自動的に測定し、各 KPI に対して機械学習を適用して、サービスの正常性を把握します。検出される一般的な問題には次のものがあります。

エラー率が通常よりも高い。
サービスのパフォーマンスが遅い。
負荷が突然低下する。

KPI は、サービスとアプリケーションのすべてのトレースをキャプチャーして分析した上で決定します。トレースは、ステータスコードや例外などのエラーを自動的に捕捉し、問題が発生したかどうかを特定します。トレースでは、各サービスおよびその基盤となるコンポーネントで費やされた時間も測定されます。 Google のDapperアーキテクチャに基づくと、トレースとはスパンで構成されるツリーであり、スパンは処理の基本単位です。マイクロサービスでは、1 スパンは、データベースなどのサービスまたはコンポーネントに対する 1 つの要求に相当します。つまり、アプリケーションのエンドツーエンドのトレースだけでなく、個々のサービス・コンポーネントのパフォーマンスに関する情報も取得することになります。

サービスの正常性が影響を受ける場合、Instana は新しいインシデントを作成します。また、問題とイベントの動的グラフを走査して、インシデントとその他のインシデントを相関付けます。これにより、サービスとイベントの影響に関する状況の概要が判明します。

問題

オンラインで編集する

発行は、通常とは異なる事象が発生した場合にトリガーされるイベントです。

クリティカルなインフラストラクチャーの問題 (ディスク飽和状態や Elasticsearch クラスターのスプリット・ブレーン状態など) の場合、最終結果がデータ損失となる可能性が高いため、インシデントがトリガーされます。

この例では、1 台の Linux マシンの CPU スチール時間が疑わしいため、問題としてマークされています。問題自体はアラートをトリガーしません。Instana は問題が発生したことを単に指摘します。このシステムが接続されているサービスの動作が悪い場合、この問題はインシデントの一部です。この方法は、イベントとパフォーマンスの問題を手動で相関付ける必要がないため、Instana の大きなメリットの 1 つです。ある処理が一時的にCPUを過剰に使用しているからといって、必ずしも問題があるとは限りません。これが問題に関連する情報になるのは、サービスが影響を受ける場合のみです。

Instana は、問題が最初に発生した時刻と、条件が存在しなくなった時刻 (開始時刻と終了時刻) を記録します。この場合、CPU スチールが 2 分 30 秒 (07:08:37 から 07:10:54 まで) にわたり 5% の制限を超えたことが分かります。課題行をクリックすると、課題詳細パネルに詳細が表示されます。 CPU スチールの増加は 17:10 頃に明確になっています。

組み込みイベントの表示 リンクを使用すると、この問題の「イベント」&「アラート」設定内の対応する定義に直接アクセスできます。これにより、特定の問題がどの基準で作成されたかを理解できます。

注。

15分に1回程度の呼び出しなど、トラフィックの発生頻度が低いアプリケーション、サービス、またはエンドポイントは、当社の問題検出において十分な根拠があるとは見なされません。
問題の重大度は、その存続期間中に変化することがあります。これは、この特定の問題が到達した最高の重大度を表します。

変更

オンラインで編集する

環境内での変更には、デプロイ、設定変更、サーバーの起動または停止などが含まれますが、これらに限定されず、以下のように分類されます：

変更 - コンポーネントの構成の変更。
オフライン／オンライン - 管理対象コンポーネントの稼働状況を追跡する。

Instana は、モニター対象の各テクノロジーに固有の関連構成を追跡して変更を認識し、何かがオンラインになる (Instanaによってモニターされる) か、オフラインになる (Instana によってモニターされなくなる) かをモニターします。

すべての変更が記録されます。通常、変更の持続時間 (開始時刻と終了時刻の差) はわずか 1 秒です。問題と同様に、変更イベントも関連性のあるインシデントに相関付けられるため、システムがオフラインになったからといってアラートを出すことはありません。この場合、営業日の終わりに負荷が減少し、不要になったためにオフになった可能性もあります。