根本原因分析

Instana はインシデントを管理し、根本原因の特定を加速します。 Instana は、インシデント、問題、変更を自動的に検出し、アプリケーションのサービス品質に関する問題の検出、理解、調査を支援します。

現在、DevOps 技術者は、数百個あるいは数千個のコンポーネントから構成される動的アプリケーション環境において、重大な問題に直面しています。物事が壊れたとき、ユーザーがサービスの影響を感じ始める前であっても、できるだけ早く問題を検出し、理解できるようにする必要がある。 DevOps できるだけ早くサービスを復旧させた後、根本原因を正確に修正し、問題が再び発生しないようにする必要がある。 DevOps、問題の根本原因を特定するのに数時間から数日かかることがあり、多くの場合、原因は特定されないままである。

インシデント

オンライン編集

インシデントは最も高い重大度レベルをもたらす。ユーザーがアクセスするエッジサービスが影響を受けたり、影響の切迫したリスクが存在する場合に作成される。ダイナミック・グラフを使用して、各インシデントのすべての関連するイベントが相関付けられて、コンテキストおよび根本原因分析の仮説が提供されます。

あるサービスの応答が突然遅くなることを、 平均待ち時間の突然の増大と呼ぶ。このインシデントは自動的に警告として黄色でマークされます。このインシデントがアクティブになるまで色が表示される。解決後、色はグレーに変わり、ドリルダウンメニューで使用できるようになります。次のインシデントの例をご覧ください。

インシデント詳細ビューは次の 3 つの部分で構成されています。

ヘッダーには、インシデントの主な事実に関する基本情報が表示されます。
- 開始時間
- 終了時刻 (継続している場合は「現行」)
- まだアクティブであるイベントの数
- 関連する変更の数
- 影響を受けるエンティティーの数
インシデントの開始日、終了日（クローズ済みの場合）、現在アクティブなイベント数、このインシデントに関連する変更数、および影響を受けるエンティティの数を表示できます：

図 2. インシデントKPI
2 番目のセクションには、経時的なインシデントの進行状況が視覚的に表示されます。チャートは、開始時間から終了時間までの完全な時間枠と、開始時間順にソートされたすべてのイベントを表示する。このビューが省略されている場合は 7 つのイベントに制限されます。インシデントに一度に 7 つを超えるイベントが含まれている場合は、展開ボタンを押してフル・ビューを表示します。いずれかのバーをクリックすると、その問題の詳細ビューが開きます。

図 3. 発生人口
第3節には、第2節のグラフ表示に関する詳細が含まれています。開始時間順に並べられた全イベントのリストにより、ユーザーは各イベントの利用可能なすべての情報を見ることができる。イベントをクリックすると詳細が表示され、そのイベントに関するすべての利用可能な情報を確認できます：

図 4. インシデント・イベントの拡大

詳細情報はイベントを理解する際に役立ちます。詳細情報の後には、視覚化のために対応するメトリックがプロットされている複数のグラフが続きます。イベントがまだアクティブな場合、グラフは新しい着信メトリック値のレンダリングを続行します。 2つのフラッグが用意されている。 1つのフラグは、イベントがサービスに影響することを強調するもので、もう1つのフラグは、イベントがインシデントを引き起こしたことを強調するものである。利用可能であれば、フラッグはリスト内の各イベントの上に置かれる。

イベントに焦点を当てると、詳細セクションで、ポイント3のインシデント・イベント・リストに記載されているのと同じ情報が提供されます。

自動推定根本原因（パブリック・プレビュー）

オンライン編集

DevOps 実務担当者の平均修復時間 (MTTR) を短縮するため、Instana は、Causal AI を使用してトレース統計とトポロジーを動的に分析するアルゴリズムである推定根本原因を自動化します。このアルゴリズムは、障害の根本原因である可能性の高いエンティティを特定します。これにより、 DevOps の実務者は、アプリケーション障害の原因である可能性の高いエンティティを迅速に特定することができます。

以下のエンティティ・タイプのスマート・アラートから作成されたインシデントの「推定される根本原因 」セクションにアクセスできます：

アプリケーションのパースペクティブ
サービス
エンドポイント
アプリケーションのサービスレベル目標

推定される根本原因のセクションには、主に以下のセクションがある：

根本原因の可能性が高いエンティティおよび関連するインフラストラクチャまたはアプリケーション情報
DevOps 実務家が、特定の実体が根本原因である可能性が高いとして特定された理由を見るのに役立つ証拠。
根本原因の可能性が高いエンティティと関連するイベントと、障害の可能性を示す確率レベル。
関連するトレース・エラー・メッセージや、根本原因と思われるログから、一見しただけで問題の詳細が明らかになる。

原因AIアルゴリズムは、問題の原因である可能性の高いエンティティ（または複数のエンティティ）を特定する。このエンティティは、Instanaによって監視され、Probable root causeエンティティとして表示される、物理的または論理的なエンティティである。表示されたエンティティは、インシデント発生時のエンティティの状態を説明するエンティティページにリンクする。関連するイベントは、Probable Root Causeエンティティで発生したすべての最近のイベントである。詳細な関連イベントにより、 DevOps の実務担当者は、問題の原因となった問題、インシデント、変更イベントを迅速に特定することができる。 Unbounded Analyticsページへのリンクは、特定されたProbable Root Causeエンティティにプレフィルターされるため、 DevOps、そのエンティティに関連するトレースやエラーを素早く特定することができる。

推定される根本原因] セクションでは、Instana が、最も失敗の可能性が高いエンティティを最大 3 つまで表示します。推定根本原因の候補となり得る他のエンティティを表示するには、「 最も可能性の高い原因 」および「 潜在的な原因」タブをクリックします。これらのエンティティは、故障の可能性が高い順にソートされているため、最も可能性の高い根本原因が最初に表示される。確率レベルは、 low、 medium、 high のようにラベル付けすることができる。 high は、失敗の高い確率を示す。確率レベル上にカーソルを置くとツールチップが表示され、各ラベルの意味がさらに説明される。

トレースエラーとログの特定

オンライン編集

トレースエラーメッセージ：エラーメッセージのあるエラーコール。エラーメッセージには、ソフトウェアの実行中に確認された特定のエラーが含まれ、エラーコール数の多い順に表示されます。エラーメッセージには、スタックトレースとエラーコードが含まれる。
トレースログ：システムのコールフローのイベントのより包括的な記録。トレースログはカウント順に並べられ、 ERROR や WARN などのログレベルが含まれる。

高度なLLMベースの調査については、「インテリジェントなインシデント調査」を参照してください。

問題

オンライン編集

Issueは、アプリケーションやサービス、またはその一部がデグレードした場合に作成されるイベントです。 Instanaには数百種類の厳選されたヘルスシグネチャが搭載されており、サービス品質の低下から複雑なインフラストラクチャの問題、ディスクの飽和状態に至るまで、様々な問題を検出します。メトリクス、イベント、またはメタデータが期待される値に戻ると、問題は自動的に解決されます。

組み込みの問題に加えて、ご使用のシステムに固有の問題を検出するためにカスタム・イベントを定義することができます。

Instanaで検出されたすべてのissue（組み込みissueとカスタムissueの両方）を表示するには、[ Event] ビューに移動し、[ issue] タブを選択します。ダイナミックフォーカスを使用して問題をフィルタリングできます。

インスタナの各号には以下の情報が含まれている：

重大度：この情報はCRITICALまたはWARNINGである。 CRITICALとは、直接的または間接的にデータ損失やサービスのリスクがあり、利用できないことを意味する。警告とは、ユーザー・エクスペリエンスに影響を与えたり、長期的な問題につながったりする可能性のある、その他のパフォーマンス上の問題を意味する。
問題の開始時間、終了時間、期間。
影響を受けるエンティティ：1つ以上のエンティティが問題の影響を受ける。
詳細：問題を解決するためのより詳細な背景と対策を提供する追加説明。
メトリクス：問題が発生した時点での、問題に関連する指標値を示す指標チャート。
該当する場合は、 Unbounded Analytics にアクセスし、問題の影響を受けているトレース、コール、またはページロードを調査してください。

この例では、1 つの Linux マシン上の CPU スチール時間が疑わしいため、問題としてマークされています。単体の問題はアラートをトリガーしませんが、Instanaはその発生を記録します。このシステムが接続されているサービスが正常に動作しない場合、この問題はインシデントの一部となります。この方法論は、イベントとパフォーマンスの問題を手動で相関させる必要がないため、Instanaの主な利点の1つです。しばらくの間CPUを使いすぎているからといって、問題が存在するとは限らない。この情報は、サービスに影響を与えたときに初めて意味を持つ。

組み込みおよびカスタムの課題の管理に関する詳細については、「組み込みイベントの管理」を参照してください

Instana は、監視対象サービス間のすべての依存関係を把握しているため、インシデントがユーザーに影響を与えている場合、すべてのサービス品質問題に対してインシデントをトリガーします。また、ディスクの飽和や Elasticsearch クラスタのスプリットブレインの状況など、重要なインフラストラクチャの問題については、インシデントをトリガーします。これは、これらの問題がデータ損失を引き起こす可能性が高いためです。

注：トラフィックの発生頻度が低いアプリケーション、サービス、またはエンドポイント（例えば、15分に1回のコール）は、当社の問題検出の十分な根拠があるとは見なされません。問題の重大度は、その存続期間中に変化することがあります。これは、この特定の問題が到達した最高の重大度を表します。

Draft comment:

Impacted Users for application issues (private preview)

This feature is under private preview. You can contact the technical Instana support to get included in this program.

By using this feature, you can see the impacted users of a specific event, and get valuable insights into how events are affecting your users by quickly identifying and addressing issues that impact user experience.

Availability

To use this feature, ensure that the following conditions are met:

Both your front-end (website or mobile app) and back-end servers are monitored by Instana.
The correlation between front-end and back-end monitoring functions as expected. For more information, see [Backend correlation](../website_monitoring/backend_correlation.md).
The Impacted Users feature is currently supported only for application issues.

What is an impacted user?

An impacted user is a user whose experience is negatively affected by an application issue that triggers an event. For example, an impacted user might be someone whose journey or visit to your website or mobile app is disrupted due to a back-end server error issue as follows:

The user encounters a critical error page and cannot continue using the site or app.
The user experiences significant delays or timeouts, leading to a disrupted experience.
The user's actions (such as form submissions or transactions) fail to complete due to server-side issues.

Event data correlation and impact analysis

When an event is triggered, the system correlates data from your front-end and back-end monitoring to identify which end users are impacted. Then, you can detailed information about the affected users and understand the scope and impact of the issue.

変更

オンライン編集

変更とは、サーバーの起動/停止、デプロイメント、システム上の構成変更などの変更を表すイベントである。さらに、次のように分けられる：

変更点 - バージョン、環境変数値など、コンポーネントの構成を変更した
オフライン/オンライン - 管理下にあるコンポーネントの存在を追跡する

変更イベントは、ダイナミックグラフとともに使用され、構成の変更とインシデントの関係を自動的に検出するための重要な情報である。

「イベント」ビュー

オンライン編集

Instanaが検出したすべてのイベントを確認するには、 イベントダッシュボードに移動し、 インシデント、問題、変更、 またはすべてのタブを選択して対応するイベントタイプを表示します。

全イベントのフィルタリング機能

オンライン編集

ダイナミック・フォーカス・クエリー

オンライン編集

Instanaによって検出されたイベントの検索は、ダイナミックフォーカス機能に依存しています。イベント棒グラフで1つ以上の複数の棒を選択すると、イベントテーブルには選択した棒に含まれるイベントのみが表示されます。イベント棒グラフの棒を選択することで、現在の時間間隔を変更せずにイベントの詳細な確認が可能です。検索ボックスを使用して、概要テーブルの「タイトル」または「オン」列（インシデントが発生したサービス）のデータから特定のアイテムを検索することもできます。この例での検索クエリーは event.text:"Error rate" です。結果は、タイトルに「エラー率」というフレーズを含むすべてのイベントのリストです：

フィルタリング・テーブル

オンライン編集

イベント・ビューは、専用のUIフィルターによって強力なフィルター機能を提供します。イベント・リストは、3つの主要なフィルター・オプションを使ってフィルターすることができる：

一過性のイベント ：イベントが一過性のものか、非一過性のものか、あるいはその両方か。
イベントタイプ ：イベントがビルトインかカスタムか。
スマートアラート ：アプリケーション、ウェブサイト、シンセティクス、インフラストラクチャー、モバイル、ログ、またはSLOからのスマートアラートによってイベントがトリガーされた場合。

これらのフィルターは、個別に使用することも、組み合わせて使用することもでき、関連するイベントをすばやく見つけ、トラブルシューティングの作業を最も重要なことに集中させることができます。