Analyse des causes profondes

Instana gère les incidents et accélère l'identification de la cause probable. Instana détecte automatiquement les incidents, les problèmes et les modifications afin de vous aider à identifier, comprendre et analyser les problèmes liés à la qualité de service de vos applications.

Dans un monde où les applications dynamiques sont composées de centaines, voire de milliers de composants, les spécialistes du DevOps sont confrontés à de nombreux problèmes. En cas de panne, ils doivent être capables de détecter et de comprendre le problème le plus rapidement possible, avant même que les utilisateurs ne commencent à ressentir l'impact du service. Après leDevOps Pour restaurer le service le plus rapidement possible, ils doivent corriger la cause exacte et s'assurer que le problème ne se reproduira plus. L'équipe d' DevOps peut mettre des heures, voire des jours, à identifier la cause profonde d'un problème, et bien souvent, celle-ci reste inconnue.

Prérequis

L'analyse des causes probables est activée par défaut aussi bien pour les environnements SaaS que pour les environnements auto-hébergés Instana. Toutefois, pour consulter l'analyse des causes profondes des événements, votre environnement doit remplir les conditions préalables suivantes :

  • Il doit exister un incident de type « Smart Alert » dans l'application. L'analyse des causes probables n'est prise en charge que pour les événements générés par les alertes intelligentes de l'application. De plus, ces alertes ne permettent pas toujours d'identifier la cause probable.
  • Si vous utilisez les événements personnalisés, vous devez migrer vers les alertes intelligentes d' Instana.
  • Autorisations : aucune autorisation n'est requise pour consulter l'analyse des causes profondes. Toutefois, pour configurer la création d'incidents, vous devez disposer d'un compte doté de l'autorisation « Gestion des événements et des alertes » dans la section « Configuration des événements et des alertes ».

Pour plus d'informations sur la configuration des autorisations, consultez la section « Gestion des accès utilisateur ».

Cause probable déterminée automatiquement

Afin de réduire le temps moyen de résolution (MTTR) pour les professionnels de l' DevOps, Instana automatise le processus d'identification de la cause probable d'un incident. Le moteur de détermination des causes profondes de Instana utilise un modèle d'analyse statistique et non déterministe, plutôt que de s'appuyer sur des règles fixes. Instana utilise l'algorithme d'IA causale du modèle pour analyser de manière dynamique et continue les statistiques et la topologie des traces, en évaluant les modèles détectés, les relations de dépendance, les corrélations d'anomalies et les scores de confiance de la télémétrie afin d'identifier le composant le plus susceptible d'être à l'origine de l'incident. Cet algorithme effectue des inférences toutes les 10 minutes afin d'identifier les entités susceptibles d'être à l'origine de la propagation d'erreurs.

Lorsque l'algorithme d'IA causale identifie l'entité (ou les entités) susceptible(s) d'être à l'origine du problème, la section « Cause première probable » affiche jusqu'à trois entités identifiées comme les causes premières les plus probables. Ces éléments sont classés par ordre de probabilité d'être à l'origine du problème; ainsi, la cause première la plus probable apparaît en premier. Les entités peuvent être n'importe quelle entité physique ou logique surveillée par Instana et affichée. Chaque entité affichée renvoie vers la page de détails de cette entité, qui décrit son état au moment de l'incident. Une fois cette cause première probable identifiée, Instana permet aux professionnels de l' DevOps e de déterminer plus rapidement la cause réelle et la solution à apporter en cas de défaillance d'une application.

Important : il n'est pas toujours possible d'identifier la cause probable de tous les incidents. La cause probable d'un incident n'apparaît sur la page de détails de cet incident que lorsque le modèle d'IA atteint un niveau de confiance suffisant concernant la cause probable identifiée. Si le niveau de confiance n'est pas suffisamment élevé, Instana s'abstient délibérément d'afficher la cause probable ou la section correspondante de l'interface utilisateur afin d'éviter d'indiquer une cause trompeuse ou erronée pour l'incident.
Instana analyse et identifie uniquement la cause première probable des incidents générés à partir d'une alerte intelligente sur les types d'entités suivants :
  • Perspectives d'application
  • services
  • Noeuds finaux
  • Objectifs de niveau de service sur les perspectives d'application
Figure 1. Cause première probable
Cause première probable
Lorsqu'une cause probable est identifiée et que la section « Cause probable » d'un incident s'affiche sur la page de détails, celle-ci contient les informations suivantes :
  • L'entité considérée comme la cause première la plus probable, ainsi que toute autre cause première probable identifiée, sans oublier les informations relatives à l'infrastructure ou à l'application concernées. Des liens vers la page de détails de l'entité issue de la hiérarchie affichée sont également fournis.
  • Les éléments de preuve utilisés pour identifier l'entité, afin d'aider vos praticiens de l' DevOps e à comprendre pourquoi une entité spécifique est identifiée comme la cause première probable.
  • La liste des mesures recommandées pour les causes profondes probables identifiées.
  • Une option (bouton de l'interface utilisateur) permettant de lancer une analyse intelligente des incidents qui exploite des fonctionnalités avancées d'analyse basées sur les modèles de langage de grande envergure (LLM) afin de fournir des informations supplémentaires. En savoir plus.
  • Une option (bouton de l'interface utilisateur) permettant d'afficher les événements associés à l'entité considérée comme la cause première probable, ainsi que le niveau de probabilité indiquant le risque de défaillance. Les événements associés sont tous des événements récents qui se sont produits sur l'entité correspondant à la cause première probable. Avec des événements associés détaillés, leDevOps Les praticiens peuvent rapidement identifier les problèmes, les incidents ou modifier les événements à l'origine du problème.
  • Une option (bouton de l'interface utilisateur) permettant de consulter les messages d'erreur et les journaux de trace pertinents pour identifier la cause probable du problème permet de mettre en évidence des détails supplémentaires dès le premier coup d'œil.
    • Les messages d'erreur de trace sont extraits des traces qui passent par la cause probable (si votre système enregistre des erreurs de trace). Le tableau affiche à la fois le message d'erreur lui-même et le nombre d'occurrences de ce message précis qui ont été enregistrées au cours de la période définie.
    • Les journaux de trace constituent un enregistrement plus complet des événements liés au flux d'appels du système. Les journaux de traces sont classés par ordre de comptage et comprennent des niveaux de journaux tels que " ERROR et " WARN.

Incidents

Les incidents présentent le niveau de gravité le plus élevé. Ils sont créés lorsque les services de périphérie auxquels accèdent les utilisateurs sont impactés ou qu'il existe un risque imminent d'impact. À l'aide du graphique dynamique, tous les événements pertinents sont corrélés pour chaque incident afin de fournir un contexte et des hypothèses d'analyse des causes profondes.

Un service réagit soudainement plus lentement que d'habitude; nous appelons cet incident une augmentation soudaine de la latence moyenne. L'incident est automatiquement marqué en jaune en tant qu'avertissement.La couleur est présentée jusqu'à ce que cet incident soit actif. Une fois le problème résolu, la couleur passe au gris et reste disponible pour le menu déroulant. Voir l'exemple suivant d'un incident.

Figure 2. Incidents
Incidents

La vue des détails de l'incident est organisée en trois parties :

  1. L'en-tête contient des informations de base sur les principaux faits de l'incident.

    • Heure de début ;
    • Heure de fin (actuelle si elle est toujours en cours) ;
    • Le nombre d'événements toujours actifs ;
    • Le nombre de changements en cause ;
    • Le nombre d'entités affectées.

    Vous pouvez voir la date de début de l'incident, la date de fin (s'il est clôturé), le nombre d'événements encore actifs, le nombre de modifications associées à cet incident et le nombre d'entités concernées :

    Figure 3 Indicateurs clés de performance (KPI) relatifs aux incidents
    Indicateurs clés de performance (KPI) relatifs aux incidents
  2. La deuxième section fournit une représentation visuelle de l'évolution de l'incident au fil du temps. Le graphique présente l'ensemble de la période, du début à la fin, ainsi que tous les événements, classés par heure de début. La vue est limitée à sept événements à l'état réduit. Appuyez sur le bouton de développement pour afficher la vue complète si vos incidents contiennent plus de sept événements à la fois. Cliquez sur l'une des barres pour ouvrir la vue de détail de ce problème:

    Figure 4 Population concernée
    Population concernée
  3. La troisième section contient les détails relatifs à la représentation graphique présentée dans la deuxième section. Une liste de tous les événements, triés par heure de début, permet à l'utilisateur de voir toutes les informations disponibles pour chaque événement. Cliquez sur un événement pour afficher les détails et consulter toutes les informations disponibles à son sujet :

    Figure 5. Événement détaillé
    Événement détaillé

Les détails aident à comprendre l'événement, tandis que plusieurs graphiques permettent de visualiser la métrique correspondante. Si un événement est toujours actif, le graphique continue à afficher les nouvelles valeurs de métrique entrantes. Deux drapeaux sont disponibles. Un indicateur sert à souligner qu'un événement affecte un service et l'autre indique qu'un événement a déclenché l'incident. Si elles sont disponibles, les icônes sont affichées au-dessus de chaque événement de la liste.

Lorsque vous vous concentrez sur un événement, la section détaillée fournit les mêmes informations que celles décrites dans la liste des événements Incidents au point 3.

Problèmes

Un incident est un événement qui est généré lorsqu'une application, un service ou une partie de ceux-ci subit une dégradation. Instana comprend plusieurs centaines d'indicateurs de santé sélectionnés avec soin qui permettent de détecter divers problèmes, allant de la dégradation de la qualité de service à des problèmes d'infrastructure complexes, en passant par la saturation des disques. Les problèmes sont automatiquement résolus lorsque les indicateurs, les événements ou les métadonnées reviennent aux valeurs attendues.

Outre les problèmes intégrés, vous pouvez définir des événements personnalisés pour détecter les problèmes spécifiques à votre système.

Pour afficher tous les problèmes détectés (qu'ils soient intégrés ou personnalisés) par l' Instana, accédez à la vue Événements, puis sélectionnez l'onglet Problèmes. Vous pouvez utiliser Dynamic Focus pour filtrer les tickets.

Chaque numéro d' Instana contient les informations suivantes :

  • Gravité : Cette information peut être CRITIQUE ou AVERTISSEMENT. CRITIQUE signifie qu'il existe un risque direct ou indirect de perte de données ou de service et n'est pas disponible. Le terme « AVERTISSEMENT » désigne tout autre problème de performance susceptible d'affecter l'expérience utilisateur ou d'entraîner un problème à long terme.
  • Date de début, date de fin et durée du problème.
  • Entités concernées : une ou plusieurs entités sont concernées par le problème.
  • Détails : description complémentaire fournissant davantage de contexte et des mesures à prendre pour résoudre le problème.
  • Indicateurs : graphiques présentant les valeurs des indicateurs pertinents pour le problème au moment où celui-ci s'est produit.
  • Le cas échéant, accédez à Unbounded Analytics pour analyser les traces, les appels ou les chargements de pages concernés par le problème.
Figure 6 Exemple de détails d'un événement
Exemple de détails d'un événement

Dans cet exemple, l'unité centrale vole du temps sur une machine Linux est suspecte et est donc marquée comme un problème. Un incident en soi ne déclenche pas d'alerte, mais Instana signale qu'il s'est produit. Si le service auquel ce système est connecté présente des dysfonctionnements, ce problème est considéré comme faisant partie de l'incident. Cette méthodologie constitue l'un des principaux avantages d' Instana, car elle vous évite d'avoir à établir manuellement des corrélations entre les événements et les problèmes de performance. Ce n'est pas parce qu'un processus utilise trop de ressources CPU pendant un certain temps qu'il y a forcément un problème. Ces informations ne sont pertinentes que lorsqu'elles ont une incidence sur un service.

Pour plus d'informations sur la gestion des incidents prédéfinis et personnalisés, consultez la section « Gérer les événements prédéfinis ».

Comme Instana connaît toutes les interdépendances entre les services surveillés, il déclenche des incidents pour tous les problèmes liés à la qualité de service dès lors que ces incidents ont un impact sur l'utilisateur. Il déclenche également des incidents en cas de problèmes critiques au niveau de l'infrastructure, tels que la saturation des disques ou les situations de « split-brain » au sein d'un cluster d' Elasticsearch, car ces problèmes sont susceptibles d'entraîner une perte de données.

Remarque : les applications, services ou points de terminaison qui reçoivent peu de trafic (par exemple, un appel toutes les 15 minutes) ne sont pas considérés comme présentant suffisamment d'éléments pour permettre la détection d'un problème. La gravité d'un problème peut changer au cours de sa durée de vie. Elle représente la plus grande gravité qui ait été atteinte par ce problème particulier.
Draft comment:

Impacted Users for application issues (private preview)

This feature is under private preview. You can contact the technical Instana support to get included in this program.

By using this feature, you can see the impacted users of a specific event, and get valuable insights into how events are affecting your users by quickly identifying and addressing issues that impact user experience.

Availability

To use this feature, ensure that the following conditions are met:
  • Both your front-end (website or mobile app) and back-end servers are monitored by Instana.
  • The correlation between front-end and back-end monitoring functions as expected. For more information, see [Backend correlation](../website_monitoring/backend_correlation.md).
  • The Impacted Users feature is currently supported only for application issues.

What is an impacted user?

An impacted user is a user whose experience is negatively affected by an application issue that triggers an event. For example, an impacted user might be someone whose journey or visit to your website or mobile app is disrupted due to a back-end server error issue as follows:
  • The user encounters a critical error page and cannot continue using the site or app.
  • The user experiences significant delays or timeouts, leading to a disrupted experience.
  • The user's actions (such as form submissions or transactions) fail to complete due to server-side issues.

Event data correlation and impact analysis

When an event is triggered, the system correlates data from your front-end and back-end monitoring to identify which end users are impacted. Then, you can detailed information about the affected users and understand the scope and impact of the issue.

Modifications

Un changement est un événement qui correspond à des modifications, telles que le démarrage ou l'arrêt d'un serveur, un déploiement ou une modification de configuration sur un système. En outre, séparé en :

  • Modifications - Modification de la configuration des composants, par exemple les versions, les valeurs des variables d'environnement et d'autres composants
  • Hors ligne/en ligne - Suivi de la présence des composants sous gestion

Les événements de changement sont des informations importantes qui sont utilisées avec le graphique dynamique pour détecter automatiquement la relation entre les changements de configuration et les incidents.

Figure 7. Exemple de détails de modification
Exemple de détails de modification

Vue Evénements

Pour consulter tous les événements détectés par Instana, accédez au tableau de bord Événements et sélectionnez les onglets Incidents, Problèmes, Modifications ou Tout pour afficher les types d'événements correspondants.

Figure 8. Événements - Vue de recherche
Événements - Vue de recherche

Fonctions de filtrage pour tous les événements

Requête d'activation dynamique

La recherche parmi les événements détectés par Instana s'appuie sur la fonctionnalité Dynamic Focus. Lorsque vous sélectionnez une ou plusieurs barres dans le graphique à barres « Événements », le tableau « Événements » n'affiche que les événements contenus dans les barres sélectionnées. En sélectionnant les barres du graphique à barres des événements, vous pouvez examiner ces derniers en détail sans modifier l'intervalle de temps actuel. Vous pouvez également utiliser le champ de recherche pour trouver des éléments spécifiques à partir des données figurant dans les colonnes « Titre » ou « Sur » (le service sur lequel l'incident s'est produit) du tableau « Aperçu ». Dans cet exemple, la requête de recherche est event.text:"Error rate". Le résultat est une liste de tous les événements qui contiennent l'expression « Taux d'erreur » dans le titre :

Tableau de filtrage

La vue Événements offre de puissantes fonctionnalités de filtrage grâce à des filtres spécifiques de l'interface utilisateur. La liste des événements peut être filtrée à l'aide des trois principales options de filtrage :

  • Événements transitoires : si les événements sont transitoires, non transitoires ou les deux.
  • Type d'événement : indique si les événements sont intégrés ou personnalisés.
  • Alertes intelligentes : si des événements sont déclenchés par des alertes intelligentes provenant d'une application, d'un site web, de Synthetics, de l'infrastructure, d'un appareil mobile, des journaux ou des SLO.

Ces filtres peuvent être utilisés individuellement ou combinés entre eux pour trouver rapidement les événements pertinents et concentrer vos efforts de dépannage sur ce qui compte le plus.

Figure 9. Événements - Vue de recherche
Événements - Vue de recherche