Définition d'événements personnalisés

Modifier en ligne

Un événement personnalisé vous permet de créer des problèmes ou des incidents en fonction d'une unité de mesure individuelle d'une entité donnée.

Créer un événement personnalisé

Modifier en ligne

Pour créer un événement personnalisé, procédez comme suit :

Dans la barre latérale, cliquez sur Paramètres.
Cliquez sur Evénements -> Nouvel événement.
Fournissez les Détails de l'événement de base de l'événement :
- Entrez un nom et une description pour l'événement. (Évitez d'utiliser des tirets dans ces champs, car cela pourrait entraîner des résultats inattendus lors de la recherche).
- Sélectionnez le niveau de gravité du problème : avertissement ou critique.
- Indiquez si l'événement doit être considéré comme un incident et définissez un délai de grâce, c'est-à-dire la période à attendre avant de clore la question lorsque les conditions ne sont plus remplies.
Configurez la Condition de l'événement personnalisé :

Créez une condition pour l'événement personnalisé en sélectionnant une source de données qui fournit les indicateurs utilisés pour déclencher cet événement :
- Mesures intégrées : ces mesures sont disponibles lorsque l'entité correspondante est instrumentée.
  - Par exemple, lorsqu'une machine virtuelle Java est surveillée, Instana fournit des mesures telles que la quantité de mémoire utilisée. Chaque entité de type JVM dispose d'une telle métrique memory.used de la zone.
  - Par ailleurs, certaines mesures intégrées dynamiques existent plusieurs fois par entité, une pour chaque sous-entité unique. Par exemple, l'espace disque disponible d'un hôte. Pour chaque disque d'un hôte, Instana fournit des métriques fs.{device}.freedistinctes, telles que fs./dev/xvda1.free. Les événements personnalisés peuvent être définis en spécifiant quelles unités doivent être associées, par exemple commence par /dev.
- Métriques personnalisées : il s'agit de métriques qui sont explicitement exposées par une application surveillée. Par exemple, les applications peuvent exposer les mesures personnalisées suivantes :
- Règles système :
  - Détection de déconnexion : cette règle s'applique lorsqu'une entité (telle qu' JVM e ou processus) se déconnecte.
  - Hôtes sur lesquels aucune entité correspondance n'est en cours d'exécution : cette règle est active lorsqu'aucune entité correspondante (telle que JVM ou processus) n'est en cours d'exécution sur un hôte qui est dans la portée de l'événement personnalisé.
  - Détection de la disponibilité de l'hôte: cette règle est active lorsqu'un hôte précédemment vu est hors ligne pendant une durée spécifiée.
  - Hôtes sur lesquels s'exécute un nombre inattendu d'entités : cette règle est activée lorsqu'un nombre inattendu d'entités correspondantes (telles que JVM ou process) s'exécutant sur un hôte entrent dans le champ d'application de l'événement personnalisé.
Selon le type d'indicateur, vous disposez d'options différentes pour définir la condition qui déclenche l'événement personnalisé. Par exemple, vous pouvez configurer un événement si le taux d'erreur dans une fenêtre de temps de 5 minutes est supérieur à 10%.

Un maximum de 5 conditions de métrique peuvent être définies. Si l'opérateur logique AND est utilisé, toutes ces conditions doivent être remplies pour déclencher la règle. Si l'opérateur logique OR est utilisé, une seule des conditions est requise pour déclencher la règle.

Lorsqu'une métrique dynamique est combinée à une métrique normale, telle que fs.{device}.free avec cpu.used, la métrique de chaque périphérique est combinée à la métrique d'unité centrale une par une. Par conséquent, si le modèle de métrique de la métrique dynamique correspond à trois périphériques d'un même hôte, vous pouvez voir jusqu'à trois problèmes actifs en même temps, qui sont liés respectivement aux métriques suivantes:
- fs./dev/first.free et cpu.used
- fs./dev/second.free et cpu.used
- fs./dev/third.free et cpu.used
Définir la portée de l'événement :

En règle générale, vous ne souhaitez pas qu'un événement soit déclenché sur toutes les entités de votre application ou de votre paysage système, mais vous souhaitez limiter l'événement à un ensemble spécifique d'entités. La portée vous permet de définir pour quelles entités l'événement sera évalué :
- Perspective d'application : faire référence à une perspective d'application.
- Entités sélectionnées : définissez une requête Dynamic Focus ( DFQ.md ). Seules les entités correspondant à cette requête seront prises en compte lors de l'évaluation de l'événement.
- Entités sélectionnées (portée des hôtes par balise): seules les entités hôte avec des balises correspondantes seront prises en compte. La balise doit être définie sur l'hôte et non sur une entité exécutée sur l'hôte.
- Toutes les entités disponibles: aucune restriction, évalue l'événement pour toutes les entités de votre application ou paysage système.
Limitation : lorsqu'un événement personnalisé est défini sur un service ou un nœud final à l'aide de la portée d'une application spécifique, en sélectionnant une application de manière explicite ou en utilisant DFQ, la détection d'incident s'applique aux services et aux nœuds finaux sur cette portée. Toutefois, les indicateurs clés de performance pour chaque service ou nœud final sélectionné reposent sur des appels à l'entité entière et pas uniquement sur des appels dans le contexte de l'application dans la portée. Ainsi, la portée n'est utilisée que pour la sélection d'entités mais n'a aucune incidence sur l'indicateur clé de performance utilisé.
Configurer les événements transitoires (facultatif) : de nombreux événements se résolvent rapidement d'eux-mêmes, souvent en quelques minutes, avant même qu'une intervention ne puisse être effectuée. Afin de réduire le bruit, Instana identifie ces événements de courte durée comme des transitoires potentiels en se basant sur les tendances historiques. Les utilisateurs peuvent choisir de les filtrer dans la vue des événements. Elle est par défaut activée.
- Activer ou désactiver la fonctionnalité : utilisez le bouton bascule pour activer ou désactiver la fonctionnalité (par défaut : enabled).
- Définissez le seuil de transitoire : sélectionnez la fenêtre temporelle (en minutes ou en heures) qui détermine ce qui est considéré comme un événement transitoire. Si l'on prévoit qu'un événement durera moins longtemps que ce seuil, il est considéré comme transitoire. Ce seuil indique combien de temps vous êtes prêt à attendre avant de décider qu'une question nécessite votre attention.
- Choisissez le mode de notification :
  - Envoyer immédiatement une alerte : une alerte est déclenchée dès le début de l'événement. Il s'agit du comportement par défaut pour les événements classiques.
  - N'envoyer une alerte que si un événement persiste au-delà du seuil : les alertes ne sont pas déclenchées pour les événements considérés comme passagers. Si un événement dure plus longtemps que le seuil défini, une alerte est envoyée. Sinon, si la valeur reste en deçà du seuil, aucune alerte n'est déclenchée, ce qui permet de réduire le bruit lié aux problèmes de courte durée.
Remarque : lorsque vous activez la fonctionnalité de détection des événements transitoires, celle-ci ne génère pas d'événements. Cette fonctionnalité identifie et classe plutôt les événements existants comme étant de nature temporaire, ce qui vous aide à les filtrer et à les analyser. Pour plus d'informations, consultez la rubrique « Résumé de la configuration » dans la FAQ.
Pour enregistrer le nouvel événement personnalisé, cliquez sur Créer.

Questions fréquentes

Modifier en ligne

Pourquoi certains événements personnalisés sont-ils signalés comme obsolètes?

Modifier en ligne

Les événements personnalisés associés aux entités liées aux perspectives d'application, telles que Application, Service ou Point de terminaison, sont désormais obsolètes et remplacés par les alertes intelligentes d'application.

Comme indiqué dans la page "Paramètres", vous ne pourrez pas bientôt créer de nouveaux événements personnalisés sur ces trois types d'entité. Il est recommandé de ne pas créer de nouveaux événements personnalisés sur ces trois types d'entités. Créez une Smart Alert à la place. Pour plus d'informations sur les événements personnalisés concernant ces trois types d'entités concernés que vous avez déjà créés, consultez le guide de migration vers Smart Alerts.

Les événements personnalisés sur tout autre type d'entité, tels que « Host », « JVM » ou « Kubernetes Pod », ne sont absolument pas concernés par cette modification.

Qu'est-ce qu'un événement transitoire, et comment fonctionne-t-il?

Modifier en ligne

Un événement transitoire est un événement dont Instana prévoit, sur la base des tendances historiques, qu'il pourrait se résoudre de lui-même peu après son apparition. Le système ne garantit pas la résolution, mais s'appuie sur des données historiques pour estimer quels événements sont susceptibles d'être de courte durée.

Cette fonctionnalité est conçue pour aider les équipes à gérer les environnements bruyants où de nombreux événements apparaissent brièvement et disparaissent avant que quiconque ait le temps d'y réagir de manière significative. Ces événements éphémères sont souvent trop brefs pour qu'on puisse y réagir efficacement, car ils peuvent se résoudre avant même qu'une enquête sérieuse puisse être lancée. Elles ont également tendance à se produire fréquemment, ce qui encombre les tableaux de bord et contribue à la fatigue liée aux alertes. En identifiant ces événements comme potentiellement passagers, l' Instana e permet aux utilisateurs de les filtrer ou de les masquer temporairement, ce qui aide les ingénieurs SRE à se concentrer plus facilement sur les problèmes persistants et nécessitant une intervention.

Logique de prédiction

Modifier en ligne

Instana uses historical data to estimate the expected duration of a new event. This prediction depends on the duration of similar past events for a particular configuration on a specific entity. If the system predicts a quick resolution, it labels the event as transient. The result is saved in the event state in the `isTransient` field, which shows whether Instana expects the event to resolve on its own within a set threshold.

Remarque : cette fonctionnalité s'applique uniquement aux tickets, et non aux incidents. Le système ne génère pas de prévisions pour les événements liés aux actions définies dans une politique.

Configuration du seuil transitoire

Modifier en ligne

You can define a threshold (for example, 5 minutes) to determine what qualifies as transient. If an event is expected to resolve within this time, it is marked as transient. This threshold defines how much delay you are willing to tolerate before you look into an issue. For example, if your team is expected to resolve high-severity issues within one day, and most incidents take a few hours to fix, then setting the threshold to one hour means that you are comfortable ignoring events that are likely to resolve on their own within that window.

Comportement d'événement

Modifier en ligne

Le système classe les événements transitoires prévus dans la catégorie « Transitoire » dans la colonne « État » du tableau Événements.
Si un événement persiste au-delà du seuil, il est alors reclassé comme événement ordinaire et l'étiquette « transitoire » est supprimée.
Vous pouvez sélectionner un élément dans la section « Événements transitoires » pour filtrer les événements en fonction de leur statut transitoire. Les options disponibles comprennent les éléments suivants :
- Afficher tout
- Afficher uniquement les transitoires
- Afficher uniquement les non-transitoires
Cette fonctionnalité vous permet de contrôler la visibilité des événements de courte durée en fonction de vos besoins opérationnels.

Comportement d'alerte

Modifier en ligne

Vous pouvez configurer les alertes de l'une des deux manières suivantes :

Envoyer dès le début de l'événement (comportement par défaut).
N'envoyer un message que si l'événement persiste au-delà du seuil, afin de réduire le bruit lié aux événements de courte durée qui se résolvent d'eux-mêmes.

Récapitulatif de la configuration

Modifier en ligne

Lorsque la fonctionnalité de détection des événements transitoires est désactivée, les comportements suivants se produisent :
- Aucune prédiction n'est effectuée et aucune balise temporaire n'est ajoutée.
- Les alertes sont toujours envoyées immédiatement.
Lorsque la fonctionnalité de détection des événements transitoires est activée avec l'option « Envoyer une alerte immédiatement », les comportements suivants se produisent :
- Une prévision transitoire est établie pour un nouvel événement.
- Si l'événement est considéré comme transitoire : une alerte est envoyée et l'événement est marqué comme transitoire dans le tableau des événements.
- Si la prévision n'est pas de nature transitoire : une alerte est envoyée, sans balise.
Lorsque la fonctionnalité de détection des événements transitoires est activée avec l'option « Envoyer une alerte uniquement si l'événement persiste après le seuil », les comportements suivants se produisent :
- Une prévision transitoire est établie pour un nouvel événement.
- Si l'événement est considéré comme transitoire : l'événement est marqué comme transitoire, mais l'alerte est suspendue jusqu'à ce que le seuil soit atteint.
- Si l'événement se résout avant que le seuil ne soit atteint : aucune alerte n'est envoyée.
- Si l'événement persiste au-delà du seuil : une alerte est envoyée et la balise « transitoire » est supprimée.
- Si la prévision n'est pas de nature transitoire : une alerte est envoyée immédiatement, sans balise.