Alertes intelligentes pour l'infrastructure
Avec Smart Alerts, vous pouvez recevoir automatiquement des alertes en fonction des métriques d'infrastructure que vous sélectionnez.
Instana vous propose des seuils et des paramètres de configuration lorsque vous sélectionnez dans la liste les indicateurs d'infrastructure pour lesquels vous souhaitez recevoir des alertes. Vous pouvez ajouter plusieurs canaux d'alerte à la configuration, et Instana crée automatiquement une alerte personnalisée pour vous.
Kubernetes - Alertes intelligentes spécifiques
Si vous devez surveiller les environnements d' Kubernetes, vous pouvez accéder à une vue dédiée des alertes intelligentes d'infrastructure qui affiche uniquement les alertes liées à Kubernetes. Cette vue est disponible dans l'interface utilisateur d' Instana ( ) et offre une expérience optimisée aux administrateurs d' Kubernetes. Pour plus d'informations, consultez la section « Alertes intelligentes pour l'infrastructure »
Ajouter une alerte
Pour ajouter une alerte, procédez comme suit:
- Dans le menu de navigation de l'interface utilisateur d' Instana, sélectionnez « Infrastructure ».
- Sélectionnez l'onglet Smart Alerts .
- Cliquez sur Ajouter une alerte intelligente.
Ajouter une alerte intelligente ouvre la boîte de dialogue de configuration d'alerte dans laquelle vous pouvez configurer des alertes intelligentes.
Le processus de configuration des alertes comprend les étapes suivantes:
- Définissez la portée.
- Définissez le seuil à partir duquel une infraction est constatée.
- Définissez le délai à partir duquel vous souhaitez être averti.
- Sélectionnez les canaux d'alerte à notifier.
- Définissez les propriétés de l'alerte.
- Ajoutez des données personnalisées à inclure dans les alertes.
Définition de la portée
Pour définir la portée de l'alerte, procédez comme suit dans la section « Portée » :
Sélectionnez un indicateur dans la liste des indicateurs à l'aide de l'une des options suivantes :
- Dans l'onglet Liste, effectuez une recherche dans la liste des indicateurs à l'aide de mots-clés.
- Dans l'onglet « Regex », définissez la portée de la métrique à l'aide d'expressions régulières.
Figure 1. Sélection des indicateurs 
Définissez l'agrégation comme suit :
- Agrégation temporelle : sélectionnez le mode d'agrégation temporelle souhaité. Cette méthode regroupe les points de données dans un seul compartiment.
- Agrégations inter-séries : pour additionner les tranches entre les différentes séries de données, activez l'option « Utiliser la fonction SUM pour l'agrégation inter-séries ». En général, l'agrégation inter-séries correspond à l'agrégation inter-périodes.
Choisissez l'une des méthodes d'alerte suivantes :
- Agrégation personnalisée : pour regrouper les données métriques en fonction de balises personnalisées que vous définissez, cliquez sur « Agrégation personnalisée ». Cette méthode est activée par défaut.
Figure 2. Agrégation personnalisée 
Utilisez l'agrégation personnalisée dans les cas suivants :
- Suivi des indicateurs agrégés sur plusieurs entités (par exemple, l'utilisation moyenne du processeur sur l'ensemble des hôtes d'une zone ou d'une région donnée).
- Réduire le bruit des alertes en regroupant les entités similaires.
- Analyser les tendances et les schémas généraux plutôt que le comportement de chaque entité.
- Suivi de la capacité globale ou de l'utilisation des ressources au sein d'un cluster ou d'un environnement.
Exemple : surveiller la charge moyenne du processeur sur tous les hôtes de production, regroupés par zone de disponibilité. Vous recevez une seule alerte lorsque la charge moyenne du processeur dans une zone dépasse le seuil, plutôt que des alertes distinctes pour chaque hôte.
Alertes par entité : pour surveiller chaque indicateur individuellement et déclencher des alertes pour chaque entité, cliquez sur « Alertes par entité ».
Figure 3 Génération d'alertes par entité 
Utilisez les alertes par entité dans les cas suivants :
- Identifier les problèmes sur des entités spécifiques (par exemple, un hôte, un conteneur ou une instance de base de données en particulier) et y remédier.
- Accorder une attention particulière et proposer des mesures correctives adaptées à chaque entité.
- Surveillance des ressources critiques pour lesquelles la moindre défaillance peut avoir des conséquences graves.
- Suivi des accords de niveau de service (SLA) ou des exigences de performance propres à chaque entité.
Exemple : surveiller individuellement l'utilisation du processeur sur chaque serveur de base de données de production. Vous recevez une alerte distincte pour chaque serveur de base de données qui dépasse le seuil d'utilisation du processeur, ce qui vous permet d'identifier et de résoudre le problème sur l'instance concernée.
La fonctionnalité d'alerte par entité prend en charge le regroupement par balises liées aux métriques, telles que
metricIdou par balises personnalisées, telles quedevice, etmountpointstate. Ce regroupement permet de définir des alertes individuelles pour chaque variante unique d'indicateur lorsque l'on utilise des modèles d'indicateurs ou des indicateurs avec des balises personnalisées.Figure 4 Alertes par entité avec regroupement 
- Agrégation personnalisée : pour regrouper les données métriques en fonction de balises personnalisées que vous définissez, cliquez sur « Agrégation personnalisée ». Cette méthode est activée par défaut.
Ajoutez des filtres pour affiner davantage votre recherche.
Regroupez les résultats des indicateurs à l'aide des balises de regroupement disponibles. Vous pouvez utiliser jusqu'à 5 balises pour regrouper des indicateurs.
Définition du seuil
Lorsque vous configurez une alerte intelligente pour l'infrastructure, vous pouvez choisir d'utiliser des seuils statiques ou adaptatifs.
Statique
Les seuils statiques ne changent pas au fil du temps. Vous pouvez les définir lorsque vous créez ou modifiez l'alerte intelligente. Vous pouvez définir des seuils différents pour les degrés de gravité avertissement et critique. Un seuil fixe peut perdre toute pertinence si l'indicateur sous-jacent subit une modification significative. En réponse à cela, vous pouvez à tout moment ajuster manuellement ou recalculer le seuil. Vous pouvez sélectionner un opérateur de seuil pour définir la condition de seuil.
Quand utiliser un seuil statique
Les seuils statiques sont particulièrement efficaces dans les situations suivantes :
- Quelle que soit la saisonnalité de l'indicateur sous-jacent, celui-ci ne doit ni dépasser ni descendre en dessous d'une valeur constante.
- L'indicateur sous-jacent est saisonnier; par conséquent, les seuils varient en fonction de l'heure de la journée ou du jour de la semaine. Cependant, ces seuils ne changent pas au fil du temps. Il n'est pas souhaitable de modifier progressivement ces seuils sur de longues périodes.
Adaptative
Les seuils adaptatifs évoluent en permanence et s'ajustent en fonction des nouvelles données observées par Instana. Cela signifie que le seuil tient compte en permanence des variations saisonnières de l'indicateur sous-jacent, sans aucune intervention humaine. Pour plus d'informations, consultez la documentation sur le seuil adaptatif.
Quand utiliser le seuil adaptatif
Les seuils adaptatifs sont particulièrement efficaces dans les situations suivantes :
- L'indicateur sous-jacent n'est pas soumis à des variations saisonnières. On s'attend à ce que ce seuil évolue progressivement au fil du temps, mais tout écart soudain par rapport à cette tendance est indésirable.
- L'indicateur sous-jacent est saisonnier et des seuils différents s'appliquent selon le moment de la journée ou de la semaine. Les seuils eux-mêmes devraient évoluer progressivement au fil du temps, mais tout écart soudain par rapport à cette tendance est indésirable.
Exigences relatives aux seuils adaptatifs
Le seuil adaptatif nécessite au moins 6 heures de données métriques continues. Si cette condition n'est pas remplie, vous pouvez tout de même créer l'alerte intelligente. La détection des problèmes et l'envoi d'alertes commenceront à fonctionner dès que les données nécessaires à l'initialisation du modèle utilisé seront disponibles.
Aperçu de l'alerte
Une fois que vous avez défini la période et le seuil, le graphique est généré à partir des données historiques relatives à ces indicateurs. Le graphique permet de visualiser jusqu'à 7 jours de données historiques. Vous pouvez basculer entre les données historiques des dernières 24 heures et celles des 7 derniers jours afin de visualiser l'évolution de ces données au fil du temps.
Sur la base des données historiques et des conditions de seuil, le graphique affiche les alertes que la valeur de seuil actuelle pourrait déclencher.

Si vous sélectionnez des options de regroupement, les résultats du regroupement peuvent apparaître sous la forme d'un tableau juste après le graphique. Pour analyser les tendances des données de métrique dans le graphique par rapport à chaque regroupement, sélectionnez les lignes correspondantes dans la table.

Définition du seuil temporel
Pour l'alerte qui est déclenchée, vous pouvez ajouter d'autres conditions dans la section Seuil de temps lorsque le seuil défini pour la métrique sélectionnée est dépassé.
Les conditions typiques suivantes, souvent utilisées en pratique, sont les suivantes:
- Persistance dans le temps: sélectionnez une fenêtre de temps et le nombre de violations consécutives. Vous recevez une alerte lorsque la métrique dépasse un seuil défini sur la fenêtre de temps définie.

Facultatif : recevez des alertes à l'avance grâce aux alertes de prévisions
Vous pouvez configurer des alertes de prévision afin de recevoir des notifications proactives qui vous aideront à résoudre les problèmes potentiels avant qu'ils n'affectent votre système. Par exemple, vous pourriez souhaiter recevoir une alerte lorsqu'un disque est sur le point d'atteindre sa capacité maximale ou lorsque l'utilisation de la mémoire par un processus approche des limites du conteneur, ce qui pourrait indiquer une fuite de mémoire. Avec l' Instana, vous pouvez configurer des alertes en fonction des prévisions des indicateurs.

Lorsque vous activez la fonctionnalité d'alerte de prévisions, configurez les deux plages horaires suivantes :
- Période couverte par les données historiques : cette fenêtre définit la période couverte par la métrique utilisée pour ajuster le modèle de prévision. Cela vous permet d'indiquer si vous vous intéressez aux tendances à court terme ou à long terme de l'indicateur sélectionné.
- Période de prévision : cette fenêtre définit la période couverte par la prévision linéaire utilisée pour le déclenchement des alertes. Des prévisions de durée plus longues augmentent le risque de fausses alertes.
L'image suivante illustre ces plages horaires pour deux indicateurs types ainsi que leur prévision linéaire, avec des résultats différents en matière d'alerte :

Une alerte est déclenchée lorsque la valeur ou la prévision de l'indicateur dépasse le seuil défini dans la règle configurée.
Ajouter des canaux d'alerte
Dans Smart Alerts for Infrastructure, vous pouvez configurer différents canaux d'alerte en fonction des niveaux de gravité. Pour ajouter des canaux d'alerte, procédez comme suit :
- Cliquez sur Sélectionner un canal d'alerte.
- Dans la liste des canaux préconfigurés, sélectionnez les canaux à partir desquels vous souhaitez recevoir les alertes.
Si une valeur seuil est définie pour les niveaux de gravité « Avertissement » et « Critique », vous pouvez configurer les canaux d'alerte pour chaque niveau de gravité. Si une valeur seuil est définie pour les deux niveaux de gravité, tous les canaux d'alerte sont sélectionnés par défaut pour le niveau « avertissement ».
Canaux d'alerte pour lesquels les deux niveaux de gravité sont configurés :

Si une valeur seuil est définie pour un seul niveau de gravité, ce niveau s'affiche pour chaque canal d'alerte en tant que niveau d'alerte.
Canaux d'alerte pour lesquels une seule niveau de gravité a été configuré :

Pour plus d'informations sur la création de canaux, consultez la section « Canaux d'alerte ».
Sélectionner les propriétés de l'alerte
Dans cette section, vous pouvez, si vous le souhaitez, configurer diverses propriétés liées aux alertes créées à l'aide de la configuration des alertes intelligentes.

Titre
Instana propose un titre par défaut en fonction du type d'entité et de la métrique sélectionnés. Vous pouvez toutefois remplacer ce titre par votre propre texte statique ou utiliser un titre dynamique en insérant des balises de remplacement.
Vous pouvez insérer des espaces réservés dynamiques dans le titre de l'alerte à l'aide du menu déroulant « Insérer un espace réservé ». Ces balises permettent de mieux cerner le contexte de l'alerte lorsqu'elle se déclenche.
- Vous pouvez désormais inclure le
${severity}marqueur de place dans le titre. Cet espace réservé est utile lorsque vous configurez plusieurs niveaux de gravité au sein d'une même alerte. Par exemple, un titre tel queHigh CPU Usage - ${severity}indique le niveau de gravité directement dans le titre de l'alerte. - Les espaces réservés disponibles varient en fonction de la méthode d'alerte sélectionnée :
- Avec l'agrégation personnalisée, regroupez les éléments par balise (
zone), puis utilisez les balises regroupées comme espaces réservés (${zone}). Cet espace réservé est désormais disponible dans le menu déroulant « Insérer un espace réservé ». - Lors de la configuration des alertes par entité, le
${entity.label}placeholder est disponible. Cet espace réservé identifie l'entité spécifique qui a déclenché l'alerte. - Lorsque vous utilisez des modèles métriques avec des groupes de capture d'expressions régulières (par exemple,
fs\.(.+)\.free), vous pouvez inclure les valeurs capturées en tant qu'espaces réservés dans le titre. Le menu « Insérer un espace réservé » contient des options similaires aux éléments suivants :Regex 1st capturing grouppour le premier groupe de capture de votre motifRegex 2nd capturing group,Regex 3rd capturing group, et ainsi de suite pour les groupes de capture supplémentaires
Grâce à ces espaces réservés, vous pouvez intégrer de manière dynamique des éléments du nom de la métrique correspondante dans les titres de vos alertes.
- Avec l'agrégation personnalisée, regroupez les éléments par balise (
Déclenche un incident
Utilisez le bouton pour déclencher automatiquement un incident lorsque l'alerte est générée. L'alerte est enregistrée comme événement déclencheur de l'incident. Cet incident comprend les événements connexes et propose des mesures à prendre.
Description
Vous pouvez également ajouter une description pour l'alerte. La description résume l'objet de l'alerte et présente les mesures suggérées pour mener l'enquête ou résoudre le problème.
Vous pouvez désormais insérer des variables dynamiques dans la description. Utilisez le menu déroulant « Insérer un espace réservé » et ajoutez des espaces réservés qui fournissent des informations contextuelles lorsque l'alerte est déclenchée.

Ajout de charges utiles personnalisées
Pour inclure une charge utile supplémentaire qui vous concerne dans les notifications d'alerte pour une configuration d'alerte spécifique envoyée par Instana, cliquez sur « Ajouter une ligne » dans la section « Charges utiles personnalisées ».
Les charges utiles personnalisées globales et celles spécifiques à l'alerte sont incluses dans les notifications d'alerte le cas échéant, mais la configuration spécifique à l'alerte prévaut sur la configuration globale. Par conséquent, si vous utilisez la même clé, la valeur de la zone de contenu personnalisé global est remplacée par la valeur spécifique à l'alerte.
L'image suivante montre des contenus personnalisés définis globalement qui sont utilisés dans la configuration d'alerte:

Pour plus d'informations sur les charges utiles personnalisées globales, consultez la section « Configurer une charge utile personnalisée au niveau global ».
À l'heure actuelle, la préversion publique ne prend pas en charge les charges utiles globales personnalisées dynamiques.
Prise en charge de Terraform
Instana permet de mettre en œuvre des fonctionnalités d'« Infrastructure as Code » ( IaC ) en fournissant une ressource « Terraform » permettant de gérer les alertes intelligentes de l'infrastructure par programmation. Cette fonctionnalité permet aux équipes d' DevOps s et de SRE de définir, de déployer et de gérer les configurations d'alerte sous forme de code. Cela contribue à améliorer l'automatisation et la cohérence entre les différents environnements.
Pour plus d'informations sur la gestion des alertes intelligentes d'infrastructure à l'aide d' Terraform, consultez la documentation relative à la configuration des alertes d'infrastructure sur Instana.
Questions fréquentes
Pourquoi migrer les événements personnalisés liés aux métriques d'infrastructure vers Smart Alerts?
- Une sélection des métriques plus flexible, avec prise en charge des modèles de métriques et des expressions régulières.
- Attribution directe des canaux d'alerte avec routage basé sur le niveau de gravité.
- Fonctionnalités améliorées de regroupement et d'agrégation.
- Alertes de prévision pour une surveillance proactive.
- Variables dynamiques dans les titres et les descriptions des alertes.
- Aperçus lors de la configuration des alertes à partir des données historiques.
Comment migrer un événement personnalisé vers une alerte intelligente
- Événements personnalisés à plusieurs métriques : seuls les événements personnalisés comportant une seule métrique peuvent être migrés.
- Types d'agrégation : les événements personnalisés qui utilisent les agrégations suivantes ne peuvent pas être migrés :
- Différence relative
- Différence absolue
- Règles système : les règles système intégrées suivantes ne peuvent pas être migrées vers les alertes intelligentes d'infrastructure :
- Détection d'événements hors ligne
- Hôtes sur lesquels aucune entité correspondante n'est en cours d'exécution
- Détection de la disponibilité de l'hôte
- Hôtes sur lesquels s'exécutent un nombre inhabituel d'entités
Migration semi-automatique
- Marquer comme migré : marque un événement personnalisé obsolète comme ayant été migré et le désactive. Sélectionnez cette option lorsque vous migrez manuellement un événement personnalisé vers une alerte intelligente. Une fois que vous avez marqué l'événement personnalisé comme ayant été migré, vous pouvez toujours le consulter dans la liste et examiner sa configuration à titre de référence. Cette fonction vous aide à suivre la progression de votre migration et garantit qu'aucun événement personnalisé n'est migré plus d'une fois.
- Passer à Smart Alert : ouvre la boîte de dialogue Smart Alert avec les valeurs préremplies provenant de l'événement personnalisé. Ces valeurs peuvent inclure le nom, la description, le niveau de gravité, l'indicateur d'incident, la métrique, la granularité d'évaluation, l'agrégation, l'opérateur et le seuil. Instana tente de migrer ces champs dans la mesure du possible. La portée définie dans la requête de mise en évidence dynamique (DFQ) de l'événement personnalisé ou les entités sélectionnées est transférée soit en sélectionnant les entités correspondantes, soit en utilisant des filtres de balises. Si le DFQ ne peut pas être entièrement mappé, un message d'avertissement s'affiche et vous pouvez alors ajuster manuellement la portée. L'enregistrement de l'alerte intelligente désactive automatiquement l'événement personnalisé précédent et le marque comme ayant été migré.

Migration manuelle
- Mise en correspondance des métriques : lors de la migration, veillez à sélectionner la métrique équivalente dans la configuration des alertes intelligentes de l'infrastructure. Utilisez la liste des métriques ou la correspondance par expression régulière pour identifier la métrique appropriée.
- Portée et sélection des entités : les alertes intelligentes d'infrastructure utilisent un filtrage basé sur des balises plutôt que des requêtes Dynamic Focus. Pour reproduire la portée de votre événement personnalisé :
- Identifiez les entités concernées par l'événement personnalisé.
- Utilisez l'option « Ajouter un filtre » dans la configuration des alertes intelligentes pour appliquer des filtres de balises équivalents.
- Choisissez entre l'agrégation personnalisée (pour les métriques agrégées entre entités) ou les alertes par entité (pour la surveillance individuelle des entités).
- Mappage des agrégations : associez le type d'agrégation de votre événement personnalisé à l'option équivalente dans Smart Alerts :
- Agrégation temporelle : sélectionnez la méthode d'agrégation temporelle (par exemple, moyenne, minimum, maximum, somme).
- Agrégation inter-séries : cochez la case « Utiliser SUM pour l'agrégation inter-séries » si vous souhaitez effectuer une somme sur plusieurs entités.
- Réglage des seuils : lors de la migration des valeurs de seuil, tenez compte des éléments suivants :
- Différences de granularité des métriques : les événements personnalisés et les alertes intelligentes de l'infrastructure utilisent des agrégations de métriques sous-jacentes différentes :
- Les événements personnalisés utilisent des flux de métriques d'une seconde pour les fenêtres temporelles inférieures à 30 minutes, et des agrégations de 5 secondes (calculées à partir de la moyenne des métriques d'une seconde) pour les fenêtres temporelles de 30 minutes ou plus. L'agrégation est appliquée à une fenêtre glissante de ces valeurs.
- Les alertes intelligentes d'infrastructure utilisent des cycles d'évaluation avec des valeurs cumulées toutes les 10 secondes (calculées à partir de la moyenne des mesures effectuées toutes les secondes). Chaque cycle d'évaluation effectue une agrégation inter-temporelle (et, éventuellement, une agrégation inter-séries) à partir de ces cumuls sur 10 secondes.
- Ajustez les valeurs seuils en fonction de la nouvelle granularité d'évaluation et du type d'agrégation.
- Utilisez le graphique de prévisualisation pour vérifier que votre seuil déclenche les alertes comme prévu avec les données historiques.
Exemple d'agrégation SUM : si votre événement personnalisé pour une entité « ActiveMQ » avait un seuil de 100 messages par seconde avec une fenêtre temporelle d'une minute en utilisant l'agrégation SUM, et que vous utilisez une granularité d'évaluation de 5 minutes avec l'agrégation SUM dans l'alerte intelligente, réglez le seuil sur 30 000 messages (100 × 60 × 5).
Exemple d'agrégation MOYENNE : si votre événement personnalisé utilise l'agrégation MOYENNE (moyenne) avec un seuil de 100 messages par seconde, et que vous utilisez l'agrégation MOYENNE dans l'alerte intelligente, la valeur du seuil reste approximativement la même (100 messages par seconde ou environ 1 000 messages par période de 10 secondes), car la moyenne est calculée sur la fenêtre d'évaluation plutôt que d'être simplement additionnée.
La principale différence : l'agrégation SUM nécessite d'ajuster le seuil en fonction de la durée de la fenêtre d'évaluation, tandis que les agrégations MEAN, MIN et MAX ne nécessitent généralement pas d'ajustement du seuil.
- Différences de granularité des métriques : les événements personnalisés et les alertes intelligentes de l'infrastructure utilisent des agrégations de métriques sous-jacentes différentes :
- Mappage des seuils temporels : associez le délai de grâce et la fenêtre temporelle de l'événement personnalisé aux options de seuils temporels de l'alerte intelligente :
- Utilisez la persistance dans le temps pour exiger plusieurs violations consécutives avant de déclencher une alerte.
- La granularité d'évaluation des alertes intelligentes fournit des indicateurs plus stables que la granularité à la seconde près des événements personnalisés, ce qui réduit la nécessité de prévoir des délais de grâce prolongés.
- Attribution des canaux d'alerte : contrairement aux événements personnalisés, dont le routage repose sur des configurations d'alerte, les alertes intelligentes d'infrastructure permettent d'attribuer directement des canaux d'alerte avec un routage basé sur le niveau de gravité. Attribuez les canaux appropriés aux niveaux de gravité « Avertissement » et « Critique » selon les besoins.
Quelles sont les différences entre l'agrégation personnalisée et les alertes par entité?
L'agrégation personnalisée regroupe les données métriques en fonction des balises que vous définissez et compare la métrique agrégée au seuil. Cette approche est utile pour suivre les tendances générales au sein de plusieurs entités et réduire le bruit des alertes. Vous recevez une seule alerte lorsque la métrique agrégée dépasse le seuil.
La surveillance par entité surveille chaque entité individuellement et déclenche des alertes distinctes pour chaque entité qui dépasse le seuil. Cette approche est utile lorsque vous devez identifier les problèmes liés à des entités spécifiques et y remédier. Vous recevez des alertes individuelles pour chaque entité concernée.
Choisissez le mode d'alerte en fonction de ce que vous souhaitez surveiller : le comportement global (agrégation personnalisée) ou le comportement de chaque entité (alertes par entité).
Comment fonctionnent les alertes de prévision dans les Smart Alerts d'infrastructure?
- Période couverte par les données historiques : définit la période couverte par les données passées utilisées pour ajuster le modèle de prévision.
- Période de prévision : permet de définir jusqu'à quand s'étend la prévision.
Une alerte est déclenchée lorsque la valeur actuelle de l'indicateur ou la valeur prévisionnelle dépasse le seuil. Cette approche proactive vous permet de résoudre les problèmes potentiels avant qu'ils n'affectent votre système, comme un manque d'espace disque ou des fuites de mémoire qui menacent d'atteindre les limites des conteneurs.
Des plages horaires plus larges augmentent le risque de fausses alertes; il convient donc de trouver un équilibre entre la proactivité des alertes et leur précision, en fonction de votre cas d'utilisation spécifique.