Premiers pas avec les objectifs de niveau de service

Vous pouvez créer votre premier objectif de niveau de service (SLO) dans Instana et vous familiariser avec les concepts clés et les options de configuration.

Avant de commencer

Avant de créer votre premier SLO, assurez-vous de disposer des éléments suivants :
  • Autorisations d'accès : l'autorisation « Niveaux de service d'accès » et l'autorisation « Créer, configurer et supprimer des configurations SLO »
  • Entités surveillées : au moins l'un des éléments suivants doit déjà être configuré dans Instana :
    • Perspective d'application
    • Site web avec données de balise
    • Test synthétique
    • Entités d'infrastructure (hôtes, conteneurs, etc.)

Comprendre les concepts SLO

Avant de créer un SLO, il est important de comprendre comment les composants clés fonctionnent ensemble.

La relation entre SLI, SLO et budget d'erreurs

  
┌─────────────────────────────────────────────────────────────┐
│  Service Level Indicator (SLI)                              │
│  "What you measure"                                         │
│  Example: Response time, error rate, availability           │
└────────────────┬────────────────────────────────────────────┘
                 │
                 ▼
┌─────────────────────────────────────────────────────────────┐
│  Service Level Objective (SLO)                              │
│  "Your target"                                              │
│  Example: 99% of requests < 100ms                           │
└────────────────┬────────────────────────────────────────────┘
                 │
                 ▼
┌─────────────────────────────────────────────────────────────┐
│  Error Budget                                               │
│  "Allowed failures"                                         │
│  Example: 1% = 101 minutes/week OR 252 failed calls         │
└─────────────────────────────────────────────────────────────┘
        
Concepts clés :
  • Indicateur de niveau de service (SLI) : mesure quantitative de la performance d'un service (par exemple, latence, disponibilité ou trafic)
  • Plan : le type de SLI que vous mesurez (latence, disponibilité, trafic, saturation ou personnalisé)
  • Objectif SLO : niveau de performance souhaité (par exemple, 99 %)
  • Budget d'erreurs : l'inverse de votre objectif (1 % dans cet exemple), représentant les échecs acceptables
  • Événements/minutes positifs vs négatifs :
    • Bon : indicateurs qui respectent votre seuil (par exemple, temps de réponse < 100ms )
    • Mauvais : indicateurs qui dépassent votre seuil (par exemple, temps de réponse ≥ 100ms )
  • Taux de consommation : vitesse à laquelle vous épuisez votre budget d'erreurs par rapport à la fenêtre temporelle SLO
Guide décisionnel : choisir votre configuration SLO

Étape 1 : Sélectionnez votre type d'entité

Type d'entité Idéal pour Scénarios d'utilisation courants
Application Services backend, API API latence, disponibilité du service, taux d'erreur
Site Web Applications web destinées aux utilisateurs Temps de chargement des pages, expérience utilisateur, erreurs frontales
Tests synthétiques Surveillance proactive Surveillance du temps de fonctionnement, flux utilisateur en plusieurs étapes
Infrastructure Ressources système Utilisation du processeur, de la mémoire et du disque

Étape 2 : Choisissez votre plan

Plan directeur Mesures Utilisation
Temps d'attente Temps de réponse Quand la vitesse est importante (API, chargement des pages)
Disponibilité Taux de réussite Lorsque la disponibilité est essentielle (services, sites Web)
Trafic Volume des demandes Lorsque la cohérence de la charge est importante
Saturation Utilisation des ressources Pour la planification de la capacité des infrastructures
Personnalisation Critères définis par l'utilisateur Pour des besoins commerciaux spécifiques

Étape 3 : Sélectionnez le type de mesure

Type Unité de budget d'erreur Idéal pour Méthode de calcul
En fonction du temps Minutes Modèles de trafic cohérents Agrège les métriques par minute
En fonction des événements Événements (appels/balises/résultats) Trafic variable Compte les événements positifs/négatifs individuels
Exemple basé sur le temps : « 99 % des minutes doivent avoir une latence moyenne inférieure à 100ms »
  • Budget d'erreur statique : 1 % de 10 080 minutes (1 semaine) = 101 minutes
Exemple basé sur un événement : « 99 % des requêtes doivent avoir une latence inférieure à 100ms »
  • Budget d'erreurs dynamique : 1 % du nombre total de requêtes (varie en fonction du trafic)

Tutoriel : Créer votre premier SLO

Ce tutoriel crée un SLO pour surveiller la latence des applications.

Scénario

Objectif : garantir que 95 % des appels d' API s à votre application « Service de paiement » répondent dans un délai d' 200ms s sur une période de 7 jours consécutifs.

Instructions étape par étape

  1. Accéder à la section « Niveaux de service »

    • Dans le menu de navigation de l'interface utilisateur d' Instana, cliquez sur « Niveaux de service »
    • Cliquez sur Créer un objectif de niveau de service.
  2. Sélectionner une entité

    • Type d'entité : Application
    • Sélectionnez votre application : Service de paiement (dans la liste déroulante)
    • Cliquez sur Suivant
  3. Définir la portée

    • Appels concernés : appels entrants (appels provenant de l'extérieur de l'application)
    • Inclure les appels cachés (facultatif) :
      • Appels internes : non coché (exclure les appels de service internes)
      • Appels synthétiques : non vérifiés (exclure les contrôles de santé)
    • Services et points de terminaison : Sélectionnez (utilisez les menus déroulants)
      • Service : Tous les services (ou sélectionnez un service spécifique)
      • Point final : Tous les points finaux (ou sélectionnez un point final spécifique)
    • Cliquez sur Suivant
  4. Définir l'indicateur

    • Plan directeur : Latence
    • Type de mesure : basé sur le temps (agrégat des métriques par minute)
    • Agrégation : moyenne (latence moyenne par minute)
    • Seuil : 200 ms
    • Cliquez sur Suivant

    Ce que cela signifie : chaque minute, Instana calcule la latence moyenne. Si la moyenne dépasse l' 200ms, cette minute est marquée comme « mauvaise » et consomme le budget d'erreur.

  5. Définir l'objectif

    • Objectif SLO : 95 % (95 % des minutes doivent respecter le seuil)
    • Fenêtre temporelle : glissante (évalue en continu les 7 derniers jours)
    • Durée : 7 jours
    • Fusionner le fuseau horaire : désactivé (utilise UTC par défaut)

    Aperçu du budget d'erreurs : 504 minutes (7 jours × 24 heures × 60 minutes × 5 %)

  6. Entrer les détails

    • Nom : Service de paiement - SLO de latence
    • Tags : production, paiement, critique (facultatif, pour le filtrage)
    • Équipes : équipe chargée des paiements, équipe chargée de l'audit (facultatif)
    • Cliquez sur Créer.
Comprendre votre tableau de bord SLO
Après la création, vous verrez votre tableau de bord SLO avec :
  • Statut : pourcentage de performance actuel (par exemple, 96.5 %) par rapport à l'objectif (95 %)
  • Budget d'erreur restant : minutes restantes dans le budget d'erreur (par exemple, 450 minutes sur 504)
  • Taux de consommation : vitesse à laquelle le budget d'erreurs est consommé (par exemple, 1.2x = 20 % plus rapide que prévu)
  • Graphique indicateur : latence au fil du temps avec ligne de seuil
  • Graphique du budget d'erreurs : consommation du budget d'erreurs au fil du temps
  • Graphique du trafic : volume de requêtes au fil du temps

Etapes suivantes

Maintenant que vous avez créé votre premier SLO, réfléchissez aux points suivants :
  1. Ajouter des alertes intelligentes : recevez une notification lorsque le statut SLO, le budget d'erreurs ou le taux de consommation dépassent les seuils définis

  2. Créer des fenêtres de correction : exclure la maintenance planifiée ou les heures non ouvrables

  3. Ajouter des widgets SLO : afficher les SLO sur des tableaux de bord personnalisés

  4. Découvrez d'autres exemples : découvrez différentes configurations SLO

  5. Automatisez avec l' API : gérez les SLO par programmation

Questions fréquentes

Q : Dois-je utiliser une mesure basée sur le temps ou sur les événements?

R : Utilisez le mode basé sur le temps lorsque les modèles de trafic sont constants et que vous souhaitez disposer d'une marge d'erreur prévisible. Utilisez l'approche basée sur les événements lorsque le trafic est variable ou lorsque les taux de réussite des requêtes individuelles sont importants.

Q : Quel est un bon objectif SLO pour commencer?

R : Vous pouvez commencer par 95 % pour les services non critiques, 99 % pour les services importants et 99.9 % pour les services critiques. Ajustez ces objectifs en fonction des performances réelles et des besoins de l'entreprise.

Q : Quelle doit être la durée de ma fenêtre temporelle?

R : Les options courantes comprennent :
  • 1 jour : fournit un retour rapide; utile pour le développement ou les tests
  • 7 jours : Équilibre entre réactivité et stabilité
  • 28 jours : affiche les tendances à long terme; recommandé pour les services de production
  • Mois civil : il correspond aux cycles de reporting des entreprises, ce qui le rend idéal pour les révisions mensuelles des accords de niveau de service (SLA) et les périodes de reporting financier. Disponible uniquement pendant des plages horaires fixes.

Q : Que se passe-t-il si mon statut SLO est toujours de 100 %?

R : Votre seuil est peut-être trop laxiste. Examinez le tableau des indicateurs et ajustez le seuil afin de le rendre plus ambitieux, mais toujours réalisable.

Q : Puis-je modifier un SLO après sa création?

R : Oui, vous pouvez mettre à jour le nom, la cible, le type/la durée de la fenêtre temporelle, le fuseau horaire et les balises. Cependant, vous ne pouvez pas modifier la configuration de l'entité, de la portée ou de l'indicateur.

Dans quels cas est-il judicieux d'utiliser des plages horaires correspondant à des mois civils?

R : Utilisez les fenêtres temporelles du mois civil lorsque :

  • Vous devez aligner les rapports SLO sur les calendriers commerciaux et les revues mensuelles
  • Votre organisation assure le suivi des SLA sur une base mensuelle
  • Vous souhaitez des comparaisons cohérentes d'un mois à l'autre
  • Les rapports financiers ou opérationnels suivent les limites des mois civils
Remarque : les mois civils ne sont pris en charge que pour les fenêtres temporelles fixes (et non glissantes), et seule une durée d'un mois est prise en charge. Si elle est créée au milieu du mois, la période initiale est partielle (de la date de création à la fin du mois), les périodes suivantes correspondant à des mois civils complets.

Q : Dois-je sélectionner les tests synthétiques un par un ou à l'aide de filtres?

R : Utilisez la sélection de tests synthétiques individuels pour que le SLO surveille un ensemble spécifique et fixe de tests. Utilisez la sélection par filtre pour que le SLO inclue automatiquement tous les tests synthétiques qui correspondent à des attributs tels que le nom du test, l'identifiant de l'emplacement ou l'identifiant de l'application. La sélection par filtre crée une portée dynamique; ainsi, les tests nouvellement créés qui répondent aux critères du filtre sont automatiquement inclus dans le SLO.