Premiers pas avec les objectifs de niveau de service
Vous pouvez créer votre premier objectif de niveau de service (SLO) dans Instana et vous familiariser avec les concepts clés et les options de configuration.
Avant de commencer
- Autorisations d'accès : l'autorisation « Niveaux de service d'accès » et l'autorisation « Créer, configurer et supprimer des configurations SLO »
- Entités surveillées : au moins l'un des éléments suivants doit déjà être configuré dans Instana :
- Perspective d'application
- Site web avec données de balise
- Test synthétique
- Entités d'infrastructure (hôtes, conteneurs, etc.)
Comprendre les concepts SLO
Avant de créer un SLO, il est important de comprendre comment les composants clés fonctionnent ensemble.
La relation entre SLI, SLO et budget d'erreurs
┌─────────────────────────────────────────────────────────────┐
│ Service Level Indicator (SLI) │
│ "What you measure" │
│ Example: Response time, error rate, availability │
└────────────────┬────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ Service Level Objective (SLO) │
│ "Your target" │
│ Example: 99% of requests < 100ms │
└────────────────┬────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ Error Budget │
│ "Allowed failures" │
│ Example: 1% = 101 minutes/week OR 252 failed calls │
└─────────────────────────────────────────────────────────────┘
- Indicateur de niveau de service (SLI) : mesure quantitative de la performance d'un service (par exemple, latence, disponibilité ou trafic)
- Plan : le type de SLI que vous mesurez (latence, disponibilité, trafic, saturation ou personnalisé)
- Objectif SLO : niveau de performance souhaité (par exemple, 99 %)
- Budget d'erreurs : l'inverse de votre objectif (1 % dans cet exemple), représentant les échecs acceptables
- Événements/minutes positifs vs négatifs :
- Bon : indicateurs qui respectent votre seuil (par exemple, temps de réponse < 100ms )
- Mauvais : indicateurs qui dépassent votre seuil (par exemple, temps de réponse ≥ 100ms )
- Taux de consommation : vitesse à laquelle vous épuisez votre budget d'erreurs par rapport à la fenêtre temporelle SLO
Guide décisionnel : choisir votre configuration SLO
Étape 1 : Sélectionnez votre type d'entité
| Type d'entité | Idéal pour | Scénarios d'utilisation courants |
|---|---|---|
| Application | Services backend, API | API latence, disponibilité du service, taux d'erreur |
| Site Web | Applications web destinées aux utilisateurs | Temps de chargement des pages, expérience utilisateur, erreurs frontales |
| Tests synthétiques | Surveillance proactive | Surveillance du temps de fonctionnement, flux utilisateur en plusieurs étapes |
| Infrastructure | Ressources système | Utilisation du processeur, de la mémoire et du disque |
Étape 2 : Choisissez votre plan
| Plan directeur | Mesures | Utilisation |
|---|---|---|
| Temps d'attente | Temps de réponse | Quand la vitesse est importante (API, chargement des pages) |
| Disponibilité | Taux de réussite | Lorsque la disponibilité est essentielle (services, sites Web) |
| Trafic | Volume des demandes | Lorsque la cohérence de la charge est importante |
| Saturation | Utilisation des ressources | Pour la planification de la capacité des infrastructures |
| Personnalisation | Critères définis par l'utilisateur | Pour des besoins commerciaux spécifiques |
Étape 3 : Sélectionnez le type de mesure
| Type | Unité de budget d'erreur | Idéal pour | Méthode de calcul |
|---|---|---|---|
| En fonction du temps | Minutes | Modèles de trafic cohérents | Agrège les métriques par minute |
| En fonction des événements | Événements (appels/balises/résultats) | Trafic variable | Compte les événements positifs/négatifs individuels |
- Budget d'erreur statique : 1 % de 10 080 minutes (1 semaine) = 101 minutes
- Budget d'erreurs dynamique : 1 % du nombre total de requêtes (varie en fonction du trafic)
Tutoriel : Créer votre premier SLO
Ce tutoriel crée un SLO pour surveiller la latence des applications.
Scénario
Objectif : garantir que 95 % des appels d' API s à votre application « Service de paiement » répondent dans un délai d' 200ms s sur une période de 7 jours consécutifs.
Instructions étape par étape
Accéder à la section « Niveaux de service »
- Dans le menu de navigation de l'interface utilisateur d' Instana, cliquez sur « Niveaux de service »
- Cliquez sur Créer un objectif de niveau de service.
Sélectionner une entité
- Type d'entité : Application
- Sélectionnez votre application : Service de paiement (dans la liste déroulante)
- Cliquez sur Suivant
Définir la portée
- Appels concernés : appels entrants (appels provenant de l'extérieur de l'application)
- Inclure les appels cachés (facultatif) :
- Appels internes : non coché (exclure les appels de service internes)
- Appels synthétiques : non vérifiés (exclure les contrôles de santé)
- Services et points de terminaison : Sélectionnez (utilisez les menus déroulants)
- Service : Tous les services (ou sélectionnez un service spécifique)
- Point final : Tous les points finaux (ou sélectionnez un point final spécifique)
- Cliquez sur Suivant
Définir l'indicateur
- Plan directeur : Latence
- Type de mesure : basé sur le temps (agrégat des métriques par minute)
- Agrégation : moyenne (latence moyenne par minute)
- Seuil : 200 ms
- Cliquez sur Suivant
Ce que cela signifie : chaque minute, Instana calcule la latence moyenne. Si la moyenne dépasse l' 200ms, cette minute est marquée comme « mauvaise » et consomme le budget d'erreur.
Définir l'objectif
- Objectif SLO : 95 % (95 % des minutes doivent respecter le seuil)
- Fenêtre temporelle : glissante (évalue en continu les 7 derniers jours)
- Durée : 7 jours
- Fusionner le fuseau horaire : désactivé (utilise UTC par défaut)
Aperçu du budget d'erreurs : 504 minutes (7 jours × 24 heures × 60 minutes × 5 %)
Entrer les détails
- Nom : Service de paiement - SLO de latence
- Tags : production, paiement, critique (facultatif, pour le filtrage)
- Équipes : équipe chargée des paiements, équipe chargée de l'audit (facultatif)
- Cliquez sur Créer.
Comprendre votre tableau de bord SLO
- Statut : pourcentage de performance actuel (par exemple, 96.5 %) par rapport à l'objectif (95 %)
- Budget d'erreur restant : minutes restantes dans le budget d'erreur (par exemple, 450 minutes sur 504)
- Taux de consommation : vitesse à laquelle le budget d'erreurs est consommé (par exemple, 1.2x = 20 % plus rapide que prévu)
- Graphique indicateur : latence au fil du temps avec ligne de seuil
- Graphique du budget d'erreurs : consommation du budget d'erreurs au fil du temps
- Graphique du trafic : volume de requêtes au fil du temps
Etapes suivantes
Ajouter des alertes intelligentes : recevez une notification lorsque le statut SLO, le budget d'erreurs ou le taux de consommation dépassent les seuils définis
Créer des fenêtres de correction : exclure la maintenance planifiée ou les heures non ouvrables
Ajouter des widgets SLO : afficher les SLO sur des tableaux de bord personnalisés
- Voir les widgets SLO
Découvrez d'autres exemples : découvrez différentes configurations SLO
Automatisez avec l' API : gérez les SLO par programmation
- Voir les SLO : API
Questions fréquentes
Q : Dois-je utiliser une mesure basée sur le temps ou sur les événements?
R : Utilisez le mode basé sur le temps lorsque les modèles de trafic sont constants et que vous souhaitez disposer d'une marge d'erreur prévisible. Utilisez l'approche basée sur les événements lorsque le trafic est variable ou lorsque les taux de réussite des requêtes individuelles sont importants.
Q : Quel est un bon objectif SLO pour commencer?
R : Vous pouvez commencer par 95 % pour les services non critiques, 99 % pour les services importants et 99.9 % pour les services critiques. Ajustez ces objectifs en fonction des performances réelles et des besoins de l'entreprise.
Q : Quelle doit être la durée de ma fenêtre temporelle?
- 1 jour : fournit un retour rapide; utile pour le développement ou les tests
- 7 jours : Équilibre entre réactivité et stabilité
- 28 jours : affiche les tendances à long terme; recommandé pour les services de production
- Mois civil : il correspond aux cycles de reporting des entreprises, ce qui le rend idéal pour les révisions mensuelles des accords de niveau de service (SLA) et les périodes de reporting financier. Disponible uniquement pendant des plages horaires fixes.
Q : Que se passe-t-il si mon statut SLO est toujours de 100 %?
R : Votre seuil est peut-être trop laxiste. Examinez le tableau des indicateurs et ajustez le seuil afin de le rendre plus ambitieux, mais toujours réalisable.
Q : Puis-je modifier un SLO après sa création?
R : Oui, vous pouvez mettre à jour le nom, la cible, le type/la durée de la fenêtre temporelle, le fuseau horaire et les balises. Cependant, vous ne pouvez pas modifier la configuration de l'entité, de la portée ou de l'indicateur.
Dans quels cas est-il judicieux d'utiliser des plages horaires correspondant à des mois civils?
R : Utilisez les fenêtres temporelles du mois civil lorsque :
- Vous devez aligner les rapports SLO sur les calendriers commerciaux et les revues mensuelles
- Votre organisation assure le suivi des SLA sur une base mensuelle
- Vous souhaitez des comparaisons cohérentes d'un mois à l'autre
- Les rapports financiers ou opérationnels suivent les limites des mois civils
Q : Dois-je sélectionner les tests synthétiques un par un ou à l'aide de filtres?
R : Utilisez la sélection de tests synthétiques individuels pour que le SLO surveille un ensemble spécifique et fixe de tests. Utilisez la sélection par filtre pour que le SLO inclue automatiquement tous les tests synthétiques qui correspondent à des attributs tels que le nom du test, l'identifiant de l'emplacement ou l'identifiant de l'application. La sélection par filtre crée une portée dynamique; ainsi, les tests nouvellement créés qui répondent aux critères du filtre sont automatiquement inclus dans le SLO.