Qu’est-ce que l’ingénierie de la fiabilité des sites (SRE) ?

Publié le 8 octobre 2024

Boucle orange en forme de symbole de l’infini, composée de pièces de puzzle imbriquées, sur fond bleu-vert

By Camilo Quiroz-Vázquez and Michael Goodwin

Définition de l’ingénierie de la fiabilité des sites

L’ingénierie de la fiabilité des sites (SRE) est une pratique d’ingénierie logicielle qui combine DevOps et les opérations informatiques traditionnelles pour résoudre les problèmes des clients, automatiser les tâches des opérations, accélérer la livraison de logiciels et minimiser les risques informatiques.

La SRE favorise la résilience, la redondance et la fiabilité tout au long du cycle DevOps et prend en charge la mise en œuvre quotidienne des logiciels. Les ingénieurs responsables de la fiabilité des sites suivent généralement la règle des 50 % : ils consacrent la moitié de leur temps à résoudre les problèmes des clients, tels que la gestion des escalades et la réponse aux incidents, et l’autre moitié à l’automatisation des opérations informatiques. Ces opérations incluent la gestion du système de production, la gestion du changement, la réponse aux incidents et les interventions d’urgence.

Les équipes SRE comblent le fossé entre la façon dont les développeurs de logiciels souhaitent que les programmes fonctionnent et la façon dont ils fonctionnent dans des situations réelles. Les ingénieurs chargés de la fiabilité des sites travaillent directement avec les clients pour résoudre leurs problèmes et collecter des données sur l’expérience des utilisateurs. Les équipes SRE renvoient ces données aux équipes de développement, leur donnant ainsi des informations plus approfondies des performances du logiciel et des mises à jour à effectuer.

Les SRE comprennent que les défaillances sont inévitables. Leur travail consiste à identifier (par le biais de processus tels que l’analyse des causes profondes) la cause des problèmes immédiats et à utiliser les données de surveillance et d’enregistrement pour prédire de futures défaillances. Ils ont ensuite mis en place des automatisations pour résoudre ces problèmes, renforçant ainsi la résilience et la redondance du système.

Cette surveillance automatisée des systèmes logiciels à grande échelle réduit la nécessité pour les administrateurs de systèmes d’effectuer manuellement les tâches liées aux opérations informatiques. L’élimination des fonctions manuelles permet aux équipes informatiques de gagner du temps, d’exécuter les opérations plus précisément et de se concentrer sur le maintien de la performance des applications.

Comment fonctionne l’ingénierie de la fiabilité des sites ?

Un ingénieur en fiabilité des sites est un poste technique qui nécessite une expérience dans le développement de logiciels et les opérations informatiques. La compréhension de ces postes permet aux équipes SRE de remplir leur rôle de soutien au cycle de vie du développement logiciel. La SRE est basée sur une stratégie de résilience grâce à l’automatisation des processus.

Traditionnellement, les pratiques d’ingénierie de la fiabilité des sites se concentrent sur la réalisation des opérations et des tâches d’administration des systèmes. Ces tâches comprennent l’analyse des enregistrements, l’optimisation des performances, l’application de correctifs, le test des environnements de production, la gestion des incidents et la réalisation d’analyses rétrospectives. Ces tâches étaient initialement effectuées manuellement, ce qui prenait beaucoup de temps et était sujet à des erreurs humaines. La modernisation de l’ingénierie de la fiabilité des sites implique l’automatisation de ces tâches manuelles.

La surveillance et la connexion, l’enregistrement jouent un rôle clé dans l’ingénierie de fiabilité des sites (SRE). Les équipes SRE utilisent des outils de surveillance pour suivre en temps réel ce qui se passe dans les systèmes logiciels. La surveillance permet de résoudre les problèmes techniques immédiats et aide les équipes à anticiper les problèmes futurs et à les résoudre avant qu’ils ne surviennent.

Les enregistrements servent d’archives qui peuvent être analysées pour obtenir des informations sur le fonctionnement des systèmes et améliorer l’observabilité du système. L’enregistrement crée une feuille de route qui aide les équipes SRE à comprendre la série d’événements qui ont provoqué une erreur imprévue.

Les ingénieurs peuvent automatiser la résolution de l’erreur et empêcher qu’elle ne se reproduise. La surveillance et l’enregistrement aident les ingénieurs à identifier les points de défaillance et à résoudre les problèmes par programmation grâce à l’automatisation, sans être résolus manuellement.

Les équipes SRE recherchent également les défaillances des systèmes grâce à un processus appelé ingénierie du chaos. L’ingénierie du chaos est une stratégie que les ingénieurs de fiabilité des sites mettent en œuvre pour provoquer intentionnellement des défaillances dans les environnements de production et de pré-production. L’objectif de l’ingénierie du chaos est de comprendre l’impact des défaillances de production sur les systèmes logiciels et de développer des plans plus solides pour atténuer les défaillances à l’avenir.

La SRE se concentre également sur la planification des capacités, un processus qui détermine les ressources nécessaires pour exécuter les fonctions essentielles de l’entreprise, faire évoluer ces fonctions et développer de nouvelles applications et fonctionnalités. En outre, les équipes SRE établissent des indicateurs qui sont utilisés pour évaluer la livraison des mises à jour et la mise en œuvre de nouvelles fonctionnalités.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Indicateurs de fiabilité et d’ingénierie des sites

Les ingénieurs chargés de la fiabilité des sites utilisent divers indicateurs pour aider à suivre la cohérence de la prestation de services et la fiabilité des systèmes logiciels, y compris :

Accords de niveau de service (SLA)

Les accords de niveau de service définissent les conditions générales entre un fournisseur de services et un client. Ces accords dictent le niveau de performance, les indicateurs convenus pour mesurer les performances et les répercussions en cas de non-fourniture de services. Le temps de fonctionnement, c’est-à-dire le temps pendant lequel un service est disponible, est un service couramment décrit dans un accord de niveau de service.

Budgets d’erreur

Le budget d’erreurs est un outil que les équipes SRE utilisent pour réconcilier automatiquement la fiabilité des services d’une entreprise avec son rythme de développement de logiciels et d’innovation. Les budgets d’erreur établissent un niveau de risque d’erreur conforme aux accords de niveau de service.

Un objectif de temps de fonctionnement de 99,999 %, connu sous le nom de « disponibilité cinq-neuf », est un seuil de SLA courant. Cela signifie que le budget d’erreurs mensuel, soit la quantité totale de temps d’arrêt autorisée sans conséquence contractuelle pour un mois spécifique, est d’environ 4 minutes et 23 secondes. Si une équipe de développement souhaite implémenter de nouvelles fonctionnalités ou des améliorations dans un système, celui-ci ne doit pas dépasser le budget d’erreur.

Les budgets d’erreur aident les équipes de développement et d’opérations à améliorer la stabilité et la performance des services. Ils aident également à prendre des décisions fondées sur des données concernant le déploiement de nouvelles fonctionnalités ou applications et à maximiser l’innovation en prenant des risques dans des limites acceptables.

Objectifs de niveau de service (SLO)

Les équipes SRE contribuent également à la définition d’objectifs de niveau de service (SLO), un objectif de performance convenu pour un service particulier au cours d’une période donnée. Les SLO définissent l’état attendu des services et aident les parties prenantes à gérer l’état de santé de certains services et à respecter les SLA.

Indicateurs de niveau de service (SLI)

Les SLO sont mesurés par des indicateurs de niveau de service (SLI). Les SLI sont des mesures quantitatives présentées sous forme de pourcentages, de moyennes ou de taux. Ils comprennent la mesure réelle des services tels que le temps de fonctionnement, la latence, le débit et les taux d’erreur.

IBM DevOps

Qu’est-ce que le DevOps ?

Andrea Crawford présente le DevOps, démontre sa valeur, et explique de quelle façon les pratiques et les outils DevOps vous aident à faire progresser vos applications dans l’ensemble du pipeline de livraison logiciel, de l’idéation à la production. Dirigé par des leaders d’opinion d’IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires pour donner la priorité aux investissements dans l’IA capables de stimuler la croissance.

Découvrir le DevOps

SRE et DevOps

DevOps est une méthodologie de développement logiciel qui accélère la livraison d’applications et de services de meilleure qualité en combinant et en automatisant le travail des équipes de développement logiciel et d’exploitation informatique. DevOps permet d’automatiser le cycle de vie du développement logiciel (SDLC), de partager davantage les responsabilités des équipes de développement et d’apporter leur contribution au SDLC à toutes les parties prenantes concernées.

SRE et DevOps sont des stratégies complémentaires en génie logiciel qui brisent les silos et conduisent à une livraison de logiciels plus efficace et plus fiable.

Pendant que les équipes DevOps se concentrent sur la résolution de la question « Que doit faire ce logiciel ? » Les équipes SRE s’efforcent de répondre à la question suivante : « Comment ce logiciel peut-il être déployé et maintenu pour qu’il fonctionne selon les besoins ? » Les équipes SRE fournissent aux équipes DevOps des données réelles sur les performances des logiciels, apportant ainsi un équilibre entre les données pratiques et le monde théorique du développement logiciel.

Comme la SRE, DevOps rend une entreprise plus agile en équilibrant la nécessité de fournir des applications et de changements plus rapidement avec la nécessité d’éviter de « casser » l’environnement de production. SRE et DevOps visent tous deux à atteindre cet équilibre en établissant un risque d’erreur acceptable. Les équipes DevOps se concentrent sur les mises à jour et le déploiement de nouvelles fonctionnalités, tandis que les pratiques SRE visent à protéger la fiabilité des systèmes au fur et à mesure de leur évolution.

Les équipes DevOps et SRE rationalisent les méthodes de communication et établissent une boucle de commentaires constant. Une telle boucle pourrait fonctionner de la manière suivante : lorsqu’une équipe SRE découvre la cause profonde d’une erreur, elle envoie ses conclusions à l’équipe DevOps qui peut développer une mise à jour pour la prochaine version du logiciel.

En attendant, les SRE créent des automatisations pour résoudre le problème et suivent les données de surveillance et d’enregistrement pour s’assurer que le problème a été résolu.

Avantages de la SRE

En plus de contribuer au succès des DevOps, l’ingénierie de la fiabilité des sites peut aider les entreprises :

Gagnez en visibilité sur l’état des services en suivant les indicateurs, les enregistrements et les traces dans tous les services entreprisenels et renforcez les capacités d’analyse des causes profondes.
Améliorez la fiabilité des systèmes logiciels grâce à des interactions quotidiennes avec les clients et au partage collaboratif des données des utilisateurs avec les équipes DevOps.
Développez vos systèmes logiciels en automatisant les processus manuels qui éliminent la pénibilité, réduisent les erreurs et résolvent les problèmes avec plus de précision.
Quantifiez le coût des temps d'arrêt et des pannes en aidant les équipes chargées du développement et des opérations à comprendre le coût des violations des SLA. Cela peut également aider la direction à quantifier l’impact de la fiabilité des systèmes sur la production, les ventes, le marketing, le service client et d’autres fonctions de l’entreprise.
à optimiser la réponse aux incidents en élaborant des processus d’astreinte efficaces et en rationalisant les workflows d’alerte ;
Construisez un centre d’opérations réseau moderne en combinant une compréhension approfondie des opérations informatiques avec le machine learning et l’automatisation pour envoyer des alertes directement à la personne chargée de résoudre le problème.

Développement SRE, cloud et cloud natif

Lorsque les entreprises migrent de l’informatique traditionnelle et des centres de données sur site vers le cloud hybride, elles génèrent souvent des volumes plus importants de données opérationnelles. La SRE joue un rôle critique dans l’utilisation de ces données pour automatiser l’administration des systèmes, les opérations et la réponse aux incidents, et pour améliorer la fiabilité de l’entreprise à mesure que l’environnement informatique devient plus complexe.

Une approche de développement cloud natif, à savoir la création d’applications sous forme de microservices et leur déploiement dans des conteneurs, peut simplifier le développement, le déploiement et l’évolutivité des applications. Mais le développement cloud natif crée également un environnement de plus en plus dispersé qui complique l’administration, les opérations et la gestion.

Une équipe SRE peut soutenir le rythme rapide de l’innovation permis par une approche cloud native ou améliorer la fiabilité du système, sans pour autant accroître la pression des opérations sur les équipes DevOps.

Auteurs

Camilo Quiroz-Vázquez

IBM Staff Writer

Michael Goodwin

Staff Editor, Automation & ITOps

IBM Think

Donner les moyens aux équipes de plateforme de réussir avec le cloud

Apprenez comment les équipes de plateforme peuvent standardiser les workflows et unifier la gestion du cycle de vie de l’infrastructure et de la sécurité grâce à une approche « plateforme en tant que produit ».

Ressources

Accélérer l’innovation grâce à une base cloud hybride sécurisée

Un cadre pour simplifier les opérations de cloud hybride, avec une sécurité et une gouvernance cohérentes.

Accélérez l’innovation à l’échelle avec une plateforme cloud unifiée

Découvrez comment les équipes d’ingénierie de plateforme font évoluer l’infrastructure grâce à des workflows automatisés et un pilotage centralisé.

Maîtrisez les performances applicatives dans les environnements Kubernetes

Découvrez comment gagner en visibilité, renforcer la résilience et simplifier la complexité de Kubernetes grâce à l’observabilité automatisée.

Optimiser vos performances métier grâce à une analytique alimentée par l’IA

Inscrivez-vous maintenant pour découvrir comment l’analytique avancée par IA peut ouvrir de nouvelles opportunités de croissance et d’innovation pour votre entreprise. Accédez à des points de vue d’experts et découvrez comment les solutions d’IA peuvent améliorer l’efficacité opérationnelle, optimiser les ressources et générer des résultats métier mesurables.

Moderniser les applications mainframe avec des modèles de cloud hybride

Découvrez la dernière publication IBM® Redbooks sur la modernisation des mainframes pour les environnements de cloud hybride. Découvrez des stratégies, des solutions d’architecture et des techniques d’intégration exploitables pour favoriser l’agilité, l’innovation et la réussite de l’entreprise.

Full Stack Observability pour les équipes DevOps

Assurez la fiabilité à grande vitesse grâce à l’observabilité alimentée par l’IA. Ce guide IBM vous montre comment obtenir une visibilité de bout en bout, accélérer l’analyse des causes profondes et résoudre les problèmes avant qu’ils n’affectent les utilisateurs.

L’état de préparation à l’IA

Nous avons examiné pourquoi certaines entreprises sont prêtes à faire face à la fois aux bouleversements et au potentiel de l’IA. Découvrez ce que ces organisations adaptées à l’IA ont en commun.

Solutions connexes

IBM Instana Observability

Exploitez le pouvoir de l’IA et de l’automatisation pour résoudre de manière proactive les problèmes de la pile d’applications.

Découvrir IBM Instana Observability

Solutions DevOps

Utilisez les logiciels et outils DevOps pour construire, déployer et gérer des applications cloud natives sur plusieurs appareils et environnements.

Découvrir les solutions DevOps

Services de conseil en cloud

Renforcez l’agilité et la croissance de votre entreprise. Modernisez en continu vos applications sur n’importe quelle plateforme grâce à nos services de conseil cloud.

Découvrir les services de conseil cloud

Passer à l’étape suivante

De la détection proactive des incidents avec IBM Instana aux informations en temps réel sur l’ensemble de votre pile, garantissez la fiabilité de vos applications cloud-native.