Une entreprise de SRE logicielle renforce sa résilience grâce à l’automatisation
L’équipe d’ingénierie de la fiabilité des sites (SRE) d’IBM joue un rôle crucial dans le maintien de la fiabilité et de la sécurité des offres SaaS et de l’infrastructure de services gérés d’IBM. Opérant sur IBM Cloud, AWS, Microsoft Azure et Google Cloud Platform, l’équipe SRE fournit près de 70 solutions SaaS dans le monde, collectant de grandes quantités de données jusqu’au niveau des microservices.
La création d’une évaluation complète de la résilience a constitué un défi de taille pour cette équipe. Kevin Yu, ingénieur principal en fiabilité des sites, explique : « Nos méthodes précédentes impliquaient des ateliers et l’utilisation intensive de feuilles de calcul pour évaluer notre protocole, ce qui pouvait prendre des mois et était également difficile à mettre à jour. Ces méthodes ne permettaient pas d’avoir une vue d’ensemble de la résilience de notre système. »
L’équipe SRE avait également besoin d’une solution pour mesurer et suivre avec précision les indicateurs clés de résilience, tels que la disponibilité, la facilité de récupération et l’observabilité, afin d’identifier les vulnérabilités et d’assurer une mise en œuvre efficace des améliorations.
Améliorer les contrôles opérationnels mensuels était un autre défi majeur. L’inefficacité du processus existant entravait la capacité de l’équipe SRE à identifier et à résoudre promptement les problèmes. Les silos organisationnels compliquaient davantage le processus, empêchant les différentes équipes de s’aligner sur une stratégie de résilience commune.
L’équipe SRE a déployé la plateforme IBM Concert pour réduire les silos, favoriser l’amélioration continue et développer une approche reproductible de la résilience.
La solution associe automatisation et informations alimentées par l’IA au sein d’un cadre standardisé et évolutif pour évaluer, améliorer et renforcer la résilience.
Avant la mise en œuvre d’IBM Concert, les évaluations de la résilience étaient une tâche manuelle et fastidieuse qui pouvait durer des mois. Le cadre de résilience de la solution a automatisé ce processus, offrant une vue d’ensemble des indicateurs clés de résilience tels que la disponibilité, la récupérabilité et l’observabilité. L’automatisation a considérablement réduit le temps et les efforts nécessaires, permettant à l’équipe SRE de se consacrer à l’amélioration de la robustesse et de la fiabilité des applications.
L’ancien processus MOR était inefficace et prenait beaucoup de temps, nécessitant souvent des centaines d’heures pour extraire et compiler les données. Grâce à IBM Concert, l’équipe SRE (ingénierie de fiabilité des sites) synthétise et rapporte les données plus efficacement, puis fournit les informations les plus précises à ses parties prenantes pour l’évaluation de la conformité et la planification stratégique. La solution consolide également les données provenant de diverses sources pour créer une vue unifiée qui améliore la capacité de l’équipe SRE à résoudre les problèmes.
Comme l’explique Yu, « Concert nous a aidés à éliminer les silos et à gagner en productivité. Nous disposons désormais d’un cadre évolutif pour mesurer, améliorer et maintenir la résilience des applications au sein d’IBM.
Le déploiement du cadre de résilience dans IBM Concert a apporté des résultats considérables à l’équipe SRE d’IBM.
« La solution a transformé notre approche de la résilience des applications , déclare M. Yu. En automatisant la collecte des données clés sur la résilience, nous avons éliminé les silos et opérationnalisé la résilience. » La posture de résilience d’IBM Concert a ainsi réduit de 62 % le nombre de jours-personnes nécessaires à l’évaluation de la posture de résilience à l’échelle de l’entreprise IBM par application, par rapport à une évaluation manuelle.1
L’équipe SRE affirme que cette transformation a également amélioré sa productivité et favorisé une meilleure collaboration avec les autres équipes. Grâce au cadre standardisé de la solution, l’équipe SRE peut aligner les différentes parties de l’entreprise sur une stratégie de résilience commune, ce qui lui permet d’améliorer la coordination et la communication globales. De plus, des fonctionnalités de reporting complètes et cohérentes ont renforcé la transparence et la responsabilité au sein d’IBM. Les parties prenantes internes ont indiqué qu’elles comprenaient désormais mieux les indicateurs de résilience et la gestion des problèmes, ce qui leur permet de prendre des décisions plus éclairées.
En tirant parti de la posture de résilience d’IBM Concert, l’équipe SRE a mis en place une approche plus rationalisée et plus efficace de l’évaluation de la résilience et des contrôles opérationnels mensuels (MOR), contribuant ainsi à garantir la fiabilité et la sécurité de l’infrastructure SaaS et des services gérés d’IBM. « La posture de résilience d’IBM Concert a permis à l’équipe SRE d’IBM de réduire de 72 % le nombre d’heures consacrées aux MOR par rapport à la production manuelle des rapports », explique M. Yu.1
L’organisation IBM Software SRE est une équipe mondiale dédiée à la fourniture de SaaS de production hautement disponibles et évolutifs pour les produits logiciels d’IBM. L’équipe Software SRE assure l’approvisionnement, le déploiement, la surveillance, la maintenance et la gestion des incidents en normalisant les outils, les processus, l’automatisation, les manuels d’exécution et les pratiques. Elle travaille en étroite collaboration avec les équipes de développement IBM Software pour concevoir et mettre en œuvre les changements, en fournissant un service hautement résilient tout au long du cycle de vie du logiciel.
1 : Basé sur les résultats d’un test interne. Les résultats individuels peuvent varier.
© Copyright IBM Corporation 2025. IBM, le logo IBM, Concert, IBM Cloud et IBM Concert sont des marques commerciales ou des marques déposées d’IBM Corp., aux États-Unis et/ou dans d’autres pays.
Microsoft est une marque Microsoft Corporation déposée aux États-Unis et/ou dans d’autres pays.
Exemples donnés à titre indicatif uniquement. Les résultats dépendent des configurations et des conditions du client et ne peuvent donc être généralisés.