La « résilience » est une pratique d’ingénierie critique qui est essentielle à la réussite ou à l’échec de toute initiative de transformation numérique. Comme vous le savez peut-être, la résilience contribue directement à la disponibilité globale de la solution grâce à des indicateurs tels que le temps moyen de récupération (MTTR) et le temps moyen entre les pannes (MTBF), et elle est également directement responsable de la réussite ou de l’échec d’une expérience utilisateur transformatrice.

La résilience est essentiellement la capacité d’un système à résister aux défaillances. Alors que les défaillances des systèmes peuvent en fin de compte se manifester par des erreurs ou l’indisponibilité d’un composant/système, la liste des facteurs susceptibles de provoquer des défaillances dans un système cloud natif distribué est longue.

Il existe déjà de nombreux documents portant sur la manière de « mettre en œuvre » la résilience dans les applications cloud-natives. La pratique Garage « Build for Reliability » d’IBM constitue une excellente introduction et un cadre pour la mise en œuvre de la résilience. Il existe aussi des frameworks comme Chaos Monkey ou des outils comme Gremlin qui aident à « tester » la résilience des applications.

Le défi demeure cependant : comment vérifier si une solution est suffisamment « résiliente » ? Plus précisément, comment savoir si nos tests couvrent les scénarios nécessaires et suffisants ? Comment savoir quelles défaillances induire ?

Nous aimerions proposer l’approche suivante en quatre étapes pour relever le défi susmentionné.