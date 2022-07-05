Le paradigme de l’architecture cloud-native existe depuis un certain temps déjà. Au cœur de l’architecture cloud-native se trouvent des composants fonctionnels cohésifs et indépendants qui apportent agilité, évolutivité et résilience à l’entreprise, contribuant ainsi à accélérer la mise sur le marché, à offrir des avantages concurrentiels et à optimiser les coûts. Ce paradigme a été activement soutenu par un environnement technologique polyglotte.
Les solutions réalisées en utilisant la combinaison d’architecture et d’environnement ci-dessus peuvent s’avérer assez complexes à entretenir et à gérer, principalement en raison du grand nombre de composants et des multiples frameworks techniques nécessaires à leur réalisation. Une mise en œuvre sous-optimale des pratiques de conception et d’ingénierie augmente exponentiellement la complexité et les risques de maintenance de telles solutions.
La « résilience » est une pratique d’ingénierie critique qui est essentielle à la réussite ou à l’échec de toute initiative de transformation numérique. Comme vous le savez peut-être, la résilience contribue directement à la disponibilité globale de la solution grâce à des indicateurs tels que le temps moyen de récupération (MTTR) et le temps moyen entre les pannes (MTBF), et elle est également directement responsable de la réussite ou de l’échec d’une expérience utilisateur transformatrice.
La résilience est essentiellement la capacité d’un système à résister aux défaillances. Alors que les défaillances des systèmes peuvent en fin de compte se manifester par des erreurs ou l’indisponibilité d’un composant/système, la liste des facteurs susceptibles de provoquer des défaillances dans un système cloud natif distribué est longue.
Il existe déjà de nombreux documents portant sur la manière de « mettre en œuvre » la résilience dans les applications cloud-natives. La pratique Garage « Build for Reliability » d’IBM constitue une excellente introduction et un cadre pour la mise en œuvre de la résilience. Il existe aussi des frameworks comme Chaos Monkey ou des outils comme Gremlin qui aident à « tester » la résilience des applications.
Le défi demeure cependant : comment vérifier si une solution est suffisamment « résiliente » ? Plus précisément, comment savoir si nos tests couvrent les scénarios nécessaires et suffisants ? Comment savoir quelles défaillances induire ?
Nous aimerions proposer l’approche suivante en quatre étapes pour relever le défi susmentionné.
Cela peut se faire en identifiant des « chemins de parcours distincts », c’est-à-dire la séquence/combinaison dans laquelle les composants de votre solution peuvent être utilisés pour prendre en charge des scénarios fonctionnels. Ces scénarios et les composants connexes constituent la base qui doit être testée.
Par exemple, votre application peut prendre en charge une ou plusieurs des options suivantes :
Une fois que nous avons identifié les scénarios et les composants, l’étape suivante consiste à déterminer ce qui pourrait « défaillir » au niveau de ces composants. Prenons l’exemple d’un microservice unique présentant les caractéristiques suivantes :
Cette vue peut être obtenue en identifiant les « surfaces de défaillance », comme suit :
Chaque surface de défaillance identifiée à l’étape précédente pourrait échouer pour plusieurs raisons – c’est ce que nous devons identifier ensuite. En reprenant le même exemple que précédemment, en mettant en correspondance les surfaces de défaillance avec les causes possibles, vous pourrez obtenir la liste suivante :
Les causes et les surfaces de défaillance peuvent être utilisées pour créer une matrice, comme indiqué ci-dessous. Cela nous permet désormais de comprendre et de planifier la combinaison d'« attaques » à mener sur la solution. Ces éléments, à leur tour, peuvent désormais être mis en œuvre par le biais des frameworks de test du chaos, comme mentionné précédemment :
Enfin et surtout, les tests de défaillance ne suffiront pas à eux seuls. Considérons les scénarios suivants :
Cela nécessite des capacités supplémentaires pour compléter vos frameworks de test du chaos, tels que l’Infrastructure as Code (IaC) ou la reconfiguration dynamique des ressources cloud.
De plus, comme les tests sur les composants coûtent cher, vous pouvez également envisager des fonctionnalités de vérification « statique », telles que les suivantes :
Dans l’ensemble, nous pensons que la résilience nécessite de se concentrer non seulement après le développement, mais tout au long du développement, en identifiant les scénarios dès le début, en les hiérarchisant en fonction de leur impact commercial, puis en utilisant une combinaison d’« attaques » statiques et dynamiques pour vérifier et valider la résilience au niveau des composants. L’approche que nous avons présentée dans cet article de blog aidera à relever les principaux défis évoqués tout au long de ce parcours.
