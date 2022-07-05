Balises
Une approche en quatre étapes pour vérifier la résilience des applications cloud-natives

Comment savoir si une solution est « assez résiliente » et comment savoir si vos tests couvrent les scénarios nécessaires ?

Le paradigme de l’architecture cloud-native existe depuis un certain temps déjà. Au cœur de l’architecture cloud-native se trouvent des composants fonctionnels cohésifs et indépendants qui apportent agilité, évolutivité et résilience à l’entreprise, contribuant ainsi à accélérer la mise sur le marché, à offrir des avantages concurrentiels et à optimiser les coûts. Ce paradigme a été activement soutenu par un environnement technologique polyglotte.

Les solutions réalisées en utilisant la combinaison d’architecture et d’environnement ci-dessus peuvent s’avérer assez complexes à entretenir et à gérer, principalement en raison du grand nombre de composants et des multiples frameworks techniques nécessaires à leur réalisation. Une mise en œuvre sous-optimale des pratiques de conception et d’ingénierie augmente exponentiellement la complexité et les risques de maintenance de telles solutions.

     

    Qu’est-ce que la résilience ?

    La « résilience » est une pratique d’ingénierie critique qui est essentielle à la réussite ou à l’échec de toute initiative de transformation numérique. Comme vous le savez peut-être, la résilience contribue directement à la disponibilité globale de la solution grâce à des indicateurs tels que le temps moyen de récupération (MTTR) et le temps moyen entre les pannes (MTBF), et elle est également directement responsable de la réussite ou de l’échec d’une expérience utilisateur transformatrice.

    La résilience est essentiellement la capacité d’un système à résister aux défaillances. Alors que les défaillances des systèmes peuvent en fin de compte se manifester par des erreurs ou l’indisponibilité d’un composant/système, la liste des facteurs susceptibles de provoquer des défaillances dans un système cloud natif distribué est longue.

    Il existe déjà de nombreux documents portant sur la manière de « mettre en œuvre » la résilience dans les applications cloud-natives. La pratique Garage « Build for Reliability » d’IBM constitue une excellente introduction et un cadre pour la mise en œuvre de la résilience. Il existe aussi des frameworks comme Chaos Monkey ou des outils comme Gremlin qui aident à « tester » la résilience des applications.

    Le défi demeure cependant : comment vérifier si une solution est suffisamment « résiliente » ? Plus précisément, comment savoir si nos tests couvrent les scénarios nécessaires et suffisants ? Comment savoir quelles défaillances induire ?

    Nous aimerions proposer l’approche suivante en quatre étapes pour relever le défi susmentionné.

    1. Identifier les scénarios et les composants architecturaux dont la résilience doit être testée

    Cela peut se faire en identifiant des « chemins de parcours distincts », c’est-à-dire la séquence/combinaison dans laquelle les composants de votre solution peuvent être utilisés pour prendre en charge des scénarios fonctionnels. Ces scénarios et les composants connexes constituent la base qui doit être testée.

    Par exemple, votre application peut prendre en charge une ou plusieurs des options suivantes :

    • Rechercher/parcourir le catalogue de produits via une application de canal (front-end) qui invoque des microservices back-end, qui récupèrent les données à partir d’un magasin de données persistant.
    • Traitements et planificateurs par lots exécutés à une heure et à une fréquence prédéfinies.
    • Événements publiés sur des sujets préconfigurés et traités par des microservices abonnés.
    • API exposées et invoquées par de multiples systèmes consommateurs.

    2. Déterminer les points de défaillance

    Une fois que nous avons identifié les scénarios et les composants, l’étape suivante consiste à déterminer ce qui pourrait « défaillir » au niveau de ces composants. Prenons l’exemple d’un microservice unique présentant les caractéristiques suivantes :

    • Il expose une API via une passerelle.
    • Il est déployé sur un framework de conteneurs compatible Kubernetes.
    • Il accède à une base de données.
    • Il s’intègre à un système en aval.

    Cette vue peut être obtenue en identifiant les « surfaces de défaillance », comme suit :

    Diagramme illustrant une architecture en couches pour les microservices. Au centre se trouve une boîte jaune intitulée « Core », entourée d’une couche grise intitulée « pod ». À l’extérieur se trouve une couche bleue intitulée « nœud », suivie d’une couche bleu clair intitulée « API Gateway ». Au-delà se trouve une couche blanche intitulée « Ressources + Systèmes en aval », et la couche extérieure de couleur pêche intitulée « Calcul-Stockage-Réseau ». Chaque couche représente un composant dans la hiérarchie du système

    3. Identifier les causes des défaillances sur les surfaces de défaillance

    Chaque surface de défaillance identifiée à l’étape précédente pourrait échouer pour plusieurs raisons – c’est ce que nous devons identifier ensuite. En reprenant le même exemple que précédemment, en mettant en correspondance les surfaces de défaillance avec les causes possibles, vous pourrez obtenir la liste suivante :

    • Cœur : le microservice principal lui-même – en tant qu’unité de code – pourrait tomber en panne en raison de problèmes de manque de mémoire, le serveur d’applications pourrait tomber en panne, etc.
    • Pod et nœud de microservices : le nœud/pod peut échouer à un test de santé. La machine virtuelle hébergeant la plateforme de conteneurs Kubernetes peut tomber en panne.
    • API Gateway : le moteur API Gateway risque de ne plus répondre en raison de l’insuffisance des threads et de la mémoire nécessaires pour traiter les requêtes.
    • Système back-end : le système back-end peut mettre beaucoup de temps à répondre et tomber en panne.
    • Calcul/stockage/réseau : le réseau entre le microservice et le système de back-end (qui pourrait être hébergé dans un emplacement distinct) peut tomber en panne.

    4. Préparez-vous à passer à l’« attaque »

    Les causes et les surfaces de défaillance peuvent être utilisées pour créer une matrice, comme indiqué ci-dessous. Cela nous permet désormais de comprendre et de planifier la combinaison d'« attaques » à mener sur la solution. Ces éléments, à leur tour, peuvent désormais être mis en œuvre par le biais des frameworks de test du chaos, comme mentionné précédemment :

    Tableau présentant les avantages et les inconvénients des produits

    Considérations supplémentaires

    Enfin et surtout, les tests de défaillance ne suffiront pas à eux seuls. Considérons les scénarios suivants :

    • En plus de provoquer une défaillance dans une instance d’un composant, vous devez vous assurer que l’auto-scaling n’est pas activé ou que plusieurs instances ne s’exécutent pas sur la plateforme cloud OU que toutes les répliques échouent comme il se doit.
    • Pour tester un résultat dégradé (par exemple via le cache), vous devez disposer d’une fonction de test « avant » et « après ».

    Cela nécessite des capacités supplémentaires pour compléter vos frameworks de test du chaos, tels que l’Infrastructure as Code (IaC) ou la reconfiguration dynamique des ressources cloud.

    De plus, comme les tests sur les composants coûtent cher, vous pouvez également envisager des fonctionnalités de vérification « statique », telles que les suivantes :

    • Validation du descripteur de déploiement pour ReplicaSet
    • Validation de la configuration de l’auto-scaling pour les VMs
    • Vérification statique du code pour les tentatives de relance, l’implémentation de mécanismes de circuit breaker, etc.

    En savoir plus

    Dans l’ensemble, nous pensons que la résilience nécessite de se concentrer non seulement après le développement, mais tout au long du développement, en identifiant les scénarios dès le début, en les hiérarchisant en fonction de leur impact commercial, puis en utilisant une combinaison d’« attaques » statiques et dynamiques pour vérifier et valider la résilience au niveau des composants. L’approche que nous avons présentée dans cet article de blog aidera à relever les principaux défis évoqués tout au long de ce parcours.

    Les services de développement et de modernisation d’applications cloud-natives d’IBM garantissent l’intégration de pratiques d’ingénierie avec la cohérence et la rigueur requises. Consultez les liens suivants pour en savoir plus :

