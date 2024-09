Les entreprises sont confrontées en permanence au risque de défaillance de leur infrastructure et de leurs applications critiques, avec pour conséquence une incapacité à fournir les services promis aux clients. Les causes possibles sont multiples, des violations de la sécurité aux interruptions de service en passant par les erreurs de configuration. Si le nombre d’applications et de données hébergées dans le cloud est important, le risque d’erreur ou d’interruption est susceptible d’augmenter et d’entraîner une multiplication des problèmes de sécurité.

L’ingénierie du chaos est l’une des solutions pour prévenir les perturbations. Il ne s’agit pas de mettre fin de façon aléatoire aux instances ou aux services, ni de provoquer la défaillance des systèmes sans but précis. Ce processus permet aux ingénieurs d’anticiper les problèmes et de mettre en place les mesures nécessaires pour éviter leur survenue en environnement réel.



L’ingénierie du chaos est très utile, car une erreur ou une perturbation peut ralentir la dynamique d’une organisation en raison du temps précieux passé à rechercher une solution à la volée pendant que les temps d’arrêt augmentent. Netflix l’a appris à ses dépens lorsque l’entreprise est passée de l’informatique sur site au cloud1 (lien externe à ibm.com) et a subi une panne qui a entraîné une interruption de service de trois jours en 2008. Cet événement s’est heureusement produit avant sa transformation en opérateur de streaming, sinon cela lui aurait coûté des sommes astronomiques. Décidé à faire tout son possible pour minimiser les perturbations, Netflix a commencé à introduire l’ingénierie du chaos dans ses workflows. Cela leur permet d’identifier les problèmes avant qu’ils ne se produisent et de minimiser les dommages en cas de défaillance inévitable.

Netflix a conçu Chaos Monkey2(lien externe à ibm.com), un outil open source qui permet de créer des incidents aléatoires au sein de l’infrastructure et des services informatiques, afin d’identifier leurs faiblesses et de les corriger grâce à des procédures de reprise après sinistre automatiques. C’était à l’époque où Netflix réalisait sa migration à partir d’un centre de données privé vers Amazon Web Services (AWS) en réponse au manque de fiabilité du cloud. Chaos Monkey est désormais utilisé par bon nombre d’entreprises à des fins d’ingénierie du chaos.



L’ingénierie du chaos s’avère essentielle non seulement pour prévenir les défaillances et les pannes d’infrastructure, mais aussi pour identifier les composants manquants dans l’environnement de production de l’entreprise. Elle permet aux ingénieurs de fiabilité du site (SRE), ainsi qu’aux autres membres de l’équipe DevOps, d’assurer la continuité des services. En effet, ils sont en mesure d’éviter les interruptions prolongées, de mieux comprendre les vulnérabilités et de déterminer comment réduire l’impact en cas de perturbations.



Étant donné la diversité des dépendances logicielles, le moindre problème de code peut avoir des conséquences désastreuses sur l’ensemble de l’environnement de production. Par exemple, une erreur dans le système logiciel transactionnel d’une entreprise financière peut entraîner des pertes de plusieurs millions de dollars3 (lien externe à ibm.com). Si éviter tout incident informatique peut s’avérer impossible, les entreprises peuvent tout de même réduire les dégâts en s’appuyant sur le chaos management pour comprendre les différents scénarios possibles et identifier les meilleures solutions à y apporter.