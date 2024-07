Jeden Tag besteht die Möglichkeit, dass eine kritische Anwendung oder Infrastruktur eines Unternehmens ausfällt und damit die Bereitstellung von Services für Kunden gefährdet. Die Ursachen für einen Ausfall können vielfältig sein, z. B. Sicherheitsverletzungen, Fehlkonfigurationen oder Service-Unterbrechungen. Die Wahrscheinlichkeit von Fehlern oder Unterbrechungen kann steigen, wenn mehr Anwendungen und Daten in der Cloud gehostet werden, was zu einer Zunahme von Sicherheitsproblemen führen kann.

Eine Möglichkeit, mit solchen Unterbrechungen umzugehen, ist das Chaos-Engineering. Dabei handelt es sich nicht um einen Prozess, bei dem Techniker beliebig Instanzen oder Services beenden oder Systeme auf andere Weise grundlos ausfallen lassen. Dieser Prozess identifiziert vielmehr potenzielle zukünftige Probleme und ermöglicht es den technischen Teams, proaktiv Lösungen zu finden und sie später in der Live-Umgebung zu vermeiden.



Chaos-Engineering ist wichtig, denn ein Fehler oder eine Unterbrechung kann ein Unternehmen ausbremsen. Dabei wird wertvolle Zeit darauf verwendet, eine Lösung zu finden, während die Ausfallzeit immer länger wird. Netflix erfuhr dies aus erster Hand, als das Unternehmen von einem lokalen System in die Cloud wechselte1 (Link befindet sich außerhalb von ibm.com). 2008 kam es zu einem Ausfall, der zu einer dreitägigen Unterbrechung der Service-Bereitstellung führte. Dies geschah vor der Umstellung auf Videostreaming, was den Ausfall exponentiell verteuert hätte. Daraufhin beschloss Netflix, alles zu tun, um Unterbrechungen zu minimieren, und begann, Chaos-Engineering in seine Workflows zu integrieren. So lassen sich Probleme erkennen, bevor sie auftreten, und der Schaden kann minimiert werden, wenn es zu einem unvermeidlichen Ausfall kommt.

Als Netflix von einem privaten Rechenzentrum auf Amazon Web Services (AWS) wechselte, um auf die Unzuverlässigkeit der Cloud zu reagieren, entwickelte Netflix Chaos Monkey2 (Link befindet sich außerhalb von ibm.com), ein Open-Source-Tool, das zufällige Vorfälle in IT-Services und -Infrastrukturen erzeugt, um Schwachstellen zu identifizieren, die behoben oder durch automatische Wiederherstellungsprozeduren behoben werden können. Viele Unternehmen nutzen mittlerweile Chaos Monkey, um ihre Chaos-Engineering-Experimente durchzuführen.



Chaos-Engineering bietet einen wichtigen Schutz vor Infrastrukturstörungen, Ausfällen oder fehlenden Komponenten in der Produktionsumgebung eines Unternehmens. Es hilft Site Reliability Engineers (SREs) und anderen Mitgliedern des DevOps-Teams bei der kontinuierlichen Bereitstellung von Services, indem sie erhebliche Unterbrechungen ihres Services vermeiden, ihre Schwachstellen besser verstehen und wissen, wie sie die Auswirkungen im Falle einer Unterbrechung minimieren können.



Selbst ein kleines Problem im Code kann angesichts der verschiedenen Programmabhängigkeiten katastrophale Auswirkungen auf die gesamte Produktionsumgebung haben. Ein Fehler im Transaktionssoftwaresystem für ein Finanzdienstleistungsunternehmen kann beispielsweise zu einem Verlust von Millionen von Dollar 3 (Link befindet sich außerhalb von ibm.com) führen. Unternehmen können vielleicht nicht alle IT-Vorfälle vermeiden, aber sie können den Schaden minimieren, indem sie das Chaos-Management nutzen, um wahrscheinliche Szenarien und deren bestmögliche Lösungen zu verstehen.