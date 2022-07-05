Das cloud-native Architekturparadigma gibt es schon seit geraumer Zeit. Im Zentrum der cloudnativen Architektur stehen zusammenhängende, unabhängige funktionale Komponenten, die geschäftliche Agilität, Skalierbarkeit und Resilienz bieten – was zu einer beschleunigten Markteinführung, Wettbewerbsvorteilen und optimierten Kosten beiträgt. Dieses Paradigma wurde durch eine vielsprachige Technologielandschaft aktiv unterstützt.
Die Lösungen, die mit der oben genannten Kombination aus Architektur und Geschäftswelt realisiert werden, können sich als recht komplex in der Wartung und Verwaltung erweisen, was vor allem auf die schiere Anzahl der Komponenten und die zahlreichen Frameworks zurückzuführen ist, die für ihre Realisierung erforderlich sind. Eine suboptimale Umsetzung von Design- und Engineering-Verfahren erhöht die Komplexität und die Wartungsrisiken solcher Lösungen exponentiell.
„Resilienz“ ist eine solche technische Praxis, die für den Erfolg/Misserfolg jeder Initiative zur digitalen Transformation entscheidend ist. Wie Sie vielleicht wissen, trägt die Resilienz direkt zur Gesamtverfügbarkeit der Lösung bei, und zwar durch Kennzahlen wie Mean Time to Recover (MTTR) und Mean Time Between Failures (MTBF). Sie ist außerdem direkt dafür verantwortlich, ob ein transformatives Benutzererlebnis gelingt oder scheitert.
Resilienz ist im Wesentlichen die Fähigkeit eines Systems, gegen Ausfälle standzuhalten. Während sich Ausfälle in Systemen letztendlich als Fehler oder Nichtverfügbarkeit einer Komponente/eines Systems manifestieren können, ist die Liste der Faktoren, die Ausfälle in einem verteilten, cloudnativem System verursachen können, sehr lang.
Es gibt bereits eine Menge Material, das sich darauf konzentriert, wie man Resilienz in cloudnativen Anwendungen „implementieren“ kann. IBMs Build for Reliability Garage-Praxis bietet eine großartige Einführung und ein Framework für die Implementierung von Resilienz. Es gibt auch Frameworks wie Chaos Monkey oder Tools wie Gremlin, die beim „Testen“ der Resilienz von Anwendungen helfen.
Die Herausforderung bleibt jedoch bestehen – wie können wir überprüfen, ob eine Lösung „ resilient genug“ ist? Konkret: Wie wissen wir, ob unsere Tests die notwendigen und ausreichenden Szenarien abdecken? Wie wissen wir, welche Fehler wir hervorrufen müssen?
Wir möchten folgenden vierstufigen Ansatz vorschlagen, um die oben genannte Herausforderung zu bewältigen.
Dies kann durch die Identifizierung von „einzigartigen Traversalpfaden“ erreicht werden – im Wesentlichen die Sequenz/Kombination, in der Komponenten Ihrer Lösung zur Unterstützung funktionaler Szenarien verwendet werden können. Diese Szenarien und die zugehörige Komponente bilden die Grundlage für die zu testenden Tests.
Ihre Anwendung kann beispielsweise eine oder mehrere der folgenden Funktionen unterstützen:
Sobald wir die Szenarien und Komponenten identifiziert haben, besteht der nächste Schritt darin, festzustellen, was bei diesen Komponenten „fehlschlagen“ könnte. Nehmen wir als Beispiel einen einzelnen Microservice mit folgenden Eigenschaften:
Diese Sichtweise kann durch die Identifizierung der „Fehlerflächen“ wie folgt erstellt werden:
Jede im vorherigen Schritt identifizierte Ausfallfläche kann aus mehreren Gründen versagen – genau das müssen wir als Nächstes herausfinden. Wenn Sie mit dem Beispiel von vorhin weitermachen und die Fehleroberflächen den möglichen Ursachen zuordnen, erhalten Sie die folgende Liste:
Die Ursachen und Fehlerflächen können verwendet werden, um eine Matrix wie unten gezeigt zu erstellen. Dies ermöglicht es uns nun, die Kombination zu verstehen und zu planen, mit der wir „Angriffe“ auf die Lösung abwehren müssen. Diese können wiederum, wie bereits erwähnt, mithilfe von Chaos-Testing-Frameworks implementiert werden:
Und nicht zuletzt reicht ein Fehlertest allein nicht aus. Betrachten Sie die folgenden Szenarien:
Dies erfordert zusätzliche Funktionen zur Ergänzung Ihrer Chaos-Testing-Frameworks wie Infrastructure as Code (IaC) oder dynamische Rekonfiguration von Cloud-Ressourcen.
Da das eigentliche Testen von Komponenten teuer ist, sollten Sie außerdem Funktionen zur „statischen“ Verifizierung in Betracht ziehen, wie zum Beispiel die folgenden:
Insgesamt denken wir, dass Resilienz nicht nur nach der Entwicklung, sondern von Anfang an im Fokus stehen muss – von der frühzeitigen Identifizierung von Szenarien über deren Priorisierung nach geschäftlichen Auswirkungen bis hin zur anschließenden Anwendung einer Kombination aus statischen und dynamischen Angriffen, um die Komponenten-Resilienz zu überprüfen und zu validieren. Der Ansatz, den wir in diesem Blogbeitrag dargelegt haben, wird helfen, die wichtigsten Herausforderungen in dieser gesamten Reise anzusprechen.
Die IBM Services für cloud-native Anwendungsentwicklung und Modernisierung gewährleisten die Einführung von technischen Verfahren mit der erforderlichen Konsistenz und Strenge. Weitere Informationen finden Sie unter den folgenden Links:
