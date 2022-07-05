„Resilienz“ ist eine solche technische Praxis, die für den Erfolg/Misserfolg jeder Initiative zur digitalen Transformation entscheidend ist. Wie Sie vielleicht wissen, trägt die Resilienz direkt zur Gesamtverfügbarkeit der Lösung bei, und zwar durch Kennzahlen wie Mean Time to Recover (MTTR) und Mean Time Between Failures (MTBF). Sie ist außerdem direkt dafür verantwortlich, ob ein transformatives Benutzererlebnis gelingt oder scheitert.

Resilienz ist im Wesentlichen die Fähigkeit eines Systems, gegen Ausfälle standzuhalten. Während sich Ausfälle in Systemen letztendlich als Fehler oder Nichtverfügbarkeit einer Komponente/eines Systems manifestieren können, ist die Liste der Faktoren, die Ausfälle in einem verteilten, cloudnativem System verursachen können, sehr lang.

Es gibt bereits eine Menge Material, das sich darauf konzentriert, wie man Resilienz in cloudnativen Anwendungen „implementieren“ kann. IBMs Build for Reliability Garage-Praxis bietet eine großartige Einführung und ein Framework für die Implementierung von Resilienz. Es gibt auch Frameworks wie Chaos Monkey oder Tools wie Gremlin, die beim „Testen“ der Resilienz von Anwendungen helfen.

Die Herausforderung bleibt jedoch bestehen – wie können wir überprüfen, ob eine Lösung „ resilient genug“ ist? Konkret: Wie wissen wir, ob unsere Tests die notwendigen und ausreichenden Szenarien abdecken? Wie wissen wir, welche Fehler wir hervorrufen müssen?

Wir möchten folgenden vierstufigen Ansatz vorschlagen, um die oben genannte Herausforderung zu bewältigen.