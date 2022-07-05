Tags
Cloud

Ein vierstufiger Ansatz zur Überprüfung der Resilienz von cloudnativen Anwendungen

Digital erzeugtes abstraktes Bild von mehreren Würfeln in blauen und violetten Farbtönen

Woher wissen Sie, ob eine Lösung „resilient genug“ ist und woher wissen Sie, ob Ihre Tests die erforderlichen Szenarien abdecken?

Das cloud-native Architekturparadigma gibt es schon seit geraumer Zeit. Im Zentrum der cloudnativen Architektur stehen zusammenhängende, unabhängige funktionale Komponenten, die geschäftliche Agilität, Skalierbarkeit und Resilienz bieten – was zu einer beschleunigten Markteinführung, Wettbewerbsvorteilen und optimierten Kosten beiträgt. Dieses Paradigma wurde durch eine vielsprachige Technologielandschaft aktiv unterstützt.

Die Lösungen, die mit der oben genannten Kombination aus Architektur und Geschäftswelt realisiert werden, können sich als recht komplex in der Wartung und Verwaltung erweisen, was vor allem auf die schiere Anzahl der Komponenten und die zahlreichen Frameworks zurückzuführen ist, die für ihre Realisierung erforderlich sind. Eine suboptimale Umsetzung von Design- und Engineering-Verfahren erhöht die Komplexität und die Wartungsrisiken solcher Lösungen exponentiell.

     

    Branchen-Newsletter

    Die neuesten Tech-News – von Experten bestätigt

    Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

    Vielen Dank! Sie haben sich angemeldet.

    Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

    Was ist Resilienz?

    „Resilienz“ ist eine solche technische Praxis, die für den Erfolg/Misserfolg jeder Initiative zur digitalen Transformation entscheidend ist. Wie Sie vielleicht wissen, trägt die Resilienz direkt zur Gesamtverfügbarkeit der Lösung bei, und zwar durch Kennzahlen wie Mean Time to Recover (MTTR) und Mean Time Between Failures (MTBF). Sie ist außerdem direkt dafür verantwortlich, ob ein transformatives Benutzererlebnis gelingt oder scheitert.

    Resilienz ist im Wesentlichen die Fähigkeit eines Systems, gegen Ausfälle standzuhalten. Während sich Ausfälle in Systemen letztendlich als Fehler oder Nichtverfügbarkeit einer Komponente/eines Systems manifestieren können, ist die Liste der Faktoren, die Ausfälle in einem verteilten, cloudnativem System verursachen können, sehr lang.

    Es gibt bereits eine Menge Material, das sich darauf konzentriert, wie man Resilienz in cloudnativen Anwendungen „implementieren“ kann. IBMs Build for Reliability Garage-Praxis bietet eine großartige Einführung und ein Framework für die Implementierung von Resilienz. Es gibt auch Frameworks wie Chaos Monkey oder Tools wie Gremlin, die beim „Testen“ der Resilienz von Anwendungen helfen.

    Die Herausforderung bleibt jedoch bestehen – wie können wir überprüfen, ob eine Lösung „ resilient genug“ ist? Konkret: Wie wissen wir, ob unsere Tests die notwendigen und ausreichenden Szenarien abdecken? Wie wissen wir, welche Fehler wir hervorrufen müssen?

    Wir möchten folgenden vierstufigen Ansatz vorschlagen, um die oben genannte Herausforderung zu bewältigen.

    Anwendungsentwicklung

    Steigen Sie ein: Entwicklung von Enterprise-Anwendungen in der Cloud

    In diesem Video erläutert Dr. Peter Haumer, wie die moderne Entwicklung von Unternehmensanwendungen in der Hybrid Cloud heute aussieht, indem er verschiedene Komponenten und Praktiken demonstriert, darunter IBM Z Open Editor, IBM Wazi und Zowe. 
    Entwicklung von Cloud-Anwendungen erkunden

    1. Identifizieren von Szenarien und Architekturkomponenten, die auf Resilienz getestet werden müssen

    Dies kann durch die Identifizierung von „einzigartigen Traversalpfaden“ erreicht werden – im Wesentlichen die Sequenz/Kombination, in der Komponenten Ihrer Lösung zur Unterstützung funktionaler Szenarien verwendet werden können. Diese Szenarien und die zugehörige Komponente bilden die Grundlage für die zu testenden Tests.

    Ihre Anwendung kann beispielsweise eine oder mehrere der folgenden Funktionen unterstützen:

    • Durchsuchen des Produktkatalogs über eine Anwendung, die Microservices aufruft, welche Daten aus einem persistenten Datenspeicher abrufen.
    • Batch-Prozesse/Scheduler, die zu vorgegebener Zeit und Häufigkeit ausgeführt werden.
    • Ereignisse, die in vorkonfigurierten Themen veröffentlicht und von abonnierten Microservices verarbeitet werden.
    • APIs, die von mehreren Verbrauchersystemen bereitgestellt und aufgerufen werden.

    2. Fehlerquellen bestimmen

    Sobald wir die Szenarien und Komponenten identifiziert haben, besteht der nächste Schritt darin, festzustellen, was bei diesen Komponenten „fehlschlagen“ könnte. Nehmen wir als Beispiel einen einzelnen Microservice mit folgenden Eigenschaften:

    • Er stellt eine API über ein Gateway zur Verfügung.
    • Er wird auf einem Kubernetes-fähigen Container-Framework bereitgestellt.
    • Er greift auf eine Datenbank zu.
    • Er lässt sich in ein Downstream-System integrieren.

    Diese Sichtweise kann durch die Identifizierung der „Fehlerflächen“ wie folgt erstellt werden:

    Diagramm, das eine mehrschichtige Architektur für Microservices veranschaulicht. Im Zentrum befindet sich ein gelbes Feld mit der Bezeichnung „Core“, umgeben von einer grauen Ebene mit der Bezeichnung „Microservice Pod“. Darunter befindet sich eine blaue Ebene mit der Bezeichnung „Knoten“, gefolgt von einer hellblauen Ebene mit der Bezeichnung „API Gateway“. Darüber hinaus befindet sich eine weiße Schicht mit der Bezeichnung „Ressourcen + nachgelagerte Systeme“ und die äußerste, pfirsichfarbene Schicht mit der Bezeichnung „Rechenleistung-Speicher-Netzwerk“. Jede Schicht stellt eine Komponente in der Systemhierarchie dar

    3. Identifizieren der Fehlerursachen in allen Fehlerbereichen

    Jede im vorherigen Schritt identifizierte Ausfallfläche kann aus mehreren Gründen versagen – genau das müssen wir als Nächstes herausfinden. Wenn Sie mit dem Beispiel von vorhin weitermachen und die Fehleroberflächen den möglichen Ursachen zuordnen, erhalten Sie die folgende Liste:

    • Kern: Der Kern-Microservice selbst – als Codeeinheit – könnte aufgrund von Speichermangel ausfallen, der Anwendungsserver könnte abstürzen usw.
    • Microservice-Pod und -Knoten: Der Knoten/Pod kann einen Zustands-Check nicht bestehen. Die VM, auf der die Kubernetes-Containerplattform läuft, kann abstürzen.
    • API Gateway: Die API Gateway-Engine kann aufgrund unzureichender Threads/Speicherkapazität zur Bearbeitung von Anfragen nicht mehr reagieren.
    • Backend-System: Es kann sehr lange dauern, bis das Backend-System reagiert, und das System kann abstürzen.
    • Compute/Speicher/Netzwerk: Das Netzwerk zwischen dem Microservice und dem Backend-System (das in einem separaten Standort gehostet werden könnte) kann ausfallen.

    4. Auf „Angriffe“ vorbereiten

    Die Ursachen und Fehlerflächen können verwendet werden, um eine Matrix wie unten gezeigt zu erstellen. Dies ermöglicht es uns nun, die Kombination zu verstehen und zu planen, mit der wir „Angriffe“ auf die Lösung abwehren müssen. Diese können wiederum, wie bereits erwähnt, mithilfe von Chaos-Testing-Frameworks implementiert werden:

    Tabelle mit Vor- und Nachteilen von Produkten

    Zusätzliche Überlegungen

    Und nicht zuletzt reicht ein Fehlertest allein nicht aus. Betrachten Sie die folgenden Szenarien:

    • Zusätzlich zur Vermeidung von Fehlern in einer einzelnen Komponenteninstanz müssen Sie sicherstellen, dass Sie keine automatische Skalierung/mehrere Instanzen auf der Cloud-Plattform ausführen ODER dass alle Replikate wie erforderlich ausfallen.
    • Um ein herabgesetztes Ergebnis zu testen (z. B. durch den Cache), benötigen Sie eine Testfunktion für „Vorher“ und „Nachher“.

    Dies erfordert zusätzliche Funktionen zur Ergänzung Ihrer Chaos-Testing-Frameworks wie Infrastructure as Code (IaC) oder dynamische Rekonfiguration von Cloud-Ressourcen.

    Da das eigentliche Testen von Komponenten teuer ist, sollten Sie außerdem Funktionen zur „statischen“ Verifizierung in Betracht ziehen, wie zum Beispiel die folgenden:

    • Validierung des Bereitstellungsdeskriptors für ReplicaSet
    • Überprüfung der Auto-Scaling-Konfiguration für VMs
    • Statische Codeprüfungen für Wiederholungsversuche, Implementierung von Schutzschaltern usw.

    Mehr erfahren

    Insgesamt denken wir, dass Resilienz nicht nur nach der Entwicklung, sondern von Anfang an im Fokus stehen muss – von der frühzeitigen Identifizierung von Szenarien über deren Priorisierung nach geschäftlichen Auswirkungen bis hin zur anschließenden Anwendung einer Kombination aus statischen und dynamischen Angriffen, um die Komponenten-Resilienz zu überprüfen und zu validieren. Der Ansatz, den wir in diesem Blogbeitrag dargelegt haben, wird helfen, die wichtigsten Herausforderungen in dieser gesamten Reise anzusprechen.

    Die IBM Services für cloud-native Anwendungsentwicklung und Modernisierung gewährleisten die Einführung von technischen Verfahren mit der erforderlichen Konsistenz und Strenge. Weitere Informationen finden Sie unter den folgenden Links:

    Ressourcen

    ROI erzielen: KI-Agenten in Ihrem Unternehmen

    Nehmen Sie an einem Webinar von IBM teil, in dem wir Ihnen anhand von Beispielen aus verschiedenen Branchen, Anwendungsfällen und sogar IBMs eigenen Erfolgsgeschichten zeigen, wie Sie durch agentische KI einen echten ROI erzielen können.
    Integrieren Sie Speicher in Ihre dreistufige Architektur mit OpenShift

    Erfahren Sie, wie Sie die Datenebene Ihrer Architektur mit Hilfe von FlashSystem und Red Hat OpenShift mit containerisierten Anwendungsebenen verbinden und so Leistung, Ausfallsicherheit und Skalierbarkeit gewährleisten.
    Optimieren Sie die Enterprise-Speicher-Architektur für maximale Leistung

    Erhalten Sie eine ausführliche Anleitung für die Entwicklung, Implementierung und Optimierung von IBM DS8A00 Speichersystemen. Erfahren Sie, wie Sie die E/A in geschäftskritischen Umgebungen optimieren, die hohe Verfügbarkeit sicherstellen und die Notfallwiederherstellung stärken können.
    Erstellen Sie eine skalierbare, Resilient Datenebene mit IBM Storage Ceph

    Erforschen Sie die Architektur und Konzepte hinter IBM Storage Ceph. Erfahren Sie, wie Sie eine massiv skalierbare, automatische Fehlerbehebung-Datenschicht entwerfen, die KI-Workloads unterstützt, Speicher konsolidiert und die Kosten über mehrstufige Anwendungen senkt.
    Beschleunigen Sie Ihre Datenebene mit Parallel File Systems

    IDC-Erkenntnisse darüber, wie parallele Dateisysteme den Durchsatz und die Zuverlässigkeit in der Datenebene für Anwendungen mit hohem Bedarf und mehreren Ebenen erhöhen.
    Nutzen Sie Analysen auf jeder Ebene

    Erfahren Sie, wie die Analyse auf der Datenebene die Anwendung und Front-End-Erfahrungen für eine Entscheidungsfindung beeinflussen kann.
    Erfahren Sie, wie Enterprise KI im gesamten Stack funktioniert

    Erforschen Sie reale Beispiele für die Einführung von generativer KI in Branchen wie dem Finanzwesen und der Lieferkette. Erfahren Sie, wie diese Systeme von einer modernen, mehrschichtigen Architektur unterstützt werden.
    Schaffen Sie verantwortungsvolle KI-Systeme mit End-to-End-Governance

    Erlangen Sie einen strukturierten Ansatz für das Management von Risiken, Vertrauen und Compliance in KI-Systemen. Erfahren Sie, wie Governance-Frameworks in mehrschichtigen Cloud-Architekturen Anwendung finden.
    Weiterführende Lösungen
    IBM Enterprise Application Service für Java

    Ein vollständig verwalteter, mandantenfähiger Service für die Entwicklung und Bereitstellung von Java-Anwendungen.

         Java-Apps erkunden
    DevOps-Lösungen

    Verwenden Sie DevOps-Software und -Tools, um cloudnative Anwendungen für mehrere Geräte und Umgebungen zu erstellen, bereitzustellen und zu verwalten.

         DevOps-Lösungen erkunden
    Services für die Entwicklung von Unternehmensanwendungen

    Die Entwicklung von Cloud-Anwendungen bedeutet: einmal erstellen, schnell iterieren und überall bereitstellen.

         Services für die Anwendungsentwicklung
    Machen Sie den nächsten Schritt

    IBM Cloud Application Development Consulting Services bieten fachkundige Beratung und innovative Lösungen zur Optimierung Ihrer Cloud-Strategie. Arbeiten Sie mit den Cloud- und Entwicklungsexperten von IBM zusammen, um Ihre Anwendungen zu modernisieren, skalieren und beschleunigen und so transformative Ergebnisse für Ihr Unternehmen zu erzielen.

         Mehr zu Services zur Anwendungsentwicklung Erste kostenlose Schritte beim Erstellen auf IBM Cloud