Was ist operative Resilienz?

Menschen, die an Whiteboards arbeiten

Operative Resilienz, definiert

Operative Resilienz ist die Fähigkeit eines Unternehmens, Störungen vorherzusehen, zu absorbieren, sich anzupassen und sich davon zu erholen, während sie gleichzeitig weiterhin kritische Geschäftsdienstleistungen erbringt.

Große disruptive Ereignisse – sei es Cyberangriffe, Stromausfälle oder Systemausfälle – sind unvermeidlich. Keine Organisation und kein Unternehmen ist immun. Die operative Resilienz geht über die traditionelle Notfallwiederherstellung hinaus, indem sie proaktiv unvorhergesehene Ereignisse verwaltet. Bei diesem Ansatz muss ermittelt werden, welche Dienste für das Unternehmen am wichtigsten sind, und es muss sichergestellt werden, dass diese stabil bleiben und schnell wiederhergestellt werden.

Unternehmen müssen sich zunehmend mit dem Bedarf an operativer Resilienz auseinandersetzen. Laut einer Forschung von BCI und Riskonnect verfügen mittlerweile 70 % der Unternehmen über Programme zur Steigerung der operativen Resilienz, weitere 10 % sind dabei, ein solches Programm zu entwickeln.¹ Die Einhaltung von Best Practices ist der häufigste Treiber für die Entwicklung dieser Strategien, wobei die Einhaltung gesetzlicher Vorschriften an zweiter Stelle steht.

Operative Resilienz ist zwar für alle Unternehmen von entscheidender Bedeutung, aber bestimmte Branchen benötigen robuste Funktionen. Finanzinstitute sind besonders anfällig für Sicherheitsvorfälle und Cyberrisiken. Sie müssen Kundendaten schützen, die Stabilität des Finanzsystems gewährleisten und strenge Vorschriften einhalten, sonst riskieren sie, ihren Ruf und das Vertrauen ihrer Kunden zu verlieren. In ähnlicher Weise sind Unternehmen des Gesundheitswesens dafür verantwortlich, die Kontinuität der Versorgung bei unerwünschten Ereignissen zu gewährleisten und gleichzeitig die Datenschutzanforderungen für sensible Patientendaten zu erfüllen.

Warum ist operative Resilienz wichtig?

Operative Resilienz ist in modernen Unternehmen aus zahlreichen Gründen von entscheidender Bedeutung geworden. In einer „ständig aktiven“ digitalen Welt wird von Unternehmen erwartet, dass sie jede Betriebsunterbrechung überstehen, wobei jede Sekunde Ausfallzeit zu finanziellen Verlusten, Sicherheitslücken und Geschäftsrisiken führt.

Große katastrophale Ereignisse, ob Pandemien oder Naturkatastrophen, haben die Notwendigkeit einer operativen Resilienz deutlich in den Mittelpunkt gerückt. Außerdem nimmt weltweit die regulatorische Aktivität zu, wobei Regierung und andere Behörden Leitlinien, Gesetze und Vorschriften herausgeben, um sicherzustellen, dass Unternehmen ungünstige Ereignisse vorhersehen und sich schnell erholen können.

Da Unternehmen kontinuierlich künstliche Intelligenz (KI) einsetzen und auf Partnerschaften setzen, um wettbewerbsfähig zu bleiben, müssen Unternehmen sicherstellen, dass diese Abhängigkeiten dieselben Standards für Informationssicherheit, Resilienz und Kontrolle erfüllen, die sie und ihre Regulierungsbehörden verlangen.

Die Cyberbedrohungslandschaft entwickelt sich ebenfalls weiter. Laut dem IBM X-Force Threat Intelligence Index 2024 verlagern sich die Angreifer von Ransomware zu Malware, die auf den Diebstahl von Informationen abzielt.

Unabhängig von der Branche müssen Vertrauen und Sicherheit die Grundlage für Entscheidungen darüber sein, wo sich Workloads und Daten befinden.

AI Academy

KI-Bereitschaft mit Hybrid Cloud

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

Operative Resilienz oder Geschäftskontinuitätsmanagement (BCM) oder Notfallwiederherstellung (DR)

Operative Resilienz, Business Continuity Management (BCM) und Disaster Recovery (DR) sind allesamt Strategien zum Schutz von Unternehmen, aber sie sind eigenständige Prozesse.

Eine Geschäftskontinuitätsstrategie bezieht sich auf die Fähigkeit einer Organisation, wichtige Geschäftsfunktionen aufrechtzuerhalten und den normalen Betrieb mit minimaler Ausfallzeit im Angesicht einer Krise wieder aufzunehmen. BCM konzentriert sich auf die Erstellung detaillierter Pläne und Verfahren, um sicherzustellen, dass wesentliche Geschäftsprozesse auch bei Ausfällen in der Lieferkette, bei Pandemien oder anderen unerwarteten Ereignissen weiterlaufen können.

Notfallwiederherstellungspläne sind eher technisch und IT-orientiert. DR umfasst IT-Technologien und Best Practices, die darauf abzielen, Datenverluste und Geschäftsunterbrechungen infolge von katastrophalen Ereignissen wie Gerätefehlern, Cyberattacken oder Gebäudeschäden zu verhindern oder zu minimieren.

Sie konzentriert sich auf isolierte Fehlerquellen, die kritische Abläufe stören könnten, typischerweise in einem Rechenzentrum, ob lokal oder in der Cloud. DR legt spezifische Recovery Time Objectives (RTO) und Recovery Point Objectives (RPO) zur Wiederherstellung von Informationssystemen und Daten fest.

Es ist erwähnenswert, dass Geschäftskontinuität und Notfallwiederherstellung (BCDR) oft zu integrierten Strategien kombiniert werden, aber je nach Geschäftszielen auch separat eingesetzt werden können.

Ein operativer Resilienzplan ist eine umfassendere Strategie, die sich auf die Fähigkeit eines Unternehmens bezieht, seine kritischen Dienste und Funktionen im Falle einer Herausforderung vorherzusagen, aufrechtzuerhalten und wiederherzustellen. Während sich DR und BCM typischerweise auf spezifische Szenarien und Wiederherstellungspläne konzentrieren, umfasst die operative Resilienz das gesamte Spektrum von Faktoren (zum Beispiel Menschen, Prozesse, Technologie, Lieferkette), die den Betrieb und die Bereitstellung von Geschäftsdienstleistungen unterstützen. Sie hat sich weiterentwickelt, um zunehmend komplexeren Bedrohungen zu begegnen.

Regulierung der operativen Resilienz

In den letzten Jahren ist die operative Resilienz zu einer regulatorischen Priorität für Regierungen und andere Stellen auf der ganzen Welt geworden. Sie dient als Leitfaden für stark regulierte Branchen (z. B. Finanzdienstleistungsunternehmen, Finanzmarktinfrastrukturen) bei der Erfüllung der Anforderungen an Datenschutz, Resilienz, Sicherheit und Datensouveränität.

Um das öffentliche Interesse zu schützen, haben diese Regulierungsbehörden standardisierte Praktiken etabliert, um sicherzustellen, dass Unternehmen ihre Verwundbarkeiten verstehen und in Schutzmaßnahmen für finanzielle Stabilität investieren.

In den Vereinigten Staaten haben die Federal Reserve und andere Bankaufsichtsbehörden Leitlinien zu operativen Resilienzpraktiken herausgegeben. International wurden durch Regelungen wie den Digital Operational Resilience Act (DORA) der Europäischen Union verbindliche, umfassende Informations- und Kommunikationstechnologie-Frameworks für die Risikoverwaltung von Informations- und Kommunikationstechnologien (IKT) für Finanzinstitute und ihre entscheidenden Drittanbieter von Technologiedienstleistungen geschaffen.

Die wichtigsten Komponenten der operativen Resilienz

Operative Resilienz erfordert einen ganzheitlichen Ansatz, der alle miteinander verbundenen Bereiche einbezieht:

  • Risikomanagement-Framework: Operationelle Risikomanagementpraktiken bilden die Grundlage gegen interne und externe Bedrohungen. Unternehmen müssen operationelle Risiken, von menschlichem Versagen bis hin zu Technologie- und Systemausfällen, kontinuierlich identifizieren, bewerten und mindern. Ein effektives Risikomanagement ermöglicht Unternehmen, potenzielle Risiken vorherzusehen und eine Strategie zur Reduzierung ihrer Auswirkungen zu entwickeln.
  • Technologie und Systeme: Der Aufbau einer robusten Informationstechnologie-(IT-)Infrastruktur ist unerlässlich. IT-Systeme, Anwendungen, Daten- und Cybersicherheitskontrollen müssen stark genug sein, um Unterbrechungen standzuhalten und sich bei operativen Vorfällen schnell zu erholen.
  • Personen und Prozesse: Qualifizierte Mitarbeiter, klar definierte Verfahren und effektive Schulungen sorgen dafür, dass alle Stakeholder in Krisensituationen angemessen reagieren und wichtige Funktionen sowie digitale Souveränität aufrechterhalten können.
  • Einrichtungen und Infrastruktur: Physische Standorte wie Rechenzentren, Stromversorgungssysteme und Netzwerkinfrastruktur müssen geschützt und mit Backup-Funktionen ausgestattet werden, um Notfallwiederherstellung und Geschäftskontinuität zu unterstützen.
  • Abhängigkeiten von Drittanbietern: Anbieter, Cloud-Service-Anbieter und Outsourcing-Partner führen Abhängigkeiten ein, die Risikomanagement-Praktiken von Drittanbietern erfordern, um sicherzustellen, dass sie Resilienzstandards erfüllen.

Der Lebenszyklus der operativen Resilienz

Unternehmen bauen operative Resilienz in allen wichtigen Bereichen durch einen kontinuierlichen, proaktiven vierstufigen Lebenszyklus auf.

1. Antizipieren und vorbereiten

Unternehmen müssen kritische Geschäftsfunktionen, potenzielle Bedrohungen und Sicherheitslücken in ihrem gesamten IT-System identifizieren (zum Beispiel lokal, Private Cloud, Sovereign Cloud, Public Cloud, Edge).

Dieser Ansatz beinhaltet die Durchführung von Cyber-Risikobewertungen, Bedrohungsmodellierung und Geschäftsfolgenanalysen (BIA), um potenzielle Schwachstellen und wichtige Funktionen zu identifizieren.

2. Vorbeugen und abmildern

In dieser Phase werden Strategien entwickelt und umgesetzt, um die Auswirkungen potenzieller Störungen zu stoppen oder abzuschwächen. Dazu gehören strenge Sicherheitsrichtlinien, Mitarbeiterschulungen und spezielle IT-Lösungen, um Vorfälle zu verhindern.

3. Reagieren und wiederherstellen

Diese Phase bezieht sich auf die Aktivierung von Plänen zur Reaktion auf Vorfälle und zur Geschäftskontinuität, um eine anhaltende Krise zu bewältigen und wichtige Funktionen schnell wiederherzustellen.

Ziel ist es, plötzliche Auswirkungen und Erschütterungen zu minimieren und die Kontinuität lebenswichtiger Dienstleistungen zu gewährleisten.

4. Anpassen und lernen

Nach einem Vorfall müssen Organisationen analysieren, was passiert ist, Daten sammeln, die Wirksamkeit des Plans überprüfen und identifizierte Lücken beheben, um ihre Resilienzfähigkeiten zu verbessern.

Aufbau einer operativen Resilienzstrategie

Die Umsetzung der operativen Resilienz in die Praxis erfordert eine kohärente Strategie, die das gesamte System einbezieht – interne Teams, Prozesse, Technologiesysteme sowie Dritt- und Vierteparteien.

Viele Unternehmen stoßen auf Hindernisse wie isolierte Datensilos, Altlast-Infrastrukturen und die Komplexität von Stresstests in großem Maßstab, ohne dabei entscheidende Geschäftsabläufe zu stören.

Ein allumfassender Plan behandelt diese Probleme durch die weiter vorne vorgestellten Schlüsselschritte.

1. Wichtige Geschäftsdienstleistungen identifizieren

Beginnen Sie mit einer Bestandsaufnahme der Dienste, die für Ihr Unternehmen unerlässlich sind und bei einer Unterbrechung den größten Schaden verursachen würden. Legen Sie Auswirkungstoleranzen und Kennzahlen fest. 

Es ist wichtig, sich nicht ausschließlich auf die technischen Aspekte des Geschäfts zu konzentrieren; achten Sie darauf, auch die Auswirkungen auf Kunden, Umsatz und Reputation zu berücksichtigen.

2. Abhängigkeiten und Verbindungen abbilden

Dokumentieren Sie, wie Systeme, Menschen und Prozesse miteinander verbunden sind. Das Verständnis dieser Vernetzungen und gegenseitigen Abhängigkeiten hilft dabei, mögliche Kettenreaktionen zu erkennen, wie z. B. der Ausfall eines Drittanbieters, der mehrere interne Systeme gleichzeitig betrifft.

Moderne Tools zur Abhängigkeitsabbildung können die Transparenz in komplexen, verteilten Umgebungen automatisieren.

3. Risiken und Schwachstellen bewerten

Identifizieren Sie wesentliche Schwachstellen, wie beispielsweise die Abhängigkeit von einem einzigen Rechenzentrum. Schaffen Sie eine gemeinsame Risikosprache im Unternehmen, indem Sie standardisierte Terminologie und Risikobewertungsskalen verwenden, die eine konsistente Kommunikation zwischen technischen Teams, Geschäftsführern und dem Vorstand ermöglichen.

Betrachten Sie sowohl traditionelle Bedrohungen (zum Beispiel Hardwareausfälle) als auch neue Bedrohungen (zum Beispiel ausgeklügelte Malware). KI-gestütztes Monitoring and Analytics können helfen, Sicherheitslücken und potenzielle Ausfallstellen in kritischen Infrastrukturen zu entdecken.

4. Governance und Rechenschaftspflicht einführen

Schaffen Sie ein Data-Governance-Framework, das die klare Verantwortung der Geschäftsleitung festlegt. Weisen Sie klare Rollen und Verantwortlichkeiten (mit Rechenschaftsmaßen) zu, um operative Resilienz zu priorisieren.

Die Führungsebene sollte auch die Risikobereitschaft des Unternehmens ermitteln, um Investitionen und Prioritäten in Bezug auf die Resilienz festzulegen.

5. Testen und Validieren implementieren

Führen Sie Szenariotests durch, um Ihre Funktionen zu validieren. Regelmäßige Übungen und Trainings tragen dazu bei, dass die Teams vorbereitet sind und die Notfallpläne auch bei Cyberangriffen oder -störungen wirksam bleiben.

6. Kontinuierliche Verbesserung aufbauen

Tatsächliche Vorfälle und Testübungen helfen, Lücken zu erkennen. Regelmäßige Bewertungen und Anpassungen tragen dazu bei, die Funktionen zu stärken und mit den laufenden Bedrohungen und Geschäftsveränderungen Schritt zu halten.

7. Einhaltung regulatorischer Anforderungen

Integrieren Sie Compliance von Anfang an in Ihre Strategie. Achten Sie darauf, Ihr Unternehmen an die entsprechenden Vorschriften auszurichten und Branchen-Frameworks wie NIST zu verwenden.

Automatisierte Compliance-Überwachung kann helfen, die kontinuierliche Einhaltung behördlicher Anforderungen nachzuweisen.

Stephanie Susnjara

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Weiterführende Lösungen
IBM Concert

Optimieren Sie die Anwendungsverwaltung und erhalten Sie KI-generierte Erkenntnisse, auf die Sie reagieren können, indem Sie IBM Concert verwenden, eine generative KI-gestützte Technologieautomatisierungsplattform.

IBM Concert erkunden
Strategieberatungsservices

Erweitern und transformieren Sie Ihr Unternehmen mit einer neuen Unternehmensstrategie und Arbeitsweise.

Erkunden Sie Strategieberatungsservices
Lösungen zur Geschäftsprozessautomatisierung

Entdecken Sie Lösungen, die mit Low-Code-Tools schnell intelligente Automatisierungen ermöglichen.

Erkunden Sie Lösungen zur Geschäftsprozessautomatisierung
Machen Sie den nächsten Schritt

Mithilfe von KI liefert IBM Concert wichtige Erkenntnisse über Ihre Abläufe und gibt anwendungsspezifische Empfehlungen zur Verbesserung. Entdecken Sie, wie Concert Ihr Unternehmen voranbringen kann.

  1. Entdecken Sie Concert
  2. Erkunden Sie Lösungen zur Geschäftsprozessautomatisierung