Das Erstellen eines umfassenden Disaster-Recovery-Plans beginnt mit einer Analyse der Auswirkungen auf das Unternehmen (Business-Impact-Analyse). Bei der Durchführung dieser Analyse erstellen Sie eine Reihe detaillierter Katastrophenszenarien, anhand derer Sie die Größe und den Umfang der Verluste vorhersagen können, die Ihnen bei einer Unterbrechung bestimmter Geschäftsprozesse entstehen würden. Was wäre zum Beispiel, wenn das Call-Center Ihres Kundenservice durch ein Feuer zerstört würde? Oder wenn es an Ihrem Unternehmenssitz ein Erdbeben gäbe?

Auf diese Weise können Sie die kritischsten Bereiche und Funktionen des Unternehmens ermitteln und bestimmen, wie viel Ausfallzeit jede dieser kritischen Funktionen verkraften kann. Mit diesen Informationen können Sie einen Plan erstellen, wie die kritischsten Abläufe in verschiedenen Szenarien aufrechterhalten werden können.

Die IT-Disaster-Recovery-Planung sollte sich an die Business-Continuity-Planung anschließen und diese unterstützen. Wenn Ihr Business-Continuity-Plan beispielsweise vorsieht, dass Kundenservicemitarbeiter nach einem Brand in einem Call-Center von zu Hause aus arbeiten sollen – welche Hardware, Software und IT-Ressourcen müssten dann zur Unterstützung dieses Plans zur Verfügung stehen?

Risikoanalyse



Die Bewertung der Wahrscheinlichkeit und der potenziellen Folgen der Risiken, denen Ihr Unternehmen ausgesetzt ist, ist ebenfalls ein wesentlicher Bestandteil der Disaster-Recovery-Planung. Angesichts der zunehmenden Verbreitung von Cyberangriffen und Ransomware ist es von entscheidender Bedeutung, die allgemeinen Cybersicherheitsrisiken zu verstehen, mit denen alle Unternehmen heute konfrontiert sind, sowie die Risiken, die für Ihre Branche und Ihren Standort spezifisch sind.

Für eine Vielzahl von Szenarien, darunter Naturkatastrophen, Geräteausfälle, Insiderbedrohungen, Sabotage und Mitarbeiterfehler, müssen Sie Ihre Risiken bewerten und die Gesamtauswirkungen auf Ihr Unternehmen abschätzen. Stellen Sie sich die folgenden Fragen:

Welche finanziellen Verluste aufgrund verpasster Verkaufschancen oder Unterbrechungen von umsatzwirksamen Aktivitäten würden für Ihr Unternehmen entstehen?





Welchen Imageschaden würde Ihre Marke erleiden? Wie würde sich das auf die Kundenzufriedenheit auswirken?





Welche Auswirkungen hätte das auf die Produktivität der Mitarbeiter? Wie viele Arbeitsstunden würden gegebenenfalls verloren gehen?





Welche Gesundheits- und/oder Sicherheitsrisiken könnte der Vorfall mit sich bringen?





Würden Fortschritte bei Geschäftsinitiativen oder -zielen beeinträchtigt? Wie?

Priorisierung von Anwendungen



Nicht alle Workloads sind gleich wichtig für die Aufrechterhaltung des Geschäftsbetriebs, und bei einigen Anwendungen sind Ausfallzeiten weitaus leichter zu verkraften als bei anderen. Klassifizieren Sie Ihre Systeme und Anwendungen in drei Stufen, je nachdem, wie lange Sie einen Ausfall verkraften können und wie schwerwiegend die Folgen eines Datenverlusts wären.

Geschäftskritisch: Anwendungen, deren Funktionen für den Fortbestand Ihres Unternehmens unentbehrlich sind.



Wichtig: Anwendungen, bei denen relativ kurze Ausfallzeiten in Kauf genommen werden können.



Nicht wesentlich: Anwendungen, die Sie vorübergehend durch manuelle Prozesse ersetzen oder auf die Sie zeitweilig verzichten können.

Dokumentieren von Abhängigkeiten



Der nächste Schritt in der Disaster-Recovery-Planung ist eine vollständige Bestandsaufnahme Ihrer Hardware und Software. In diesem Stadium ist es wichtig, die kritischen Abhängigkeiten zwischen den Anwendungen zu klären. Wenn eine Softwareanwendung ausfällt – welche anderen sind dann betroffen?

Ausfallsicherheit und Disaster-Recovery-Modelle, die bereits bei der Entwicklung von Systemen berücksichtigt werden, sind der beste Weg, um die Abhängigkeiten zwischen Anwendungen zu beherrschen. In den heutigen, auf Microservices basierenden Architekturen kommt es nur allzu oft vor, dass Prozesse nicht gestartet werden können, weil andere Systeme oder Prozesse ausgefallen sind. Solche Probleme müssen unbedingt rechtzeitig aufgedeckt werden, damit Sie Alternativpläne für Ihre Systeme und Prozesse entwickeln können, bevor es zu einer tatsächlichen Katastrophe kommt.

Festlegen von Zielen für die Wiederherstellungszeit, den Wiederherstellungspunkt und die Wiederherstellungskonsistenz



Anhand Ihrer Risiko- und Auswirkungsanalysen sollten Sie in der Lage sein, Ziele dafür festzulegen, wie lange die Wiederherstellung der Systeme dauern darf, in welchem Umfang die Daten wiederhergestellt werden müssen und wie viele Inkonsistenzen Sie bei den Daten tolerieren können.

Ihr Ziel für die Wiederherstellungszeit (RTO, Recovery Time Objective) ist die maximale Zeitspanne, die für die Wiederherstellung der Anwendungs- oder Systemfunktion nach einer Serviceunterbrechung benötigt werden darf.

Ihr Ziel für den Wiederherstellungspunkt (Recovery Point Objective, RPO) ist das maximale Alter der Daten, die wiederhergestellt werden müssen, damit Ihr Unternehmen den regulären Betrieb wiederaufnehmen kann. Für einige Unternehmen kann der Verlust von Daten schon nach wenigen Minuten katastrophal sein, während andere Branchen längere Zeiträume verkraften können.

In der Service-Level-Vereinbarung (SLA) für kontinuierliche Datenschutzservices wird ein Ziel für die Wiederherstellungskonsistenz (Recovery Consistency Objective, RCO) festgelegt. Dabei handelt es sich um eine Metrik, die angibt, wie viele inkonsistente Einträge in Geschäftsdaten aus wiederhergestellten Prozessen oder Systemen in Disaster-Recovery-Situationen tolerierbar sind, und die die Integrität von Geschäftsdaten in komplexen Anwendungsumgebungen beschreibt.

Probleme mit der Einhaltung gesetzlicher Vorschriften



Die gesamte Disaster-Recovery-Software und die entsprechenden Lösungen, die Ihr Unternehmen eingeführt hat, müssen alle Datenschutz- und Sicherheitsanforderungen erfüllen, zu deren Einhaltung Sie verpflichtet sind. Das bedeutet, dass alle Backup- und Failover-Systeme so konzipiert sein müssen, dass sie dieselben Standards zur Gewährleistung der Vertraulichkeit und Integrität der Daten erfüllen wie Ihre Primärsysteme.

Gleichzeitig schreiben verschiedene gesetzliche Bestimmungen vor, dass alle Unternehmen Disaster-Recovery- und/oder Business-Continuity-Pläne unterhalten müssen. So verlangt beispielsweise der Sarbanes-Oxley Act (SOX) von allen börsennotierten Unternehmen in den USA, alle Geschäftsunterlagen für einen Zeitraum von mindestens fünf Jahren aufzubewahren. Die Nichteinhaltung dieser Vorschrift (darunter das Versäumnis, geeignete Datensicherungssysteme einzurichten und zu testen) kann erhebliche Geldstrafen für Unternehmen und sogar Gefängnisstrafen für deren Führungskräfte zur Folge haben.

Auswahl von Technologien



Backups bilden die Grundlage für jeden soliden Disaster-Recovery-Plan. In der Vergangenheit nutzten die meisten Unternehmen für Backups Bänder und Festplatten (HDD), wobei sie mehrere Kopien ihrer Daten aufbewahrten und mindestens eine an einem externen Standort speicherten.

In der heutigen, sich ständig wandelnden digitalen Welt können Bandsicherungen in externen Repositorys oft nicht die RTOs erreichen, die zur Aufrechterhaltung geschäftskritischer Abläufe erforderlich sind. Der Aufbau einer eigenen Disaster-Recovery-Lösung beinhaltet die Replikation vieler Funktionen Ihrer Produktionsumgebung und verursacht Kosten für Supportpersonal, Verwaltung, Einrichtungen und Infrastruktur. Aus diesem Grund greifen viele Unternehmen auf cloudbasierte Backup-Lösungen oder auf Anbieter von Disaster-Recovery as a Service (DRaaS) zurück.

Auswahl von Recovery-Standorten



Beim Aufbau eines eigenen Rechenzentrums für die Disaster-Recovery müssen mehrere konkurrierende Ziele miteinander in Einklang gebracht werden. Einerseits sollte eine Kopie Ihrer Daten an einem Ort gespeichert werden, der geografisch so weit von Ihrem Hauptsitz entfernt ist, dass er nicht von denselben seismischen Ereignissen, Umweltbedrohungen oder anderen Gefahren betroffen ist wie Ihr Hauptstandort. Andererseits dauert die Wiederherstellung von extern gespeicherten Backups immer länger als die Wiederherstellung von Backups, die sich am Hauptstandort befinden, und die Netzlatenz kann bei größeren Entfernungen noch größer sein.

Kontinuierliche Tests und Überprüfung



Einfach ausgedrückt: Wenn Ihr Disaster-Recovery-Plan nicht getestet wurde, kann man sich nicht auf ihn verlassen. Alle Mitarbeiter mit entsprechenden Zuständigkeiten sollten am Disaster-Recovery-Testlauf teilnehmen, der möglicherweise auch die Aufrechterhaltung des Betriebs vom Ausweichstandort für eine gewisse Zeit beinhaltet.

Wenn die Durchführung umfassender Disaster-Recovery-Tests Ihr Budget oder Ihre Möglichkeiten übersteigt, können Sie auch einen Durchlauf der Testverfahren als „Trockenübung“ planen. Sie sollten sich allerdings darüber im Klaren sein, dass diese Art von Test Anomalien oder Schwächen in Ihren DR-Verfahren mit geringerer Wahrscheinlichkeit sichtbar macht – insbesondere das Vorhandensein von bis dahin unentdeckten Anwendungsabhängigkeiten – als ein vollständiger Test.

Da sich Ihre Hardware- und Software-Assets im Laufe der Zeit ändern, sollten Sie sicherstellen, dass Ihr Disaster-Recovery-Plan ebenfalls aktualisiert wird. Sie sollten den Plan in regelmäßigen Abständen überprüfen und überarbeiten.

Das IBM Knowledge Center bietet ein Beispiel für einen Disaster-Recovery-Plan.