Was ist Hohe Verfügbarkeit?

29. Juli 2024

Autoren

Mesh Flinders

Author, IBM Think

Ian Smalley

Senior Editorial Strategist

Was ist Hohe Verfügbarkeit?

Hohe Verfügbarkeit (HA) ist ein Begriff, der sich auf die Fähigkeit eines Systems bezieht, nahezu 100 % der Zeit zugänglich und zuverlässig zu sein. 

Hochverfügbare Systeme müssen in der Lage sein, Ausfälle zu überstehen, einschließlich geplanter Ausfallzeiten und standortweiter Katastrophen. In der Regel erfüllen HA-Systeme zwei Eigenschaften:

  • Sie müssen nahezu 100 % der Zeit verfügbar sein.
  • Sie müssen in der Lage sein, bestimmte vorab festgelegte Erwartungen der Benutzer zu erfüllen. 

Mit der zunehmenden Verbreitung von Initiativen zur digitalen Transformation und der damit verbundenen Verlagerung vieler Dienste in die Cloud bieten zahlreiche Technologie- und Software-as-a-Service-Anbieter (SaaS) wie Microsoft, Amazon (AWS), IBM und Red Hat hochverfügbare Lösungen an.

Eine hohe Verfügbarkeit von IT-Systemen ist besonders in Branchen von Bedeutung, in denen kritische Anwendungen auf geringe oder gar keine Systemausfälle angewiesen sind. Beispielsweise sind Benutzer in Krankenhäusern und Rechenzentren auf hochverfügbare Lösungen angewiesen, um viele routinemäßige, tägliche Funktionen auszuführen. Wenn Benutzer aus irgendeinem Grund nicht auf ein System zugreifen können, gilt es als „nicht verfügbar“. Der Zeitraum, in dem ein System für Benutzer nicht verfügbar ist, wird als Ausfallzeit bezeichnet.

HA vs. Disaster Recovery (DR)

Notfallwiederherstellung (DR) umfasst IT-Infrastrukturtechnologien und Best Practices, die Datenverluste und Störungen der Geschäftskontinuität infolge katastrophaler Ereignisse verhindern oder minimieren sollen. Hochverfügbarkeit (HA) hingegen betrifft in der Regel kleinere Ausfälle oder Störungen, die die Verfügbarkeit eines Systems beeinträchtigen können.

Obwohl sie sich unterscheiden, verfolgen DR und HA beide das Ziel, Störungen von IT-Systemen zu minimieren, und beide setzen in der Regel redundante Komponenten und redundante Systeme als Teil einer Gesamtstrategie ein. Darüber hinaus verwenden sowohl DR als auch HA Daten-Backups, um Daten im Falle einer Vielzahl von Problemen, einschließlich Hardwareausfällen, Softwarefehlern und Stromausfällen, verfügbar zu halten.

HA vs. Fehlertoleranz

Fehlertoleranz bezeichnet die Fähigkeit eines Systems, nach dem Ausfall einer oder mehrerer kritischer Komponenten einen kontinuierlichen Betrieb aufrechtzuerhalten. Ähnlich wie HA kann Fehlertoleranz dazu beitragen, die Verfügbarkeit eines Systems während oder nach einem Störfall sicherzustellen.

Der Unterschied zwischen Fehlertoleranz und hoher Verfügbarkeit besteht jedoch im Umgang mit Ausfallzeiten. Während HA möglichst geringe Ausfallzeiten anstrebt, ist das Ziel der Fehlertoleranz eine Ausfallzeit von null. Dieses Ziel kann nur durch Redundanz erreicht werden, d. h. durch ein Backup oder eine zweite Kopie jeder einzelnen Komponente in der Infrastruktur.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Vorteile von hoher Verfügbarkeit

Da Unternehmen mehr denn je auf Online-Services und Cloud- sowie Hybrid Cloud-Architekturen angewiesen sind, um geschäftskritische Anwendungen und Services bereitzustellen, steigen die Anforderungen an die Infrastruktur, sodass Hochverfügbarkeit oberste Priorität hat. Hier sind einige der häufigsten Vorteile hochverfügbarer Systeme für Unternehmen.

Mehr Flexibilität

Da die digitale Transformation für die meisten Unternehmen ein wichtiges Ziel ist, ist eine hohe Verfügbarkeit der Systeme entscheidend, um Mitarbeitern und Kunden uneingeschränkten Zugriff auf kritische Anwendungen zu ermöglichen1

Sichere Daten
Mit einer hochverfügbaren Architektur sind die wichtigsten Daten von Unternehmen jederzeit verfügbar, zugänglich und vor unbefugten Zugriffen geschützt.
Verbesserte Markenreputation

Systemausfälle, die zu minuten- oder sogar stundenlangen Ausfallzeiten führen, können für Unternehmen in einer Vielzahl von Branchen, darunter SaaS, Luftfahrt und Mobilfunk, zu einem PR-Albtraum werden2. Eine hochverfügbare Infrastruktur stellt sicher, dass der Ruf einer Marke nicht durch Ausfälle oder unerwartete Ausfallzeiten beeinträchtigt wird.

Besserer Kundenservice

Managed Service Provider (MSPs) müssen eine hohe Verfügbarkeit von Netzwerken gewährleisten, da sie sonst Gefahr laufen, ihre Service Level Agreements (SLAs) nicht zu erfüllen. HA-Systeme unterstützen MSPs bei der Bereitstellung von Netzwerken, auf die sich ihre wichtigsten Kunden verlassen können, beispielsweise für die sichere Steuerung autonomer Fahrzeuge oder die Verwaltung von Patientenakten in einer Gesundheitseinrichtung.

AI Academy

KI-Bereitschaft mit Hybrid Cloud

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

Wie man hohe Verfügbarkeit erreicht

Unabhängig davon, ob sie in einer Branche wie dem Gesundheitswesen oder dem Finanzwesen keine Ausfallzeiten zulassen dürfen oder einfach nur nach Möglichkeiten suchen, Reputationsschäden durch Ausfälle zu vermeiden, verfolgen Unternehmen, die hohe Verfügbarkeit anstreben, in der Regel einen vierstufigen Prozess.

  1. Einzelne Fehlerquellen beseitigen: Einzelne Fehlerquellen sind Komponenten, die bei einem Ausfall dazu führen würden, dass das gesamte System nicht mehr funktioniert. Wenn beispielsweise eine Reihe von Servern über einen einzigen Netzwerk-Switch betrieben wird und dieser Switch ausfällt, fallen alle Server im Netzwerk aus. Eine Taktik namens Lastenausgleich, bei der die Arbeit auf die Kapazitäten eines Systems verteilt wird, wird häufig eingesetzt, um einzelne Fehlerquellen zu reduzieren oder sogar ganz zu beseitigen.

  2. Zuverlässiges Failover erstellen: Failover beschreibt die Übertragung von Workloads von einem primären System auf ein sekundäres System, wenn das primäre System ausfällt. Wenn Unternehmen ein zuverlässiges Failover erstellen, können Workloads ohne nennenswerte Ausfallzeiten, Datenverluste oder Leistungseinbußen übertragen werden.

  3. Störungen sofort erkennen: Hohe Verfügbarkeit erfordert Prozesse, mit denen Störungen oder Fehler in einem System sofort nach ihrem Auftreten erkannt werden. Viele moderne Systeme verfügen über eine integrierte automatische Fehlererkennung. Einige können sogar einen Fehler erkennen und die nächste Maßnahme auswählen, beispielsweise die Implementierung eines Failover-Prozesses.

  4. Aufbau solider Daten-Backups und Wiederherstellungsfunktionen: Wenn einzelne Teile eines Systems ausfallen, können Daten verloren gehen, wenn keine geeigneten Verfahren für Datenbackups und Wiederherstellung vorhanden sind. Datenschutztechnologien und -praktiken erstellen regelmäßig Kopien von Daten und Anwendungen auf einem separaten, sekundären Gerät, damit Daten und Anwendungen schnell wiederhergestellt werden können.

Lastausgleich

Viele HA-Systeme verwenden Lastausgleich, einen Prozess, bei dem der Datenverkehr auf mehrere Server verteilt wird, um die Verfügbarkeit von Anwendungen zu optimieren. Bei einer stark frequentierten Website oder einem Cloud-Service empfängt ein System beispielsweise täglich Millionen von Benutzeranfragen. Lastausgleich stellt sicher, dass Anwendungen Inhalte von Webservern prompt und ohne Unterbrechungen an Benutzer liefern können. Lastausgleich, insbesondere der gleichzeitige Einsatz mehrerer Lastausgleichsfunktionen, kann dazu beitragen, dass keine einzelne Komponente in einem System überlastet wird, was zu einem Single Point of Failure führen könnte, der Ausfallzeiten oder einen Ausfall verursachen könnte.

Redundanz

Redundanz – also eine sekundäre oder Backup-Komponente, die bei Ausfall einer primären Komponente deren Aufgaben übernimmt – ist ein wichtiger Bestandteil eines hochverfügbaren Systems. Mithilfe von Redundanz bleiben Datenbanken für Benutzer und Anwendungen auch dann verfügbar, wenn eine Komponente nicht funktioniert. Wenn eine Komponente in einem System nicht redundant ist, wird diese Komponente als Single Point of Failure betrachtet, da ihr Ausfall möglicherweise dazu führen könnte, dass das gesamte System nicht mehr funktioniert.

Cluster mit hoher Verfügbarkeit

Hochverfügbare Cluster, auch als Hochverfügbarkeits-Clustering bezeichnet, sind Gruppen miteinander verbundener Maschinen, die als ein einziges System zusammenarbeiten. Wenn ein Maschine in einem Cluster ausfällt, überträgt die Cluster-Verwaltungssoftware dessen Workloads auf einen anderen Rechner. In einem Hochverfügbarkeits-Cluster gewährleistet der gemeinsame Speicher zwischen den einzelnen Knoten (Computern) einen vollständigen Datenerhalt, falls ein einzelner Knoten ausfällt.

Wie messen Sie hohe Verfügbarkeit?

Hohe Verfügbarkeit wird anhand der 100-prozentigen Betriebsbereitschaft eines Systems gemessen, d. h. es darf zu keinem einzigen Ausfall kommen. Zwar kann kein System zu 100 % betriebsbereit sein, doch hilft es, dies als Ziel festzulegen, um die Verfügbarkeit eines Systems über einen bestimmten Zeitraum zu messen. Die gängigste Metrik für Hochverfügbarkeitssysteme und -dienste ist die sogenannte „Fünf-Neunen-Verfügbarkeit“.

Fünf-Neunen-Verfügbarkeit

Die Fünf-Neunen-Verfügbarkeit bedeutet, dass ein System 99,999 % der Zeit laufen und seine Leistung erbringen kann. In der Regel benötigen nur Systeme in hochkritischen Branchen wie dem Gesundheitswesen, dem Transportwesen, dem Finanzwesen oder der Regierung eine Fünf-Neunen-Verfügbarkeit. Diese Systeme sind für das Leben der Menschen, den Zugang zu Nahrung und Unterkunft sowie für das wirtschaftliche Wohlergehen von großer Bedeutung.

Systeme, die nicht in diesen hochkritischen Branchen eingesetzt werden, erfordern in der Regel keine so hohe Betriebsverfügbarkeit und kommen mit einer Verfügbarkeit von „drei oder vier Neunen“ (99,9 % oder 99,99 %) aus. Eine weitere gängige Beschreibung lautet, dass ein hochverfügbares System eine „Verfügbarkeit von 99,9/99,999 %” aufweist.

Weitere wichtige Metriken: Durchschnitts- und Wiederherstellungszeiten

Neben einer Fünf-Neunen-Verfügbarkeit verwenden IT-Systemmanager mehrere weitere wichtige Metriken, um die Verfügbarkeit ihrer Systeme zu messen:

  • Mean Time Between Failure (MTBF): Die mittlere Zeit zwischen auftretenden Fehlern (MTBF) ist ein Maß für die Zuverlässigkeit eines Systems oder einer Komponente. Sie ist ein entscheidendes Element des Wartungsmanagements, da sie die durchschnittliche Zeit angibt, die ein System oder eine Komponente bis zu einem Ausfall in Betrieb ist. Die MTBF-Formel wird häufig im Zusammenhang mit der Wartbarkeit industrieller oder elektronischer Systeme verwendet, bei denen die Störung einer Komponente zu erheblichen Ausfallzeiten oder sogar Sicherheitsrisiken führen kann. MTBF wird jedoch bei vielen Arten von reparaturfähigen Systemen und in verschiedenen Branchen eingesetzt.

  • Mittlere Reparaturzeit (MTTR): Die mittlere Reparaturzeit (MTTR), manchmal auch als mittlere Wiederherstellungszeit bezeichnet, ist eine Metrik zur Messung des durchschnittlichen Zeitaufwands für die Reparatur eines Systems oder einer Ausrüstung nach einem Ausfall. Die MTTR umfasst die Zeit zwischen dem Auftreten der Störung und dem Zeitpunkt, zu dem das System oder die Ausrüstung wieder voll funktionsfähig ist. Dies umfasst die Zeit, die benötigt wird, um den Fehler zu erkennen, das Problem zu diagnostizieren und zu beheben. Die MTTR ist eine wichtige Metrik, die überwacht werden sollte, da sie die Verfügbarkeit und Zuverlässigkeit von Systemen und Geräten bewertet.

  • Recovery Time Objective (RTO): Recovery Time Objective (RTO) ist die Zeit, die benötigt wird, um nach einem Ausfall (geplant, ungeplant oder durch eine Störung verursacht) die normale Betriebsbereitschaft eines Systems, einer Anwendung oder einer Gruppe von Anwendungen wiederherzustellen. Die RTO kann für geplante, ungeplante und Notfallwiederherstellung unterschiedlich sein.

  • Recovery Point Objective (RPO): Recovery Point Objective (RPO) ist der Zeitpunkt relativ zum Ausfall, zu dem Sie die Daten erhalten müssen. Änderungen an Daten, die mindestens diesem Zeitraum vor dem Ausfall oder der Katastrophe vorausgehen, werden durch die Wiederherstellungsprozesse gesichert. Null ist ein gültiger Wert und entspricht der Anforderung „kein Datenverlust“.

Beispiele für hohe Verfügbarkeit

Da Unternehmen in vielen Branchen umfassende Initiativen zur digitalen Transformation durchführen, steigen die Anforderungen an die Verfügbarkeit ihrer Infrastruktur. Durch Remote-Arbeit und die Verbreitung von 5G-Netzen ist es für Nutzer selbstverständlich geworden, jederzeit und überall auf Daten und Anwendungen zugreifen zu können. Allerdings nur, wenn die zugrunde liegenden Systeme, die die Anwendungen betreiben und den Zugriff auf die Daten regeln, verfügbar sind. Nachfolgend finden Sie einige Beispiele für hochverfügbare Systeme, die moderne Unternehmen in ihrer Entwicklung unterstützen:

Elektronische Patientenakten (EHR)

Die Zeiten, in denen ein Arzt in einem Schrank nach Akten blätterte, um das Datum Ihrer letzten Impfung zu finden, sind vorbei. Wenn Sie heute in die Notaufnahme oder zu einem Facharzt gehen, ist es fast sicher, dass Ihr Arzt Ihre Unterlagen online einsehen wird. Aufgrund der kritischen und privaten Natur dieser Art von Informationen sind Patientenakten ein Beispiel für ein hochverfügbares System, das innerhalb von Sekunden präzise Informationen mit nahezu keinen Ausfallzeiten sicher bereitstellen kann.

Autonome Fahrzeuge

Fahrerlose oder autonome Fahrzeuge wie Autos, Drohnen und andere sind auf schnelle, leistungsstarke Internetverbindungen angewiesen, damit die künstliche Intelligenz (KI), die sie steuert, funktionieren kann. Wenn ein autonomes Fahrzeug beispielsweise an einer Ampel hält, werden Zehntausende von Daten nahezu in Echtzeit verarbeitet, damit es an der richtigen Stelle anhält und seine Fahrt zum Ziel fortsetzt. Hohe Verfügbarkeit ist für den sicheren Betrieb autonomer Fahrzeuge aller Art von entscheidender Bedeutung.

Internet der Dinge (IoT)

Das Internet der Dinge (IoT) ist ein Netzwerk aus physischen Geräten, Fahrzeugen, Anwendungen und anderen Objekten, die mit Sensoren ausgestattet und mit dem Internet verbunden sind, sodass sie Daten sammeln und austauschen können. Mit der Ausweitung des IoT-Ökosystems auf Straßen, Wasserwege, Haushaltsgeräte, Wetterüberwachung und vieles mehr sind Millionen von Geräten auf Netzwerke angewiesen. Hohe Verfügbarkeit trägt dazu bei, dass Netzwerke, die IoT-Geräte unterstützen, reibungslos und ohne Unterbrechungen funktionieren.

Big Data

Da Unternehmen immer mehr Möglichkeiten finden, die im digitalen Zeitalter generierten riesigen Datenmengen zu nutzen, ist eine hohe Verfügbarkeit für eine effiziente und effektive Datenverarbeitung unerlässlich. Rechenzentren und komplexe Analyseplattformen führen kontinuierlich Datenverarbeitungen und Echtzeitanalysen durch, und Ausfallzeiten können Projekte um Monate zurückwerfen. HA-Lösungen ermöglichen Unternehmen einen ununterbrochenen Zugriff auf ihre wichtigsten Daten.

Weiterführende Lösungen
IBM Cloud Infrastructure Center 

IBM Cloud Infrastructure Center ist eine mit OpenStack kompatible Softwareplattform für die Verwaltung der Infrastruktur von Private Clouds auf IBM zSystems und IBM LinuxONE.

Cloud Infrastructure Center erkunden
IT-Infrastrukturlösungen

Entdecken Sie Server, Speicher und Software für die Hybrid-Cloud- und KI-Strategie Ihres Unternehmens.

IT-Infrastrukturlösungen entdecken
Lösungen für Cloud-Infrastrukturen

Finden Sie die richtige Cloud-Infrastrukturlösung für Ihre Geschäftsanforderungen und skalieren Sie Ressourcen nach Bedarf.

Cloud-Lösungen
Machen Sie den nächsten Schritt

Transformieren Sie Ihre Unternehmensinfrastruktur mit der Hybrid Cloud und KI-fähigen Lösungen von IBM. Entdecken Sie Server, Speicher und Software, die für die Sicherung, Skalierung und Modernisierung Ihres Unternehmens entwickelt wurden, oder greifen Sie auf Erkenntnisse von Experten zu, um Ihre generative KI-Strategie zu verbessern.

IT-Infrastrukturlösungen entdecken E-Book herunterladen