Ein globales Software-SRE-Unternehmen wird durch Automatisierung widerstandsfähiger
Das IBM Software Site Reliability Engineering (SRE)-Team spielt eine entscheidende Rolle bei der Aufrechterhaltung der Zuverlässigkeit und Sicherheit der SaaS-Angebote und der Managed Services-Infrastruktur von IBM. Das SRE-Team arbeitet in der IBM Cloud, AWS, Microsoft Azure und Google Cloud Platform tätig und stellt weltweit fast 70 SaaS-Lösungen bereit, wobei es riesige Datenmengen bis hinunter auf die Microservice-Ebene erfasst.
Die Erstellung einer umfassenden Resilienzbewertung stellte für dieses Team eine erhebliche Herausforderung dar. Kevin Yu, Principal Site Reliability Engineer, erläutert: „Unsere bisherigen Methoden umfassten Workshops und den umfangreichen Einsatz von Tabellenkalkulationen zur Bewertung anhand unseres Playbooks, was buchstäblich Monate in Anspruch nehmen konnte und auch eine Herausforderung bei der Aktualisierung darstellte. Diese Methoden waren nicht in der Lage, einen ganzheitlichen Überblick über die Widerstandsfähigkeit unseres Systems zu bieten.”
Das SRE-Team benötigte außerdem eine Lösung, um wichtige Metriken zur Ausfallsicherheit wie Verfügbarkeit, Wiederherstellbarkeit und Beobachtbarkeit im Zeitverlauf genau zu messen und zu verfolgen, um Schwachstellen zu identifizieren und Verbesserungen effektiv umzusetzen.
Die Verbesserung der monatlichen Betriebsüberprüfungen (MORs) stellte eine weitere wichtige Herausforderung dar. Die Ineffizienz des bestehenden MOR-Prozesses des SRE-Teams beeinträchtigte dessen Fähigkeit, Probleme schnell zu erkennen und zu beheben. Unternehmenssilos erschwerten den Prozess zusätzlich und machten es schwierig, verschiedene Teams auf eine gemeinsame Resilienzstrategie auszurichten.
Das SRE-Team stellte die IBM Concert Plattform bereit, um Silos abzubauen, kontinuierliche Verbesserungen voranzutreiben und einen wiederholbaren Ansatz für die Ausfallsicherheit zu entwickeln.
Die Lösung kombiniert Automatisierung und KI-gestützte Erkenntnisse in einem standardisierten, skalierbaren Framework, um die Resilienz zu bewerten, zu verbessern und aufrechtzuerhalten.
Vor der Implementierung von IBM Concert waren Ausfallsicherheitsbewertungen eine manuelle, arbeitsintensive Aufgabe, deren Durchführung Monate in Anspruch nehmen konnte. Das Resilience-Framework der Lösung hat diesen Prozess automatisiert und bietet einen umfassenden Überblick über wichtige Metriken zur Ausfallsicherheit, wie Verfügbarkeit, Wiederherstellbarkeit und Observability. Durch die Automatisierung konnten Zeit und Aufwand erheblich reduziert werden, sodass sich das SRE-Team nun auf die Verbesserung der Robustheit und Zuverlässigkeit der Anwendungen konzentrieren kann.
Der bisherige MOR-Prozess war ineffizient und zeitaufwendig und erforderte oft Hunderte von Stunden für die Extraktion und Zusammenstellung der Daten. Mit IBM Concert fasst das SRE-Team Daten nun effizienter zusammen und berichtet darüber. Anschließend stellt es den Stakeholdern die genauesten Informationen für die Compliance-Bewertung und strategische Planung zur Verfügung. Die Lösung konsolidiert außerdem Daten aus verschiedenen Quellen, um eine einheitliche Ansicht zu erstellen, die die Problemlösungsfähigkeiten des SRE-Teams verbessert.
Yu erklärt: „Concert hat uns geholfen, Silos aufzubrechen und produktiver zu werden. Wir verfügen jetzt über ein skalierbares Framework, um die Ausfallsicherheit von Anwendungen bei IBM zu messen, zu verbessern und aufrechtzuerhalten.”
Die Bereitstellung des Resilience-Frameworks in IBM Concert hat dem SRE-Team von IBM transformative Ergebnisse gebracht.
„Die Lösung hat unseren Ansatz zur Anwendungsresilienz grundlegend verändert“, so Yu. „Durch die Automatisierung der Erfassung wichtiger Resilienzdaten haben wir Silos beseitigt und Resilienz operationalisiert. Im Ergebnis reduzierte die Ausfallsicherheit von IBM Concert die Personentage in einer unternehmensweiten Bewertung der Ausfallsicherheit pro Anwendung um 62 % im Vergleich zur manuellen Bewertung.1
Das SRE-Team gibt an, dass die Umstellung auch ihre Produktivität verbessert und die Zusammenarbeit mit anderen Teams gefördert hat. Mithilfe des standardisierten Frameworks der Lösung kann das SRE-Team verschiedene Bereiche des Unternehmens auf eine gemeinsame Resilienzstrategie ausrichten, wodurch sich die allgemeine Koordination und Kommunikation verbessert. Darüber hinaus haben umfassende und konsistente Berichtsfunktionen die Transparenz und Verantwortlichkeit innerhalb von IBM verbessert. Interne Stakeholder haben angegeben, dass sie nun ein besseres Verständnis für Resilienz-Metriken und das Problemmanagement haben, was zu fundierteren Entscheidungen führt.
Durch die Nutzung des Resilienzstatus von IBM Concert hat das SRE-Team einen optimierten und effektiveren Ansatz für die Bewertung der Ausfallsicherheit und MORs erreicht, der dazu beiträgt, dass die SaaS- und Managed Services-Infrastruktur von IBM zuverlässig und sicher bleibt. „Dank des Resilienzstatus von IBM Concert konnte das IBM SRE-Team den Arbeitsaufwand für MOR um 72 % gegenüber der manuellen Erstellung des Berichts reduzieren“, so Yu.1
Das Unternehmen IBM Software SRE ist ein globales Team, das sich auf die Bereitstellung hochverfügbarer und hochskalierbarer Produktions-SaaS für IBM Softwareprodukte konzentriert. Das Software SRE-Team sorgt für die Bereitstellung, den Einsatz, die Überwachung, die Wartung und das Management von Vorfällen durch die Standardisierung von Tools, Prozessen, Automatisierung, Runbooks und Praktiken. Sie arbeiten eng mit den IBM Softwareentwicklungsteams zusammen, um Änderungen zu entwerfen und zu implementieren, und bieten so einen äußerst ausfallsicheren Service während des gesamten Software-Lebenszyklus.
1: Basierend auf den Ergebnissen eines internen Tests. Individuelle Ergebnisse können variieren.
© Copyright IBM Corporation 2025. IBM, das IBM-Logo, Concert, IBM Cloud und IBM Concert sind Marken oder eingetragene Marken der IBM Corporation in den USA und/oder anderen Ländern.
Microsoft ist eine Marke der Microsoft Corporation in den USA bzw. anderen Ländern.
Die Beispiele dienen nur zur Veranschaulichung. Die tatsächlichen Ergebnisse variieren je nach Kundenkonfiguration und -bedingungen. Daher können keine allgemein erwarteten Ergebnisse bereitgestellt werden.