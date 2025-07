Das IBM Software Site Reliability Engineering (SRE)-Team spielt eine entscheidende Rolle bei der Aufrechterhaltung der Zuverlässigkeit und Sicherheit der SaaS-Angebote und der Managed Services-Infrastruktur von IBM. Das SRE-Team arbeitet in der IBM Cloud, AWS, Microsoft Azure und Google Cloud Platform tätig und stellt weltweit fast 70 SaaS-Lösungen bereit, wobei es riesige Datenmengen bis hinunter auf die Microservice-Ebene erfasst.

Die Erstellung einer umfassenden Resilienzbewertung stellte für dieses Team eine erhebliche Herausforderung dar. Kevin Yu, Principal Site Reliability Engineer, erläutert: „Unsere bisherigen Methoden umfassten Workshops und den umfangreichen Einsatz von Tabellenkalkulationen zur Bewertung anhand unseres Playbooks, was buchstäblich Monate in Anspruch nehmen konnte und auch eine Herausforderung bei der Aktualisierung darstellte. Diese Methoden waren nicht in der Lage, einen ganzheitlichen Überblick über die Widerstandsfähigkeit unseres Systems zu bieten.”

Das SRE-Team benötigte außerdem eine Lösung, um wichtige Metriken zur Ausfallsicherheit wie Verfügbarkeit, Wiederherstellbarkeit und Beobachtbarkeit im Zeitverlauf genau zu messen und zu verfolgen, um Schwachstellen zu identifizieren und Verbesserungen effektiv umzusetzen.

Die Verbesserung der monatlichen Betriebsüberprüfungen (MORs) stellte eine weitere wichtige Herausforderung dar. Die Ineffizienz des bestehenden MOR-Prozesses des SRE-Teams beeinträchtigte dessen Fähigkeit, Probleme schnell zu erkennen und zu beheben. Unternehmenssilos erschwerten den Prozess zusätzlich und machten es schwierig, verschiedene Teams auf eine gemeinsame Resilienzstrategie auszurichten.