Die mittlere Betriebsdauer bis zum Ausfall (MTTF) ist die durchschnittliche Zeit, in der ein nicht reparierbares System oder Gerät (wie z. B. eine Glühbirne) funktioniert, bevor ein Ausfall eintritt, der es unbrauchbar macht oder nicht den Spezifikationen entspricht.
Unternehmen verwenden diesen Leistungsindikator zur Schätzung der erwarteten Lebensdauer einer technischen oder mechanischen Komponente.
In DevOps ist MTTF oft ein Messwert dafür, wie lange ein Service für die Benutzer zugänglich bleibt, bevor es zu erheblichen Ausfällen und Ausfallzeiten kommt.
Ein niedriges oder sinkendes MTTF warnt Entwickler und Site Reliability Engineers, dass Infrastruktur, Code oder Abhängigkeiten fragil sind und Verbesserungen zur Steigerung ihrer Zuverlässigkeit erfordern. Ein hohes MTTF bedeutet, dass die Produktionsumgebung über längere Zeiträume zwischen größeren Vorfällen und Abstürzen stabil bleibt und dass IT-Teams somit eine robuste IT-Architektur betreiben und Anwendungen sicher bereitstellen.
MTTF-Metriken helfen zusammen mit anderen Wartungsmetriken wie der mittleren Betriebszeit zwischen Ausfällen (MTBF) DevOps-Teams, die Kapazitäts- und Lebenszyklusplanung für eine Reihe von IT-Komponenten (einschließlich Netzwerkknoten, Container und Managed Services) zu verbessern und so die Wahrscheinlichkeit unerwarteter Ausfälle zu verringern.
Diese Metriken ermöglichen es Unternehmen außerdem, die Zuverlässigkeit von Equipment über Releases hinweg zu verfolgen, sodass sie feststellen können, ob Code, Infrastructure as Code (IaC) und Konfigurationsänderungen Systeme resilient machen, anstatt sie nur schneller auszuliefern.
MTTF ist die mittlere Betriebszeit bis zum Ausfall für eine Population identischer Elemente. In seiner einfachsten Form teilt MTTF die Gesamtbetriebszeit aller Assets durch die Gesamtzahl der Assetausfälle.
Dabei sind die „Gesamtbetriebsstunden“ die Summe der Lebensdauer jedes Bauteils bis zum Ausfall (oder bis zum Ende der Beobachtung), und die „Anzahl der Ausfälle“ ist die Anzahl der tatsächlich ausgefallenen Elemente:
MTTF = Gesamtbetriebszeiten aller Elemente/Gesamtzahl der Ausfälle
Nehmen wir als Beispiel einen Container-Cluster.
Container sind kurzlebige Instanzen, die normalerweise nicht repariert werden. Wenn ein Container abstürzt oder fehlerhaft wird, wird er von Container-Orchestrierungstools (wie Kubernetes) einfach durch einen neuen ersetzt.
Ein IT-Team, das einen zustandslosen Webservice auf 50 identischen Anwendungscontainern betreibt, kann das MTTF berechnen, indem gemessen wird, wie lange jeder Container läuft (von der Erstellung bis zum Ausfall), und dies durch die Anzahl der ausgefallenen Container dividiert. In seiner Bewertung stellt das Team fest, dass die Gruppe von 50 Containern insgesamt 200 Stunden lief, wobei fünf Container dabei ausfielen.
MTTF = 200 Stunden Betriebszeit/5 Ausfälle = 40 Stunden
Das MTTF für die Container in diesem Cluster beträgt 40 Stunden.
Das MTTF ist keine perfekte oder exakte Formel für reale Anwendungsfälle, daher verwenden DevOps-Teams es im Allgemeinen als Annäherungswert für die Komponentenlebensdauer und im Kontext anderer Incident-Management-KPIs, wie z. B.Mittlere Reparaturzeit (MTTR) und MTBF. MTTF kann in diesem Fall Teams dabei helfen, abzuschätzen, wie viele Neustarts der Containercluster täglich benötigt, damit sie die Clustergröße und die Ressourcen für die automatische Skalierung entsprechend zuweisen können.
Je genauer jedoch die Ausfall- und Betriebsdaten sind und je mehr Daten die Teams einbeziehen, desto genauer fallen die MTTF-Berechnungen aus.
Die Überwachung des MTTF ermöglicht es Teams, die Systemzuverlässigkeit zu quantifizieren und fundierte Entscheidungen über das Asset-Management zu treffen, was eine bessere Planung fördert und widerstandsfähigere Entwürfe und Prozesse vorantreibt. Es hilft Unternehmen bei der Priorisierung von:
MTTF bietet einen klaren, numerischen Überblick über die Lebensdauer eines Assets vor dem Ausfall, so dass Teams die Zuverlässigkeit objektiv bewerten können, anstatt sich auf Erfahrungsberichte zu verlassen.
MTTF isoliert auch die inhärente Zuverlässigkeit von Komponenten oder Diensten von der MTTR, die misst, wie schnell Teams Systemprobleme beheben, wenn sie auftreten. Wenn MTTF für einen Dienst abnimmt, signalisiert das oft tiefgründige Design- oder Abhängigkeitsprobleme (zum Beispiel eine fehlerhafte Bibliothek). Teams können diese Signale nutzen, um die Fehlersuche auszulösen und die Ursache von Systemfehlern zu finden.
Durch die Verfolgung von Metriken über einen bestimmten Zeitraum können Teams anfällige Dienste identifizieren und Verbesserungen priorisieren, um die Häufigkeit von Zwischenfällen in Zukunft zu reduzieren.
Die MTTF-Überwachung kann Unternehmen dabei helfen, ihre Wartungsabläufe zu optimieren und bei der Problemlösung einen proaktiveren Ansatz zu verfolgen.
Anstelle von zeitbasierten oder Ad-hoc-Wartungsaufgaben (wie z. B. „Dienst X jeden Sonntag neu starten“) können Teams das beobachtete MTTF nutzen, um die Wartung vor dem normalen Ausfallfenster zu planen („Pods bei 80 % ihres typischen Ausfallzeitpunkts recyceln“).
Tatsächlich können IT-Manager und Wartungsteams Runbooks – die detaillierten Anweisungen zur Erledigung von IT-Aufgaben – mit expliziten MTTF-basierten Richtlinien kodieren. Sie könnten zum Beispiel einen Prompt wie „Wenn Service X länger als sein typisches MTTF läuft und Frühwarnsignale (Fehler, Latenz) anzeigt, wird er proaktiv außer Betrieb genommen und neu gestartet, anstatt auf einen folgenschweren Ausfall zu warten.“
Im Incident Management kann das MTTF die durchschnittliche Zeitspanne zwischen der Erkennung eines Fehlers und dem vollständigen Systemausfall darstellen und angeben, wie lange das System wahrscheinlich in einem verschlechterten oder unsicheren Zustand weiterläuft. Wenn Teams dieses Zeitfenster für Leistungseinbußen kennen, können sie entscheiden, ob ihnen noch Minuten, Stunden oder Tage bleiben, um das Problem zu beheben, bevor die Komponente ausfällt.
Es trägt auch dazu bei, den Schweregrad von Vorfällen zu verringern. Anstatt bei einem unerwarteten Ausfall zu verzweifeln, können IT-Mitarbeiter Swaps oder Failovers durchführen, die sie im Voraus geplant, getestet und bereitgestellt haben.
Die Integration von MTTF in DevOps KPIs zwingt IT-Teams dazu, bei der Entwicklung auf Zuverlässigkeit und einen reibungslosen Abbau zu achten, anstatt sich ausschließlich auf die Geschwindigkeit der Bereitstellung zu konzentrieren. Teams können das MTTF verschiedener Komponenten vergleichen, um Architekturentscheidungen wie den Austausch leistungsschwacher Komponenten und die Neugestaltung von Services zu treffen.
Die Beobachtung von MTTF hilft IT-Architekten dabei, zu entscheiden, wo Redundanzen erforderlich sind. Ein entscheidender Dienst mit niedrigem MTTF benötigt beispielsweise wahrscheinlich Replikate, Failover-Cluster oder Circuit Breaker (die verhindern, dass Dienste versuchen, fehlgeschlagene Abläufe zu wiederholen), um erfolgreich zu funktionieren.
MTTF bietet Architekten auch eine Leitmetrik für die Kombination von Services. Wenn eine Anwendung auf eine Kette von Low-MTTF-Abhängigkeiten angewiesen ist (die häufiger ausfallen wird), können DevOps-Teams diese entkoppeln oder Rückfallpfade hinzufügen, um kaskadierende Fehler zwischen den Diensten zu verhindern.
MTTF hilft DevOps-Teams bei der Priorisierung technischer Schulden, indem es vage Beschwerden wie „Das fühlt sich instabil an“ in messbare Zuverlässigkeitsrisiken umwandelt, die eingestuft und auf die reagiert werden kann. Sie können MTTF-Daten verwenden, um einen nach MTTF und Auswirkung der Vorfälle geordneten Zuverlässigkeitsrückstand zu erstellen, so dass Refactors, Redesigns und Abhängigkeits-Upgrades auf die Bereiche abzielen, die nachweislich die Systemstabilität am meisten beeinträchtigen.
Darüber hinaus ermöglichen MTTF-Daten Unternehmen, technische Schulden mit Geschäftsergebnissen zu verknüpfen, indem sie zeigen, wie oft ein Dienst ausfällt und wie viel Ausfallzeit oder Benutzerunterbrechung er mit der Zeit verursacht. Dies hilft Technikern dabei, faktenbasierte Argumente für den Schuldenabbau zu liefern. Statt sich auf die Intuition zu verlassen, können sie sagen: „Dieses Modul fällt alle N Tage aus und verursacht X % unserer Vorfälle“, was bei Führungskräften und Produktteams eher Anklang findet.
SLOs sind vereinbarte Leistungsziele für einen bestimmten Dienst über einen bestimmten Zeitraum. Sie helfen dabei, den erwarteten Status von Diensten zu definieren und die Entscheidungsfindung im Zusammenhang mit Systemänderungen zu vereinfachen.
Verfügbarkeits-SLOs bestimmen das akzeptable Ausfallzeitfenster eines Dienstes, das sogenannte Fehlerbudget. Fehlerbudgets sollen Unternehmen dabei helfen, Innovation und Stabilität in Einklang zu bringen. Wenn das Budget stimmt, können Teams die Bereitstellung von Funktionen ohne Bedenken priorisieren. Wenn es fast erschöpft ist, sollten sie den Fokus auf Zuverlässigkeit verlagern.
Ein Dienst mit niedrigem MTTF kann das Fehlerbudget schnell aufbrauchen, was darauf hindeutet, dass das Service-Level-Objective (SLO) entweder für das aktuelle Design unrealistisch ist oder dass die IT-Teams die Zuverlässigkeit des Dienstes erhöhen müssen, um das MTTF zu steigern.
MTTF und MTBF sind beides Zuverlässigkeitsmetriken, die beschreiben, wie lange Equipment tendenziell funktioniert, aber sie gelten für unterschiedliche Arten von Assets und Lebenszyklen. Während MTTF die durchschnittliche Zeit bis zum ersten Ausfall einer Komponente darstellt, repräsentiert MTBF die durchschnittliche Zeit zwischen Ausfallzyklen.
MTTF schätzt die durchschnittliche Betriebszeit eines nicht reparierbaren Assets bis zu einem dauerhaften Ausfall, wonach es ersetzt werden muss. Es geht davon aus, dass ein einzelnes Ausfallereignis die Nutzungsdauer einer Komponente beendet.
MTTF bezieht sich auf Hardware-Komponenten, die vollständig ersetzt werden, wie Speicherplatten, Zentralverarbeitungseinheiten (CPUs) und Kabel. Es gilt auch für Softwarekomponenten wie Container und Mikroservices, die letztlich durch eine neue Version oder einen anderen Service ersetzt werden, anstatt vor Ort repariert zu werden.
MTBF misst die durchschnittliche Zeit zwischen aufeinanderfolgenden Ausfällen reparierbarer Assets, wie Server, Netzwerkkomponenten und Softwarecode, die repariert und nach Ausfällen wieder in Betrieb genommen werden. Dabei wird davon ausgegangen, dass ein Equipment ausfällt, repariert wird und dann erneut ausfällt, sodass die Nutzungsdauer des Systems aus mehreren „Ausfall → Reparatur“-Zyklen besteht.
Gemeinsam informieren MTTF- und MTBF-Metriken darüber, wie IT-Teams Vorfälle und IT-Servicemanagement angehen.
In vielen Architekturen sind nicht reparierbare Komponenten (gemessen mit MTTF) in große, komplexe, reparierbare Systeme (gemessen mit MTBF) eingebettet, sodass MTTF den Teams helfen kann, vorherzusagen, wann interne Mechanismen einen Ausfall erzwingen, der zum MTBF des Gesamtsystems beiträgt.
Gehen wir von Observability-Daten aus, die anzeigen, dass ein Microservice innerhalb einer Anwendung ein MTTF von 1.000 Stunden aufweist, bevor ein entscheidendes Speicherleck ihn unwiederbringlich ausfallen lässt. DevOps-Teams können Microservice-Neustarts nach 800 Stunden planen und automatisieren, um eine Kette von Ausfällen zu verhindern, die dazu führen würde, dass das MTBF der Anwendung stark sinkt.
Daher erhöht der präventive Austausch des nicht reparierbaren Microservices direkt die Zuverlässigkeit der gesamten Anwendung.
Beide Metriken sind auch für die Planung von Verfügbarkeit und Wartung von grundlegender Bedeutung. MTTF unterstützt Entscheidungen über die Bestandsverwaltung und den Vorrat von Ersatzteilen, während MTBF Entscheidungen über die präventive Wartung und die erwartete Unterbrechungshäufigkeit unterstützt.
In Verbindung mit Metriken zur Reparaturzeit wie MTTR, MTTF und MTBF befähigen sie für die Planung zuständige Mitarbeiter, die Betriebszeit abzuschätzen, ein Budget für Ersatzteile festzulegen und IT-Systeme im Hinblick auf optimale Zuverlässigkeit abzustimmen.
Der Prozess zur Steigerung des MTTF eines Assets variiert stark je nach System, seinen Abhängigkeiten, dem größeren DevOps-Ökosystem, in dem es eingesetzt wird, und den umfassenderen Geschäftszielen. Es beinhaltet jedoch in der Regel bestimmte Kernpraktiken, darunter:
