MTTF ist die mittlere Betriebszeit bis zum Ausfall für eine Population identischer Elemente. In seiner einfachsten Form teilt MTTF die Gesamtbetriebszeit aller Assets durch die Gesamtzahl der Assetausfälle.

Dabei sind die „Gesamtbetriebsstunden“ die Summe der Lebensdauer jedes Bauteils bis zum Ausfall (oder bis zum Ende der Beobachtung), und die „Anzahl der Ausfälle“ ist die Anzahl der tatsächlich ausgefallenen Elemente:

MTTF = Gesamtbetriebszeiten aller Elemente/Gesamtzahl der Ausfälle

Nehmen wir als Beispiel einen Container-Cluster.

Container sind kurzlebige Instanzen, die normalerweise nicht repariert werden. Wenn ein Container abstürzt oder fehlerhaft wird, wird er von Container-Orchestrierungstools (wie Kubernetes) einfach durch einen neuen ersetzt.

Ein IT-Team, das einen zustandslosen Webservice auf 50 identischen Anwendungscontainern betreibt, kann das MTTF berechnen, indem gemessen wird, wie lange jeder Container läuft (von der Erstellung bis zum Ausfall), und dies durch die Anzahl der ausgefallenen Container dividiert. In seiner Bewertung stellt das Team fest, dass die Gruppe von 50 Containern insgesamt 200 Stunden lief, wobei fünf Container dabei ausfielen.

MTTF = 200 Stunden Betriebszeit/5 Ausfälle = 40 Stunden

Das MTTF für die Container in diesem Cluster beträgt 40 Stunden.

Das MTTF ist keine perfekte oder exakte Formel für reale Anwendungsfälle, daher verwenden DevOps-Teams es im Allgemeinen als Annäherungswert für die Komponentenlebensdauer und im Kontext anderer Incident-Management-KPIs, wie z. B.Mittlere Reparaturzeit (MTTR) und MTBF. MTTF kann in diesem Fall Teams dabei helfen, abzuschätzen, wie viele Neustarts der Containercluster täglich benötigt, damit sie die Clustergröße und die Ressourcen für die automatische Skalierung entsprechend zuweisen können.

Je genauer jedoch die Ausfall- und Betriebsdaten sind und je mehr Daten die Teams einbeziehen, desto genauer fallen die MTTF-Berechnungen aus.