MTTF rappresenta il tempo medio di funzionamento fino al guasto per una popolazione di elementi identici. Nella sua forma più semplice, il MTTF divide il tempo operativo totale di tutti gli asset per il numero totale di guasti degli asset.

Dove "ore di funzionamento totali" è la somma della durata di ogni elemento fino al guasto (o fino all'interruzione dell'osservazione) e "numero di guasti" è il numero di elementi effettivamente guasti:

MTTF = Ore totali di funzionamento di tutti gli elementi/Numero totale di guasti

Prendiamo ad esempio un cluster di container.

I container sono istanze effimere che in genere non vengono riparate. Quando un container va in crash o presenta problemi, gli strumenti di orchestrazione dei container (come Kubernetes) semplicemente distruggono il container e ne avviano uno nuovo.

Un team IT che esegue un servizio web senza stato su 50 container applicativi identici può calcolare il valore MTTF misurando quanto a lungo ogni container funziona (dallo sviluppo al guasto) e dividendolo poi per il numero di container guasti. In questa valutazione, il team ha scoperto che il gruppo di 50 container ha funzionato per un totale di 200 ore, con cinque container che si sono guastati nel processo.

MTTF = 200 ore di tempo operativo/5 guasti = 40 ore

Il valore MTTF per i container di questo cluster è di 40 ore.

MTTF non è una formula perfetta o esatta per casi d'uso reali, per cui i team DevOps generalmente lo usano come approssimazione della durabilità dei componenti e nel contesto di altri KPI di gestione degli incidenti, come ad esempio tempo medio di riparazione (MTTR) e MTBF. MTTF in questo caso può aiutare i team a stimare il numero di riavvii che il cluster di container richiederà ogni giorno, in modo da poter assegnare il dimensionamento del cluster e le risorse di scalabilità automatica in modo appropriato.

Tuttavia, quanto più precisi sono i dati dei guasti e di funzionamento e quanti più dati i team includono, tanto più accurati saranno i calcoli dell'MTTF.