Che cos'è un obiettivo del livello di servizio (SLO)?

Uomini d'affari che hanno una riunione presso un'agenzia moderna

Che cos'è uno SLO?

Un obiettivo del livello di servizio (SLO) è un obiettivo di prestazione concordato per un particolare servizio in un periodo di tempo. Gli SLO definiscono lo stato previsto dei servizi e aiutano gli stakeholder a gestire lo stato di salute di servizi specifici, oltre a ottimizzare le decisioni bilanciando innovazione e affidabilità.1

Gli SLO vengono misurati utilizzando indicatori del livello di servizio (SLI), metriche quantitative di alcuni aspetti del servizio. Gli SLO fanno parte di un accordo più ampio tra fornitori di servizi e clienti, gli accordi di livello di servizio (SLA). Questi accordi definiscono il livello di servizio che un cliente può aspettarsi dai fornitori e fissano delle sanzioni quando gli obiettivi non vengono raggiunti.

Per garantire che i livelli di servizio siano in linea con le esigenze aziendali e le aspettative dei clienti, i team di ingegneria dell'affidabilità del sito (SRE), DevOps, IT e altri team rilevanti devono comprendere i percorsi critici degli utenti per ciascuna applicazione. Questi percorsi consistono nelle interazioni che consentono agli utenti finali di raggiungere i risultati desiderati.

Il consenso interno è fondamentale per il successo degli SLO (e quindi degli SLA) e più stakeholder dovrebbero partecipare alla determinazione degli SLO, inclusi i product manager, i team DevOps e di gestione dei problemi, nonché gli ingegneri dell'infrastruttura. I clienti esterni vengono coinvolti nella discussione attraverso focus group, studi, reclami dei clienti e social.

La logica chiave degli SLO è che l'affidabilità del servizio porta alla felicità degli utenti, il che offre maggiori opportunità di business. La definizione di obiettivi di affidabilità misurabili aiuta un'organizzazione a bilanciare un'esperienza utente piacevole ed efficiente con costi ragionevoli, senza sforare il budget IT con livelli di servizio superiori a quelli necessari o previsti.

Gli SLO sono necessari perché definiscono gli obiettivi di qualità del servizio (QoS) e di affidabilità in termini concreti, misurabili e oggettivi. Non hanno lo scopo di definire il miglior livello di prestazioni, ma una gamma di standard prestazionali migliori e meno accettabili.1

L'obiettivo degli SLO è ben riassunto in 97 Things Every Cloud Engineer Should Know (link esterno a ibm.com), di O`Reilly Media: "Come puoi offrire al management un modo semplice per comprendere istantaneamente i compromessi tra affidabilità, velocità di innovazione e costi? Gli SLO sono la risposta. Gli SLO creano linee guida chiare in merito di affidabilità che bilanciano i compromessi tra costi del cloud, velocità di cambiamento e rischi esterni."

Rendering 3D del pannello di controllo su un processo di automazione digitale

Ebook: Ricevi le risposte degli esperti su perché l'osservabilità è importante

Scopri cosa significa davvero l'osservabilità e come può accelerare i risultati aziendali.

SLO vs SLI vs SLA

Gli SLO sono uno dei tanti termini correlati coinvolti nel monitoraggio e nella valutazione delle prestazioni del servizio:

Indicatore del livello di servizio (SLI)

Uno SLI è una misura quantitativa di alcuni aspetti di un servizio. Gli SLI forniscono i numeri reali, ovvero i parametri di misurazione delle prestazioni del sistema, come i tassi di errore, il throughput batch o la latenza delle richieste. Di solito, le misurazioni sono aggregate e presentate come tasso, media o percentile.

Obiettivo del livello di servizio (SLO)

Gli SLO sono i valori target per quelle misurazioni (come garantire che il tempo di risposta rimanga inferiore a 200 millisecondi, ad esempio) che devono essere soddisfatti per mantenere gli accordi sul livello di servizio (SLA). Questi valori sono solitamente espressi come percentuale in un determinato periodo di tempo.

Accordo sui livelli di servizio (SLA)

Gli SLA sono i contratti tra fornitori e clienti, costituiti da singoli SLO, che garantiscono un determinato livello per attività, funzioni o processi di servizio. Stabiliscono inoltre le sanzioni in caso di mancato rispetto dell'accordo.

Budget di errore

Un budget di errore è un aspetto degli SLO che definisce la quantità accettabile di errori prima che un contratto venga interrotto. Un budget di errore consente di incorporare tempi di inattività pianificati o non pianificati del servizio, inevitabili nella pratica. L'ottimizzazione dei tempi di inattività consente ai tuoi team di sviluppo di prendere decisioni informate in merito a nuovi sviluppi, operazioni e aggiornamenti o correzioni del software installato.

Come vengono misurati gli SLO

L'affidabilità e la reattività sono spesso misurate in "nove verso il 100%": ossia 90%, 99%, 99,9% e così via. Ad esempio, un obiettivo per la disponibilità della CPU potrebbe essere mostrato così:

Livello di affidabilità

Finestra di inaffidabilità consentita

 
 

 

 

 

 

All'anno

Ogni trimestre

Ogni 30 giorni

90%

36,5 giorni

9 giorni

3 giorni

95%

18,25 giorni

4,5 giorni

1,5 giorni

99%

3,65 giorni

21,6 ore

7,2 ore

99,5%

1,83 giorni

10,8 ore

3,6 ore

99,9%

8,76 ore

2,16 ore

43,2 minuti

99,95%

4,38 ore

1,08 ore

21,6 minuti

99,99%

52,6 minuti

12,96 minuti

4,32 minuti

99,999%

5,26 minuti

1,30 minuti

26,9 secondi

 

 

 

 

Ogni punto decimale più vicino a 100 comporta di solito costi e complessità maggiori da raggiungere. I clienti, interni ed esterni, potrebbero richiedere un certo livello di reattività, superato il quale non riescono più a individuare la differenza. Configurare gli SLO è in parte scienza e in parte arte, si tratta di trovare un equilibrio tra la perfezione statistica e gli obiettivi realistici ed economicamente convenienti.

Il team di sviluppo potrebbe voler offrire nuove funzioni, mentre il team operativo sta tentando di offrire stabilità e qualità, introducendo il cambiamento in modo controllato. Poiché l'azienda fornisce prodotti o servizi a clienti interni ed esterni, è importante misurare qualsiasi livello di servizio dal punto di vista di tali clienti.

Gli SLO aiutano a riunire le organizzazioni intorno all'affidabilità. In definitiva, gli stakeholder dovrebbero concordare uno SLO misurabile per il cliente che sia un equilibrio efficace tra velocità e qualità del servizio.

Perché sono importanti gli SLO?

A livello di base, gli obiettivi del livello di servizio sono importanti perché garantiscono l'affidabilità del servizio e il rispetto degli accordi sul livello di servizio. Se rispetti gli SLA, i tuoi clienti saranno soddisfatti e questo è positivo per il tuo business.

Gli SLO non sono solo preziosi per i clienti esterni, ma offrono anche insight preziosi per i clienti interni. Gli SLO aiutano vari team a valutare le prestazioni dei servizi e delle applicazioni e a determinare i modi per migliorarli. Tra gli altri vantaggi, gli SLO aiutano le organizzazioni a:

Stabilire l'affidabilità e
l'efficienza del sistema

I problemi di affidabilità possono creare un danno economico alla tua azienda. Quando gli SLO sono impostati correttamente, puoi vedere e scoprire le lacune in materia di osservabilità. La configurazione dei tuoi SLO potrebbe essere l'unico posto in cui poter centralizzare gli insight provenienti da diversi strumenti di monitoraggio utilizzati nella tua organizzazione. Una migliore osservabilità ti aiuta a fornire prodotti migliori, a ridurre il turn-over dei clienti e a operare in modo più efficiente.

Migliorare i prodotti e l'esperienza utente

Gli SLO e gli SLI forniscono insight sulle prestazioni di servizi e applicazioni e forniscono ai team una misurazione accurata dei tempi di inattività e di altri potenziali problemi.

Queste informazioni sono utili per i team DevOps, IT e altri team che cercano di trovare un equilibrio tra innovazione e affidabilità mentre aggiornano i prodotti esistenti e rilasciano nuove funzioni.

Uno SLO ben ponderato che misura lo stato dei tuoi microservizi, come sperimentato dai tuoi clienti, fornisce insight preziosi sulle prestazioni del prodotto e sull'esperienza utente.

Allineare meglio i team interni e migliorare il processo decisionale

Sia la definizione, sia il monitoraggio degli SLO aiutano a unire i team di tutta l'organizzazione a scoprire un servizio e le relative aspettative. Gli SLO attentamente ponderati aiutano a promuovere una cultura della comunicazione, in cui tutti gli stakeholder valutano quello che le loro unità si aspettano da un servizio e comprendono il loro ruolo nel garantire il rispetto degli SLA.

Inoltre, la creazione di report e automazioni con gli SLO può aiutare ogni membro del team a rispondere più rapidamente alle domande sugli incidenti. Gli SLO sono importanti per i team DevOps, delle infrastrutture e di progettazione dell'affidabilità del sito (SRE), ma possono anche aiutare a trasformare quasi ogni aspetto dell'azienda. I dati raccolti attraverso l'osservabilità possono essere convertiti in informazioni accessibili, contestuali e fruibili. Questi insight offrono la visibilità di cui i tuoi team hanno bisogno per prendere decisioni tempestive e convenienti dal punto di vista economico.

Sfrutta l’automazione

Con obiettivi chiaramente articolati, le organizzazioni possono rivolgersi all'automazione per monitorare e misurare gli SLI. Questo approccio può aiutare a garantire il raggiungimento degli obiettivi, con l'idea di andare oltre il monitoraggio e automatizzare completamente i processi end-to-end.

Un sistema di monitoraggio automatizzato può aiutare a rilevare potenziali problemi man mano che si presentano, prima che le prestazioni del servizio non raggiungano effettivamente gli obiettivi stabiliti negli SLO o violino gli SLA. Una volta stabiliti i processi che soddisfano gli SLO, l'automazione può essere implementata per garantire prestazioni costanti, ad esempio utilizzando una piattaforma che automatizza l'allocazione delle risorse in base alla domanda del workload.

Riduci i tempi di inattività

Gli SLO garantiscono ai team DevOps la lungimiranza necessaria per individuare potenziali problemi prima che questi si verifichino. Questa previsione previene tempi di inattività inaccettabili o altri eventi che potrebbero avere un impatto negativo sull'utente finale o causare un danno economico all'azienda.

Gli SLA utilizzano spesso il tempo di inattività mensile o le percentuali di disponibilità per il calcolo della fatturazione. La durata del tempo di inattività si riferisce al tempo in cui un sistema non riesce a svolgere la sua funzione primaria. I guasti nelle comunicazioni, ad esempio, possono causare un tempo di inattività della rete. Lo standard di disponibilità nel settore rimane elevato e così anche il costo del tempo di inattività, che aumenta costantemente. A parte le implicazioni finanziarie, gli SLO non funzionanti possono anche causare insoddisfazione nei clienti.

Passaggio alla gestione predittiva degli incidenti

Numerose organizzazioni operano in base a un processo di gestione reattivo degli incidenti. Ma se aspetti che si verifichi un incidente, è necessario più tempo per mitigare e risolvere i problemi all'interno del tuo sistema aumentando così il tempo medio di riparazione (MTTR) 1. Gli SLO stabiliti correttamente aiutano a migliorare l'osservabilità e consentono alle organizzazioni di essere più proattive nella gestione degli incidenti.

Riduci al minimo il burnout dei dipendenti

Gli avvisi irrilevanti non solo aumentano i costi operativi, ma portano anche a elevati tassi di burnout, poiché gli ingegneri sprecano tempo e perdono produttività rispondendo ad avvisi inesistenti. Una delle maggiori sfide nel campo degli avvisi è semplicemente trovare il giusto equilibrio tra troppi avvisi e troppo pochi avvisi.

Un avviso rilevante notifica a un ingegnere quando il degrado rischia di far perdere un obiettivo di affidabilità: un allarme basato sui sintomi. Ad esempio, è un vero problema quando la latenza di risposta di un servizio nell'ultima ora può causare la mancata conformità dello SLO di latenza per la settimana.

Best practice per gli SLO

Se chiedi agli imprenditori qual è il loro obiettivo di tempo di attività del sistema, molti potrebbero dire che vorrebbero provare a raggiungere il 100%. Questa pratica è un obiettivo ambizioso, ma anche costoso e può prosciugare gran parte del budget IT prima di qualsiasi altra cosa. Gli SLO non sono progettati per essere motivo di vanto, ma per individuare e soddisfare le aspettative dei clienti in modo da renderli felici e quindi tornare. L'affidabilità è un mezzo, non un fine.

Solo perché è possibile misurare la metrica delle prestazioni non vuol dire che questa sia importante per la felicità del tuo cliente o per i tuoi profitti. Assegna le priorità. Concentrati sulle metriche che indicano più da vicino un'esperienza del cliente positiva.

In Foundations of Service Level Management , Rick Sturm e Wayne Morris presentano questa checklist per impostare SLO realistici:

Gli SLO dovrebbero essere:

· Raggiungibili

· Ripetibili

· Misurabili

· Comprensibili

· Significativi

· Controllabili

· Convenienti

· Reciprocamente accettabili

La loro lista inizia con "raggiungibile". Puntare troppo in alto aumenta i costi e può portare a una disponibilità superiore a quella di cui i clienti hanno bisogno. Ecco alcune importanti best practice che possono aiutarti a raggiungere i tuoi obiettivi SLO:

 

Non lasciarti trascinare

Definisci gli SLO che supportano lo SLA o l'obiettivo aziendale. 20 SLO sono davvero quattro volte meglio di 5 SLO? O questo crea semplicemente più lavoro per il tuo team IT e quindi confonde il cliente, senza apportare alcun beneficio significativo? Non sentirti obbligato a valutare tutto quello che può essere misurato.

Non cercare di essere un eroe

Stabilisci obiettivi SLO realistici piuttosto che promettere obiettivi troppo ambiziosi e poi fornire risultati deludenti, un'eventualità che può essere costosa in termini di sanzioni e magari persino causare la perdita di un cliente all'azienda. Essere realistici con gli stakeholder interni e con i clienti consente a tutti di prendere decisioni informate. Obiettivi SLO irrealisticamente alti costano di più alla fine.

Utilizza gli SLO per promuovere l'allineamento aziendale

Concordando in anticipo aspettative realistiche, si evitano confusione e conflitti tra i team interni e con il cliente.

Automatizza le valutazioni

Le schede di raccolta manuale delle metriche possono rallentare il processo di correzione e impedire l'analisi della causa principale. Raccogli gli SLI pertinenti per valutare gli SLO in modo automatico e creare un avviso automatico prima che un SLO venga violato. Includi le dipendenze e il contesto di cui il tuo staff ha bisogno per affrontare un problema prima che questo diventi grave.

Rendering 3D del pannello di controllo su un processo di automazione digitale

Ebook: Ottieni risposte degli esperti su perché l'osservabilità è importante 

 

Scopri cosa significa realmente l'osservabilità e come può accelerare i risultati aziendali.

Scarica l'ebook
Prossimi passi

Scopri come l'AI per le operazioni IT fornisce gli insight necessari per favorire eccezionali prestazioni di business.

Esplora Instana Observability Prova Instana
Note a piè di pagina

1"Obiettivi del livello di servizio", IBM, 6 settembre 2023