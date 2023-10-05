Un obiettivo del livello di servizio (SLO) è un obiettivo di prestazione concordato per un particolare servizio in un periodo di tempo. Gli SLO definiscono lo stato previsto dei servizi e aiutano gli stakeholder a gestire lo stato di salute di servizi specifici, oltre a ottimizzare le decisioni bilanciando innovazione e affidabilità.1
Gli SLO vengono misurati utilizzando indicatori del livello di servizio (SLI), metriche quantitative di alcuni aspetti del servizio. Gli SLO fanno parte di un accordo più ampio tra fornitori di servizi e clienti, ovvero gli accordi del livello di servizio (SLA), che delineano il livello di servizio che un cliente può aspettarsi dai fornitori, nonché stabiliscono penalità in caso di mancato raggiungimento degli obiettivi.
Per garantire che i livelli di servizio siano coerenti con i requisiti aziendali e con i desideri dei clienti, i team di (ingegneria dell'affidabilità del sito (SRE), DevOps, IT e altri team pertinenti devono conoscere i percorsi utente critici per ogni applicazione: le interazioni che consentono agli utenti finali di raggiungere il risultato desiderato.
Il consenso interno è fondamentale per il successo degli SLO (e quindi degli SLA) e più stakeholder dovrebbero partecipare alla determinazione degli SLO, inclusi i product manager, i team DevOps e di gestione dei problemi, nonché gli ingegneri dell'infrastruttura. I clienti esterni vengono coinvolti nella discussione attraverso focus group, studi, reclami dei clienti e social.
La logica chiave degli SLO è che l'affidabilità del servizio porta alla felicità degli utenti, il che offre maggiori opportunità di business. La definizione di obiettivi di affidabilità misurabili aiuta un'organizzazione a bilanciare un'esperienza utente piacevole ed efficiente con costi ragionevoli, senza sforare il budget IT con livelli di servizio superiori a quelli necessari o previsti.
Gli SLO sono necessari perché definiscono gli obiettivi di qualità del servizio (QoS) e di affidabilità in termini concreti, misurabili e oggettivi. Non hanno lo scopo di definire il miglior livello di prestazioni, ma una gamma di standard prestazionali migliori e meno accettabili.1
L'obiettivo degli SLO è ben riassunto in 97 Things Every Cloud Engineer Should Know (link esterno a ibm.com), di O`Reilly Media: "Come può offrire al management un modo semplice per comprendere istantaneamente i compromessi tra affidabilità, velocità di innovazione e costi? Gli SLO sono la risposta. Gli SLO creano linee guida chiare in merito di affidabilità che bilanciano i compromessi tra costi del cloud, velocità di cambiamento e rischi esterni."
Gli SLO sono uno dei tanti termini correlati coinvolti nel monitoraggio e nella valutazione delle prestazioni del servizio:
Uno SLI è una misura quantitativa di alcuni aspetti di un servizio. Gli SLI forniscono i numeri reali, ovvero i parametri di misurazione delle prestazioni del sistema, come i tassi di errore, il throughput batch o la latenza delle richieste. Di solito, le misurazioni sono aggregate e presentate come tasso, media o percentile.
Gli SLO sono i valori target per quelle misurazioni (come garantire che il tempo di risposta rimanga inferiore a 200 millisecondi, ad esempio) che devono essere soddisfatti per mantenere gli accordi sul livello di servizio (SLA). Questi valori sono solitamente espressi come percentuale in un determinato periodo di tempo.
Gli SLA sono i contratti tra fornitori e clienti, costituiti da singoli SLO, che garantiscono un determinato livello per attività, funzioni o processi di servizio. Stabiliscono inoltre le sanzioni in caso di mancato rispetto dell'accordo.
Un budget di errore è un aspetto degli SLO che definisce la quantità accettabile di errori prima che un contratto venga interrotto. Un budget di errore consente di incorporare tempi di inattività pianificati o non pianificati del servizio, inevitabili nella pratica. L'ottimizzazione dei tempi di inattività consente ai tuoi team di sviluppo di prendere decisioni informate in merito a nuovi sviluppi, operazioni e aggiornamenti o correzioni del software installato.
L'affidabilità e la reattività sono spesso misurate in "nove verso il 100%": 90%, 99%, 99,9% e così via. Ad esempio, un obiettivo per la disponibilità della CPU potrebbe essere mostrato così:
Livello di affidabilità
Finestra di inaffidabilità consentita
All'anno
Ogni trimestre
Ogni 30 giorni
90%
36,5 giorni
9 giorni
3 giorni
95%
18,25 giorni
4,5 giorni
1,5 giorni
99%
3,65 giorni
21,6 ore
7,2 ore
99,5%
1,83 giorni
10,8 ore
3,6 ore
99,9%
8,76 ore
2,16 ore
43,2 minuti
99,95%
4,38 ore
1,08 ore
21,6 minuti
99,99%
52,6 minuti
12,96 minuti
4,32 minuti
99,999%
5,26 minuti
1,30 minuti
26,9 secondi
Ogni punto decimale più vicino a 100 comporta di solito costi e complessità maggiori da raggiungere. I clienti, interni ed esterni, potrebbero richiedere un certo livello di reattività, superato il quale non riescono più a individuare la differenza. Configurare gli SLO è in parte scienza e in parte arte, si tratta di trovare un equilibrio tra la perfezione statistica e gli obiettivi realistici ed economicamente convenienti.
Il team di sviluppo potrebbe voler offrire nuove funzioni, mentre il team operativo sta tentando di offrire stabilità e qualità, introducendo il cambiamento in modo controllato. Poiché l'azienda fornisce prodotti o servizi a clienti interni ed esterni, è importante misurare qualsiasi livello di servizio dal punto di vista di tali clienti.
Gli SLO aiutano a riunire le organizzazioni intorno all'affidabilità. In definitiva, gli stakeholder dovrebbero concordare uno SLO misurabile per il cliente che sia un equilibrio efficace tra velocità e qualità del servizio.
A livello di base, gli obiettivi del livello di servizio sono importanti perché garantiscono l'affidabilità del servizio e il rispetto degli accordi sul livello di servizio. Se rispetti gli SLA, i tuoi clienti saranno soddisfatti e questo è positivo per il tuo business.
Gli SLO non sono solo preziosi per i clienti esterni, ma offrono anche insight preziosi per i clienti interni. Gli SLO aiutano vari team a valutare le prestazioni dei servizi e delle applicazioni e a determinare i modi per migliorarli. Tra gli altri vantaggi, gli SLO aiutano le organizzazioni a:
I problemi di affidabilità possono creare un danno economico alla tua azienda. Quando gli SLO sono impostati correttamente, puoi vedere e scoprire le lacune in materia di osservabilità. La configurazione dei tuoi SLO potrebbe essere l'unico posto in cui poter centralizzare gli insight provenienti da diversi strumenti di monitoraggio utilizzati nella tua organizzazione. Una migliore osservabilità ti aiuta a fornire prodotti migliori, a ridurre il turn-over dei clienti e a operare in modo più efficiente.
Gli SLO e gli SLI forniscono insight sulle prestazioni di servizi e applicazioni e forniscono ai team una misurazione accurata dei tempi di inattività e di altri potenziali problemi. Queste informazioni sono utili per i team DevOps, IT e altri team che cercano di trovare un equilibrio tra innovazione e affidabilità mentre aggiornano i prodotti esistenti e rilasciano nuove funzioni.
Uno SLO ben ponderato che misura lo stato dei tuoi microservizi, come sperimentato dai tuoi clienti, fornisce insight preziosi sulle prestazioni del prodotto e sull'esperienza utente.
Sia la definizione, sia il monitoraggio degli SLO aiutano a unire i team di tutta l'organizzazione a scoprire un servizio e le relative aspettative. Gli SLO attentamente ponderati aiutano a promuovere una cultura della comunicazione, in cui tutti gli stakeholder valutano quello che le loro unità si aspettano da un servizio e comprendono il loro ruolo nel garantire il rispetto degli SLA.
Inoltre, la creazione di report e automazioni con gli SLO può aiutare ogni membro del team a rispondere più rapidamente alle domande sugli incidenti. Gli SLO sono importanti per i team DevOps, delle infrastrutture e di progettazione dell'affidabilità del sito (SRE), ma possono anche aiutare a trasformare quasi ogni aspetto dell'azienda. I dati raccolti attraverso l'osservabilità possono essere convertiti in informazioni accessibili, contestuali e fruibili. Questi insight offrono la visibilità di cui i tuoi team hanno bisogno per prendere decisioni tempestive e convenienti dal punto di vista economico.
Con obiettivi chiaramente articolati, le organizzazioni possono rivolgersi all'automazione per monitorare e misurare gli SLI. Questo approccio può aiutare a garantire il raggiungimento degli obiettivi, con l'idea di andare oltre il monitoraggio e automatizzare completamente i processi end-to-end.
Un sistema di monitoraggio automatizzato può aiutare a rilevare potenziali problemi man mano che si presentano, prima che le prestazioni del servizio non raggiungano effettivamente gli obiettivi stabiliti negli SLO o violino gli SLA. Una volta stabiliti i processi che soddisfano gli SLO, l'automazione può essere implementata per garantire prestazioni costanti, ad esempio utilizzando una piattaforma che automatizza l'allocazione delle risorse in base alla domanda del workload.
Gli SLO garantiscono ai team DevOps la lungimiranza necessaria per individuare potenziali problemi prima che questi si verifichino. Questa previsione previene tempi di inattività inaccettabili o altri eventi che potrebbero avere un impatto negativo sull'utente finale o causare un danno economico all'azienda.
Gli SLAs utilizzano spesso il tempo di inattività mensile o le percentuali di disponibilità per il calcolo della fatturazione. La durata del tempo di inattività si riferisce al tempo in cui un sistema non riesce a svolgere la sua funzione primaria. I guasti nelle comunicazioni, ad esempio, possono causare un tempo di inattività della rete. Lo standard di disponibilità nel settore rimane elevato e così anche il costo del tempo di inattività, che aumenta costantemente. A parte le implicazioni finanziarie, gli SLO non funzionanti possono anche causare insoddisfazione nei clienti.
Numerose organizzazioni operano in base a un processo di gestione reattivo degli incidenti. Ma se aspetti che si verifichi un incidente, è necessario più tempo per mitigare e risolvere i problemi all'interno del tuo sistema aumentando così il tempo medio di riparazione (MTTR) 1. Gli SLO stabiliti correttamente aiutano a migliorare l'osservabilità e consentono alle organizzazioni di essere più proattive nella gestione degli incidenti.
Gli avvisi non pertinenti non solo aumentano i costi operativi, ma possono anche portare a tassi di burnout elevati quando gli ingegneri perdono tempo e la produttività diminuisce rispondendo ad avvisi inesistenti. Una delle maggiori sfide nel campo degli avvisi è semplicemente trovare il giusto equilibrio tra troppi avvisi e troppo pochi avvisi.
Un avviso pertinente sarebbe quello che avvisa un ingegnere quando lo scadimento delle prestazioni causerà probabilmente il mancato raggiungimento di un obiettivo di affidabilità, un avviso basato sui sintomi. Ad esempio, è un vero problema quando la latenza di risposta di un servizio nell'ultima ora potrebbe causare la mancata conformità dello SLO di latenza per la settimana.
Se chiedi alle persone in azienda quale dovrebbe essere il loro obiettivo del tempo di attività del sistema, molti potrebbero dire che vorrebbero provare a raggiungere il 100%. Questo è molto ambizioso, ma anche molto costoso e potrebbe esaurire la maggior parte del tuo budget IT prima di qualsiasi altra cosa. Gli SLO non sono progettati per essere motivo di vanto, ma per individuare e soddisfare le aspettative dei clienti in modo da renderli felici e quindi tornare. L'affidabilità è un mezzo, non un fine.
Solo perché è possibile misurare la metrica delle prestazioni non vuol dire che questa sia importante per la felicità del tuo cliente o per i tuoi profitti. Assegna le priorità. Concentrati sulle metriche che indicano più da vicino un'esperienza del cliente positiva.
In Foundations of Service Level Management (link esterno a ibm.com), Rick Sturm e Wayne Morris presentano questa lista di controllo per impostare SLO realistici:
Gli SLO dovrebbero essere:
· Raggiungibili
· Ripetibili
· Misurabili
· Comprensibili
· Significativi
· Controllabili
· Convenienti
- Reciprocamente accettabili
Tieni presente che l'elenco degli SLO inizia con "raggiungibili". Puntare troppo in alto è molto costoso e potrebbe portare a un tempo di attività maggiore di quanto previsto dai tuoi clienti. Ecco alcune importanti best practice che possono aiutarti a raggiungere i tuoi obiettivi SLO:
Definisci gli SLO che supportano lo SLA o l'obiettivo aziendale. 20 SLO sono davvero quattro volte meglio di 5 SLO? O questo crea semplicemente più lavoro per il tuo team IT e quindi confonde il cliente, senza apportare alcun vantaggio significativo? Non sentirti obbligato a valutare tutto quello che può essere misurato.
Stabilisci obiettivi SLO realistici piuttosto che promettere obiettivi troppo ambiziosi e poi fornire risultati deludenti, il che può essere costoso in termini di sanzioni e forse persino causare la perdita di un cliente all'azienda. Essere realistici con gli stakeholder interni e con i clienti consente a tutti di prendere decisioni informate. Obiettivi SLO irrealisticamente elevati costeranno solo di più nel lungo periodo.
Concordando in anticipo aspettative realistiche, si evitano confusione e conflitti tra i team interni e con il cliente.
Le schede di raccolta manuale delle metriche possono rallentare il processo di correzione e impedire l'analisi della causa principale. Raccoglie gli SLI pertinenti per valutare gli SLO in modo automatico e creare un avviso automatico prima che uno SLO venga violato. Includi le dipendenze e il contesto di cui il tuo staff ha bisogno per affrontare un problema prima che questo diventi grave.
