5 metriche SLA che dovresti monitorare

10 giugno 2024

Tempo di lettura: 7 minuti

Nel mondo degli affari e non solo, la comunicazione è fondamentale. Gli accordi sul livello di servizio (SLA) di successo si basano su questo principio, gettando le basi per relazioni di successo tra fornitore e cliente.

Un accordo sul livello di servizio (SLA) è un componente chiave dei contratti con i fornitori di tecnologia che descrive i termini di servizio tra un provider di servizi e un cliente. Gli SLA descrivono il livello di prestazioni atteso, il modo in cui verranno misurate le prestazioni e le ripercussioni in caso di mancato raggiungimento dei livelli. Gli SLA assicurano che tutti gli stakeholder comprendano l'accordo di servizio e contribuiscano a creare un rapporto di lavoro più fluido.

Tipi di SLA

Esistono tre tipi principali di SLA:

SLA a livello di cliente

Gli SLA a livello di cliente definiscono i termini di servizio tra un provider di servizi e un cliente. Un cliente può essere esterno, ad esempio un'azienda che acquista cloud storage da un fornitore, o interno, come nel caso di uno SLA tra i team aziendali e l'IT per quanto riguarda lo sviluppo di un prodotto.

SLA a livello di servizio

I provider di servizi che offrono lo stesso servizio a più clienti utilizzano spesso SLA a livello di servizio. Gli SLA a livello di servizio non cambiano in base al cliente, ma delineano un livello generale di servizio fornito a tutti i clienti.

SLA multilivello

Quando un provider di servizi offre un piano di prezzi a più livelli per lo stesso prodotto, spesso offre anche SLA multilivello per comunicare chiaramente il servizio offerto a ogni livello. Gli SLA multilivello vengono utilizzati anche quando si creano accordi tra più di due parti.

Componenti SLA

Gli SLA includono una panoramica delle parti coinvolte, i servizi da fornire, la ripartizione dei ruoli degli stakeholder, il monitoraggio delle prestazioni e i requisiti di rendicontazione. Altri componenti SLA comprendono protocolli di sicurezza, accordi di riparazione, procedure di revisione, clausole di risoluzione e altro ancora. Fondamentalmente, definiscono come verranno misurate le prestazioni.

Gli SLA dovrebbero definire con precisione le metriche chiave, ovvero le metriche dell'accordo sui livelli di servizio (SLA) che verranno utilizzate per misurare le prestazioni del servizio. Queste metriche sono spesso correlate agli obiettivi del livello di servizio (SLO) (link esterno a ibm.com). Mentre gli SLA definiscono l'accordo tra organizzazione e cliente, gli SLO stabiliscono obiettivi prestazionali interni. Il rispetto degli SLA richiede il monitoraggio di metriche importanti relative alle operazioni aziendali e alle prestazioni dei provider di servizi. La chiave è monitorare le metriche giuste.

Cos'è un KPI in uno SLA?

Le metriche sono misure specifiche di un aspetto delle prestazioni del servizio, come la disponibilità o la latenza. Gli indicatori chiave di prestazione (KPI) sono collegati agli obiettivi aziendali e vengono utilizzati per giudicare i progressi di un team verso tali obiettivi. I KPI non esistono senza obiettivi aziendali; sono "indicatori" del progresso verso un obiettivo dichiarato.

Usiamo la crescita annua delle vendite come esempio, con un obiettivo organizzativo di crescita del 30% rispetto all'anno precedente. I KPI come i rinnovi degli abbonamenti fino ad oggi o i lead generati forniscono un'istantanea in tempo reale dei progressi aziendali verso l'obiettivo annuale di crescita delle vendite.

Metriche come la disponibilità e la latenza delle applicazioni aiutano a fornire il contesto. Ad esempio, se l'organizzazione sta perdendo clienti e non è sulla buona strada per raggiungere l'obiettivo annuale, un esame delle metriche relative alla soddisfazione dei clienti (ovvero la disponibilità e la latenza delle applicazioni) potrebbe fornire alcune risposte sul motivo per cui i clienti se ne vanno.

Quali metriche SLA dovrebbero essere monitorate?

Gli SLA contengono termini diversi a seconda del fornitore, del tipo di servizio fornito, dei requisiti del cliente, degli standard di conformità e altro ancora, e le metriche variano in base al settore e al caso d'uso. Tuttavia, alcune metriche delle prestazioni SLA, come la disponibilità, il tempo medio di ripristino, il tempo di risposta, i tassi di errore e le misurazioni di sicurezza e conformità, sono comunemente utilizzate in tutti i servizi e i settori. Queste metriche stabiliscono una linea di base per le operazioni e la qualità dei servizi forniti.

Definire chiaramente quali metriche e indicatori chiave di prestazione (KPI) verranno utilizzati per misurare le prestazioni e come verranno comunicate queste informazioni aiuta i team di gestione dei servizi IT (ITSM) a identificare quali dati raccogliere e monitorare. Con i dati corretti, i team possono mantenere meglio gli SLA e assicurarsi che i clienti sappiano esattamente cosa aspettarsi.

Idealmente, i team ITSM forniscono un input quando vengono redatti gli SLA, oltre a monitorare le metriche relative al loro adempimento. Il coinvolgimento dei team ITSM nelle prime fasi del processo consente di garantire che i team aziendali non stipulino accordi con i clienti non raggiungibili dai team IT.

Le metriche SLA che è importante monitorare per i responsabili IT e ITSM includono:

1. Disponibilità

Le interruzioni del servizio o i tempi di inattività sono costosi, possono danneggiare la credibilità dell'azienda e possono portare a problemi di conformità. Lo SLA tra un'organizzazione e un cliente stabilisce il livello atteso di disponibilità del servizio o di uptime ed è un indicatore della funzionalità del sistema.

La disponibilità è spesso misurata in “nove verso il 100%”: 90%, 99%, 99,9% e così via. Molti provider di cloud e SaaS mirano a uno standard di settore di "cinque 9" o al 99,999% di tempo di attività.

Per alcune aziende, anche un'ora di tempo di inattività può significare perdite significative. Se un sito di e-commerce subisce un'interruzione durante un periodo di traffico elevato come il Black Friday o durante una grande vendita, può danneggiare la reputazione e il fatturato annuo dell'azienda. Le interruzioni del servizio hanno un impatto negativo anche sull'esperienza del cliente. I servizi che non sono sempre disponibili spesso portano gli utenti a cercare delle alternative. Le esigenze aziendali variano, ma la necessità di fornire agli utenti prodotti e servizi rapidi ed efficienti è universale.

In genere, è preferibile avere il massimo tempo di attività. Tuttavia, i provider di alcuni settori potrebbero trovare più conveniente offrire un tasso di disponibilità leggermente inferiore se soddisfa comunque le esigenze dei clienti.

2. Tempo medio di ripristino

Il tempo medio di ripristino misura il tempo medio necessario per ripristinare un prodotto durante un'interruzione o un guasto. Nessun sistema o servizio è immune da problemi o guasti occasionali, ma le aziende in grado di riprendersi rapidamente hanno maggiori probabilità di mantenere la redditività aziendale, soddisfare le esigenze dei clienti e rispettare gli SLA.

3. Tempo di risposta e tempo di risoluzione

Gli SLA spesso stabiliscono il lasso di tempo entro cui un provider di servizi deve rispondere dopo che un problema è stato segnalato o registrato. Quando viene registrato un problema o viene effettuata una richiesta di servizio, il tempo di risposta indica il tempo impiegato da un provider per rispondere e risolvere il problema. Il tempo di risoluzione si riferisce al tempo necessario per risolvere il problema. Ridurre al minimo questi tempi è fondamentale per mantenere le prestazioni del servizio.

Le organizzazioni dovrebbero cercare di risolvere i problemi prima ancora che diventino guasti a livello di sistema e causino problemi di sicurezza o conformità. Le soluzioni software che offrono la Full Stack Observability delle funzioni aziendali possono svolgere un ruolo importante nel mantenimento di sistemi e nelle prestazioni dei servizi ottimizzati. Molte di queste piattaforme utilizzano strumenti di automazione e machine learning (ML) per automatizzare il processo di correzione dei problemi o identificarli ancor prima che si presentino.

Ad esempio, i sistemi di rilevamento delle intrusioni (IDS) basati sull'AI monitorano costantemente il traffico di rete alla ricerca di attività dannose, violazioni dei protocolli di sicurezza o dati anomali. Questi sistemi implementano algoritmi di machine learning per monitorare grandi set di dati e utilizzarli per identificare dati anomali. Le anomalie e le intrusioni attivano avvisi che avvisano i team IT. Senza l'AI e il machine learning, il monitoraggio manuale di questi grandi set di dati non sarebbe possibile.  

4. Tassi di errore

I tassi di errore misurano i guasti del servizio e il numero di volte in cui le prestazioni del servizio scendono al di sotto degli standard definiti. A seconda dell'azienda, i tassi di errore possono riguardare qualsiasi numero di problemi legati alle funzioni aziendali.

Ad esempio, nel settore manifatturiero, i tassi di errore sono correlati al numero di difetti o problemi di qualità su una linea di prodotti specifica o al numero totale di errori riscontrati durante un determinato intervallo di tempo. Questi tassi di errore, o percentuali di difetti, aiutano le organizzazioni a identificare la causa principale di un errore e se è correlata ai materiali utilizzati o a un problema più ampio.

Esiste un sottoinsieme di metriche basate sui clienti che monitorano le interazioni con il servizio clienti e riguardano anche i tassi di errore.

  • Tasso di risoluzione alla prima chiamata: nell'ambito del servizio clienti, i problemi relativi alle interazioni con l'help desk possono influire sui tassi di errore. Il successo delle interazioni con il servizio clienti può essere difficile da valutare. Non tutti i clienti compilano un sondaggio o presentano un reclamo se un problema non viene risolto: alcuni cercheranno semplicemente un altro servizio. Una metrica che può aiutare a misurare le interazioni con il servizio clienti è il tasso di risoluzione alla prima chiamata. Questa percentuale rispecchia se il problema di un utente è stato risolto durante la prima interazione con un help desk, un chatbot o un rappresentante. Ogni escalation di una richiesta al servizio clienti oltre il contatto iniziale significa spendere risorse extra. Può anche avere un impatto sull'esperienza del cliente.
  • Tasso di abbandono: questo tasso riflette la frequenza con cui un cliente abbandona la richiesta prima di trovare una soluzione. Il tasso di abbandono può aumentare anche il tasso di errore complessivo e aiuta a misurare l'efficacia di un service desk, di un chatbot o della forza lavoro umana.

5. Sicurezza e conformità

I grandi volumi di dati e l'uso di server on-premise, server cloud e di un numero crescente di applicazioni creano un rischio maggiore di violazioni dei dati e minacce alla sicurezza. Se non monitorate in modo appropriato, le violazioni di sicurezza e le vulnerabilità possono esporre i provider di servizi a ripercussioni legali e finanziarie.

Ad esempio, il settore sanitario presenta requisiti specifici su come archiviare, trasferire e smaltire i dati medici di un paziente. Il mancato rispetto di questi standard di conformità può comportare multe e indennizzi per le perdite subite dai clienti.

Sebbene siano disponibili innumerevoli metriche specifiche del settore definite dai diversi servizi forniti, molte di esse rientrano in categorie più ampie. Per avere successo, è importante che i team aziendali e i team di gestione dei servizi IT collaborino per migliorare l'erogazione dei servizi e soddisfare le aspettative dei clienti.

Benefici del monitoraggio delle metriche di SLA

Il monitoraggio delle metriche degli SLA è il modo più efficiente per le aziende di valutare se i servizi IT soddisfano le aspettative dei clienti e di individuare le aree di miglioramento. Monitorando le metriche e i KPI in tempo reale, i team IT possono identificare i punti deboli del sistema e ottimizzare la fornitura di servizi.

I principali benefici che derivano dal monitoraggio delle metriche SLA comprendono:

Maggiore osservabilità

Una comprensione chiara e completa delle operazioni aziendali aiuta i team ITSM a trovare i modi per migliorare le prestazioni. Una maggiore osservabilità consente alle organizzazioni di ottenere insight dettagliati sul funzionamento dei sistemi e dei workflow, identificare errori, bilanciare i workload in modo più efficiente e migliorare gli standard prestazionali.

Prestazioni ottimizzate

Monitorando le metriche corrette e utilizzando gli insight da esse ricavati, le organizzazioni possono fornire servizi e applicazioni migliori, superare le aspettative dei clienti e promuovere la crescita del business.

Aumento della soddisfazione del cliente

Allo stesso modo, il monitoraggio delle metriche SLA e dei KPI è uno dei modi migliori per assicurarsi che i servizi soddisfino le esigenze dei clienti. In un settore commerciale affollato, la soddisfazione del cliente è un fattore chiave per la customer retention e per la costruzione di una reputazione positiva.

Maggiore trasparenza

Delineando chiaramente i termini di servizio, gli SLA aiutano a eliminare la confusione e a proteggere tutte le parti. Degli SLA ben elaborati chiariscono cosa possono aspettarsi tutti gli stakeholder, offrono una tempistica ben definita di quando verranno forniti i servizi e quali stakeholder sono responsabili di azioni specifiche. Se eseguiti correttamente, gli SLA contribuiscono a creare le condizioni per una partnership fluida.

Comprendere le prestazioni e superare le aspettative dei clienti

La piattaforma IBM Instana Observability e IBM Cloud Pak for AIOps possono aiutare i team a ottenere insight più approfonditi dai propri dati e a migliorare l'erogazione dei servizi.

IBM Instana Observability offre la Full Stack Observability in tempo reale, che combina automazione, contesto e azione intelligente in un'unica piattaforma. Instana aiuta ad abbattere i silos operativi e fornisce l'accesso ai dati tra i team DevOps, progettazione dell'affidabilità del sito (SRE), ingegneria della piattaforma e ITOps.

I team di gestione dei servizi IT traggono beneficio da IBM Cloud Pak for AIOps grazie a strumenti automatizzati che si occupano della gestione e della correzione degli incidenti. IBM Cloud Pak for AIOps offre strumenti per l'innovazione e la trasformazione delle operazioni IT. Rispetta gli SLA e monitora le metriche con una soluzione di visibilità avanzata che offre un contesto delle dipendenze tra gli ambienti.

IBM Cloud Pak for AIOps è una piattaforma AIOps che offre visibilità sui dati di prestazione e sulle interconnessioni tra ambienti diversi. Consente ai responsabili ITOps e agli ingegneri dell'affidabilità del sito (SRE) di utilizzare l'intelligenza artificiale, il machine learning e l'automazione per affrontare meglio la gestione e la correzione degli incidenti. Grazie a IBM Cloud Pak for AIOps, i team possono innovare più rapidamente, ridurre i costi operativi e trasformare le operazioni IT (ITOps).

Autore

Camilo Quiroz-Vázquez

IBM Staff Writer