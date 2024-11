Gli SLA contengono termini diversi a seconda del fornitore, del tipo di servizio fornito, dei requisiti del cliente, degli standard di conformità e altro ancora, e le metriche variano in base al settore e al caso d'uso. Tuttavia, alcune metriche delle prestazioni SLA, come la disponibilità, il tempo medio di ripristino, il tempo di risposta, i tassi di errore e le misurazioni di sicurezza e conformità, sono comunemente utilizzate in tutti i servizi e i settori. Queste metriche stabiliscono una linea di base per le operazioni e la qualità dei servizi forniti.

Definire chiaramente quali metriche e indicatori chiave di prestazione (KPI) verranno utilizzati per misurare le prestazioni e come verranno comunicate queste informazioni aiuta i team di gestione dei servizi IT (ITSM) a identificare quali dati raccogliere e monitorare. Con i dati corretti, i team possono mantenere meglio gli SLA e assicurarsi che i clienti sappiano esattamente cosa aspettarsi.



Idealmente, i team ITSM forniscono un input quando vengono redatti gli SLA, oltre a monitorare le metriche relative al loro adempimento. Il coinvolgimento dei team ITSM nelle prime fasi del processo consente di garantire che i team aziendali non stipulino accordi con i clienti non raggiungibili dai team IT.

Le metriche SLA che è importante monitorare per i responsabili IT e ITSM includono:

1. Disponibilità

Le interruzioni del servizio o i tempi di inattività sono costosi, possono danneggiare la credibilità dell'azienda e possono portare a problemi di conformità. Lo SLA tra un'organizzazione e un cliente stabilisce il livello atteso di disponibilità del servizio o di uptime ed è un indicatore della funzionalità del sistema.

La disponibilità è spesso misurata in “nove verso il 100%”: 90%, 99%, 99,9% e così via. Molti provider di cloud e SaaS mirano a uno standard di settore di "cinque 9" o al 99,999% di tempo di attività.

Per alcune aziende, anche un'ora di tempo di inattività può significare perdite significative. Se un sito di e-commerce subisce un'interruzione durante un periodo di traffico elevato come il Black Friday o durante una grande vendita, può danneggiare la reputazione e il fatturato annuo dell'azienda. Le interruzioni del servizio hanno un impatto negativo anche sull'esperienza del cliente. I servizi che non sono sempre disponibili spesso portano gli utenti a cercare delle alternative. Le esigenze aziendali variano, ma la necessità di fornire agli utenti prodotti e servizi rapidi ed efficienti è universale.

In genere, è preferibile avere il massimo tempo di attività. Tuttavia, i provider di alcuni settori potrebbero trovare più conveniente offrire un tasso di disponibilità leggermente inferiore se soddisfa comunque le esigenze dei clienti.

2. Tempo medio di ripristino

Il tempo medio di ripristino misura il tempo medio necessario per ripristinare un prodotto durante un'interruzione o un guasto. Nessun sistema o servizio è immune da problemi o guasti occasionali, ma le aziende in grado di riprendersi rapidamente hanno maggiori probabilità di mantenere la redditività aziendale, soddisfare le esigenze dei clienti e rispettare gli SLA.

3. Tempo di risposta e tempo di risoluzione

Gli SLA spesso stabiliscono il lasso di tempo entro cui un provider di servizi deve rispondere dopo che un problema è stato segnalato o registrato. Quando viene registrato un problema o viene effettuata una richiesta di servizio, il tempo di risposta indica il tempo impiegato da un provider per rispondere e risolvere il problema. Il tempo di risoluzione si riferisce al tempo necessario per risolvere il problema. Ridurre al minimo questi tempi è fondamentale per mantenere le prestazioni del servizio.



Le organizzazioni dovrebbero cercare di risolvere i problemi prima ancora che diventino guasti a livello di sistema e causino problemi di sicurezza o conformità. Le soluzioni software che offrono la Full Stack Observability delle funzioni aziendali possono svolgere un ruolo importante nel mantenimento di sistemi e nelle prestazioni dei servizi ottimizzati. Molte di queste piattaforme utilizzano strumenti di automazione e machine learning (ML) per automatizzare il processo di correzione dei problemi o identificarli ancor prima che si presentino.

Ad esempio, i sistemi di rilevamento delle intrusioni (IDS) basati sull'AI monitorano costantemente il traffico di rete alla ricerca di attività dannose, violazioni dei protocolli di sicurezza o dati anomali. Questi sistemi implementano algoritmi di machine learning per monitorare grandi set di dati e utilizzarli per identificare dati anomali. Le anomalie e le intrusioni attivano avvisi che avvisano i team IT. Senza l'AI e il machine learning, il monitoraggio manuale di questi grandi set di dati non sarebbe possibile.

4. Tassi di errore

I tassi di errore misurano i guasti del servizio e il numero di volte in cui le prestazioni del servizio scendono al di sotto degli standard definiti. A seconda dell'azienda, i tassi di errore possono riguardare qualsiasi numero di problemi legati alle funzioni aziendali.

Ad esempio, nel settore manifatturiero, i tassi di errore sono correlati al numero di difetti o problemi di qualità su una linea di prodotti specifica o al numero totale di errori riscontrati durante un determinato intervallo di tempo. Questi tassi di errore, o percentuali di difetti, aiutano le organizzazioni a identificare la causa principale di un errore e se è correlata ai materiali utilizzati o a un problema più ampio.



Esiste un sottoinsieme di metriche basate sui clienti che monitorano le interazioni con il servizio clienti e riguardano anche i tassi di errore.

Tasso di risoluzione alla prima chiamata: nell'ambito del servizio clienti, i problemi relativi alle interazioni con l'help desk possono influire sui tassi di errore. Il successo delle interazioni con il servizio clienti può essere difficile da valutare. Non tutti i clienti compilano un sondaggio o presentano un reclamo se un problema non viene risolto: alcuni cercheranno semplicemente un altro servizio. Una metrica che può aiutare a misurare le interazioni con il servizio clienti è il tasso di risoluzione alla prima chiamata. Questa percentuale rispecchia se il problema di un utente è stato risolto durante la prima interazione con un help desk, un chatbot o un rappresentante. Ogni escalation di una richiesta al servizio clienti oltre il contatto iniziale significa spendere risorse extra. Può anche avere un impatto sull'esperienza del cliente.

Tasso di abbandono: questo tasso riflette la frequenza con cui un cliente abbandona la richiesta prima di trovare una soluzione. Il tasso di abbandono può aumentare anche il tasso di errore complessivo e aiuta a misurare l'efficacia di un service desk, di un chatbot o della forza lavoro umana.

5. Sicurezza e conformità

I grandi volumi di dati e l'uso di server on-premise, server cloud e di un numero crescente di applicazioni creano un rischio maggiore di violazioni dei dati e minacce alla sicurezza. Se non monitorate in modo appropriato, le violazioni di sicurezza e le vulnerabilità possono esporre i provider di servizi a ripercussioni legali e finanziarie.

Ad esempio, il settore sanitario presenta requisiti specifici su come archiviare, trasferire e smaltire i dati medici di un paziente. Il mancato rispetto di questi standard di conformità può comportare multe e indennizzi per le perdite subite dai clienti.

Sebbene siano disponibili innumerevoli metriche specifiche del settore definite dai diversi servizi forniti, molte di esse rientrano in categorie più ampie. Per avere successo, è importante che i team aziendali e i team di gestione dei servizi IT collaborino per migliorare l'erogazione dei servizi e soddisfare le aspettative dei clienti.