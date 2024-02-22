Cos'è la gestione degli incidenti?

La gestione degli incidenti è un processo utilizzato dalle operazioni IT e dai team DevOps per rispondere e affrontare eventi non pianificati che possono influire sulla qualità o sulle operazioni del servizio. La gestione degli incidenti mira a identificare e correggere i problemi mantenendo il normale servizio e riducendo al minimo l'impatto sull'azienda.

Gli incidenti possono causare diversi problemi per le organizzazioni, dai tempi di inattività temporanei alla perdita di dati. Se ben fatta, la gestione degli incidenti può fornire un modo efficiente ed efficace per risolvere tutti i tipi di incidenti con interruzioni minime e lasciare le organizzazioni più preparate per gli incidenti futuri.

La gestione degli incidenti, che affonda le sue radici nel service desk IT, è stata a lungo l'interfaccia principale tra le operazioni IT (ITOps) e l'utente finale. Man mano che la tecnologia è avanzata e diventata più complessa, è aumentato anche il modo in cui le organizzazioni vedono l'identificazione e la risposta agli incidenti. La pratica si è estesa ben oltre l'aiutare gli utenti a risolvere i problemi, fino a diventare un processo per mantenere costante il tempo di attività delle app e accelerare gli sforzi di miglioramento continuo.
Gestione degli incidenti IT

La gestione degli incidenti all'interno delle operazioni IT di un'azienda, spesso indicata come gestione degli incidenti ITIL, affronta un'ampia gamma di problemi che possono influire sul servizio e sulle operazioni aziendali, dall'arresto anomalo di un laptop o da un errore della stampante ai problemi di connettività Wi-Fi e ai tempi di inattività della rete.

La gestione degli incidenti, nell'ambito dell' ITSM (gestione dei servizi IT), funziona come un aspetto del modello di servizio ITSM. Piuttosto che concentrarsi sulla creazione di sistemi e tecnologie, la gestione degli incidenti per l'IT è più incentrata sull'utente e ha lo scopo di mantenere il corretto funzionamento dell'infrastruttura IT, sia che si tratti di un'app o di un endpoint, come un sensore o un computer desktop.
Confronto fra incidenti e richieste di servizio

All'interno dell'ITSM, il dipartimento IT svolge vari ruoli, tra cui la risoluzione dei problemi che si presentano. La gravità di questi problemi è ciò che differenzia un evento imprevisto da una richiesta di servizio.

Una richiesta di assistenza, in poche parole, è quando un utente ha bisogno che gli venga fornito qualcosa, come consigli o attrezzature. I servizi possono includere la richiesta di assistenza per la reimpostazione della password o l'ottenimento di memoria aggiuntiva per un computer desktop.

Un incidente, invece, è più urgente e indica un errore di fondo che deve essere affrontato.
Confronto fra incidenti e problemi

Un incidente è un singolo evento non pianificato che causa un'interruzione del servizio, mentre un problema è la causa principale di un'interruzione del servizio, che può essere un singolo incidente o una serie di incidenti a cascata.

La differenza si manifesta nella correzione e nel modo in cui chi interviene cerca la soluzione. La risposta agli incidenti è reattiva. I team di gestione degli incidenti ricevono un allarme e affrontano l'incidente. Quando si affronta un problema, invece, i team IT identificano la causa principale e quindi la risolvono. La gestione dei problemi adotta un approccio proattivo, esaminando vari tipi di incidenti e modelli che emergono per capire come prevenire incidenti futuri.

Scopri di più sulla differenza tra gestione degli incidenti e gestione dei problemi
Gestione degli incidenti per DevOps

I team DevOps si concentrano sulla ricerca di modi più efficienti per creare, testare e distribuire software, il che, in parte, richiede una rapida risoluzione degli incidenti. Come per la gestione degli incidenti ITIL, la gestione degli incidenti DevOps mira a risolvere i problemi senza interrompere le operazioni. Ad esempio, i team DevOps possono monitorare eventuali metriche MTBF (tempo medio tra i guasti) scadenti, che possono indicare la presenza di un problema sottostante che deve essere analizzato.

Poiché DevOps si basa sul miglioramento continuo, c'è un'attenzione significativa all'analisi post-mortem e a una cultura della trasparenza senza colpe. L'obiettivo è quello di ottimizzare le prestazioni complessive del sistema, semplificare e accelerare la risoluzione degli incidenti e prevenire il verificarsi di incidenti futuri.

Come i team IT di oggi, i team DevOps utilizzano spesso il provisioning automatizzato, l'assegnazione delle priorità agli incidenti e gli strumenti di analisi delle cause principali basati sull'intelligenza artificiale (AI) per garantire l'operatività, affrontare prima gli incidenti più urgenti e imparare a risolvere i problemi futuri più rapidamente. (O prevenirli in primo luogo.)
Processo di gestione degli incidenti

Le organizzazioni in genere creano un processo di gestione degli incidenti che documenta la sequenza di eventi che il team di risposta deve intraprendere. Tutte le parti interessate devono sapere chi sono le persone responsabili della gestione degli incidenti, il tempo necessario per risolvere il problema, quando inoltrare l'incidente al livello successivo e come documentare l'incidente e il modo in cui è stato risolto.

Una volta definito il processo, il workflow di gestione degli incidenti in genere è il seguente:
  1. Identificare l'incidente: che si tratti di un utente finale che invia un ticket all'help desk o di un sistema di avviso automatico che avvisa di un problema, il team di risposta ha bisogno di un modo per ricevere le segnalazioni relative ai problemi all'interno del sistema.

  2. Registrare e classificare l'incidente: include l'inserimento del report sull'incidente in un sistema di registrazione degli incidenti e l'assegnazione delle priorità, incluso il livello del personale che dovrà gestirlo. Ad esempio, gli incidenti di livello 1 sono generalmente gestiti da personale più recente e meno esperto, mentre gli incidenti di livello 2 e 3 sono sempre più difficili da risolvere e richiedono l'intervento dei dipendenti più esperti.

  3. Contenere il problema: se si tratta di un incidente di sicurezza, i team di risposta devono agire rapidamente per contenere il problema, che si tratti di un attacco DDoS o di una violazione dei dati. In tutti i casi, dovranno assicurarsi che l'incidente non si diffonda e non abbia un ulteriore impatto sul sistema.

  4. Diagnosticare l'incidente: qui entra in gioco la risoluzione dei problemi. I team di intervento possono utilizzare una knowledge base o uno strumento ChatOps che suggerisca possibili cause e permetta di risparmiare tempo.

  5. Risolvere l'incidente: una volta identificata la causa, i team si mettono al lavoro per risolvere l'incidente, che si tratti di fornire memoria aggiuntiva o di risolvere un'interruzione della rete.

  6. Chiudi ed esamina l'incidente: le revisioni post-mortem sono un aspetto importante per migliorare l'affidabilità e la disponibilità negli ambienti digitali odierni. Questi dati non solo aumentano le conoscenze istituzionali dell'organizzazione, ma possono anche essere utilizzati nell'apprendimento automatico e negli strumenti basati sull'AI che aiutano a identificare gli incidenti più rapidamente e persino a creare avvisi quando è probabile che si verifichino incidenti. Revisioni più approfondite aiutano le organizzazioni a implementare procedure di correzione degli incidenti più efficaci.
Perché utilizzare la gestione degli incidenti?

Tutte le organizzazioni devono risolvere i problemi e risolvere gli incidenti per mantenere l'attività in funzione. Ma ci sono anche vantaggi evidenti nell'avere strumenti e team efficaci per la risoluzione degli incidenti in grado di reagire rapidamente senza gravi interruzioni del business. Questi vantaggi includono:
Risoluzione più rapida dei problemi

Gli strumenti di gestione degli incidenti, l'automazione e gli AIOps aiutano i team a identificare i problemi e risolverli rapidamente. Questo, a sua volta, migliora l'efficienza e consente ai team di concentrarsi sulle operazioni aziendali principali anziché su una costante lotta per spegnere gli incendi.
Migliore esperienza utente

Quando gli incidenti vengono risolti correttamente (e più velocemente) al primo tentativo, la qualità del servizio per l'utente finale migliora. Tutto inizia con un sistema chiaro e facile da usare per segnalare le interruzioni del servizio e continua con una buona comunicazione man mano che gli incidenti vengono risolti.
Maggiore efficienza operativa

La risposta agli incidenti crea un sistema in cui i problemi hanno un percorso di risoluzione chiaro e aiuta a sviluppare conoscenze istituzionali nel tempo. Queste conoscenze, detenute dal personale o integrate in un sistema automatizzato guidato dall'AI, aiutano a documentare importanti metriche di performance, come il tempo medio di risoluzione (MTTR), per garantire che l'organizzazione mantenga un livello di servizio elevato e fornisca un'esperienza eccellente al cliente.
Insight più approfonditi

Con un efficace sistema di gestione degli incidenti, i team possono affrontare gli incidenti gravi più rapidamente ed estrarre informazioni dettagliate per l'analisi delle cause principali. Quando i membri del team documentano il modo in cui sono stati risolti gli incidenti passati, iniziano a creare un playbook con modelli per la risoluzione di incidenti simili in futuro.
Conformità SLA

Un contratto sul livello di servizio (SLA) definisce il livello di servizio che un'azienda è tenuta a fornire a un cliente. Pertanto, la risposta e la gestione degli incidenti svolgono un ruolo chiave nel soddisfare le metriche e gli indicatori chiave di prestazione (KPI) definiti nello SLA.
Strumenti di gestione degli incidenti e automazione

La crescente complessità delle operazioni IT, in parte determinata dalle numerose applicazioni su cui le organizzazioni fanno affidamento nelle operazioni aziendali quotidiane, ha reso gli strumenti di risposta agli incidenti e l'automazione più importanti che mai.

Alcuni degli strumenti di gestione degli incidenti più comuni includono:

  • Strumenti di monitoraggio: questi strumenti identificano le interruzioni, attivano gli avvisi e diagnosticano gli incidenti. Gli strumenti di monitoraggio riducono anche i costi, consentendo ai team DevOps di gestire meglio il ciclo di vita del software.

  • Service desk: un punto in cui gli utenti possono inviare ticket, chattare con il team del service desk, monitorare lo stato di avanzamento dei loro ticket ed eseguire alcune attività self-service. In genere, il service desk viene gestito tramite un sistema apposito che consente attività chiave di gestione degli incidenti, come la definizione delle priorità e la categorizzazione.

  • Piattaforme AlOps : utilizzando registri e dati storici, AIOps può fornire un contesto per un migliore processo decisionale, un'allocazione più intelligente delle risorse e una risposta più rapida agli incidenti.

  • vDocumentation: si tratta di script che documentano automaticamente le modifiche a un ambiente, agevolando la registrazione degli incidenti per l'analisi post-mortem. Ad esempio, i team possono configurare gli script PowerCLI in modo che vengano eseguiti mensilmente per registrare gli incidenti per un'analisi più approfondita.
