Gestione degli incidenti e gestione dei problemi: qual è la differenza?

Grattacielo moderno in vetro nel Guangzhou Central Business District

Ogni giorno, miliardi di persone in tutto il mondo utilizzano i propri computer o mobile per accedere a Internet. Invariabilmente, alcuni di questi utenti tentano di accedere a un sito web lento da caricare o soggetto a crash.

Uno dei motivi per cui il sito web ha prestazioni inferiori è che troppe persone cercavano di accedere al sito contemporaneamente, sovraccaricando i server. Tuttavia, potrebbe anche essere indicativo di un problema più ampio, tra cui un'errata configurazione DNS, un errore duraturo del server o un attacco dannoso da parte di un malintenzionato.

Gli incidenti sono errori o complicazioni del servizio IT che devono essere corretti. Molti di questi incidenti sono sfide temporanee che richiedono un rimedio specifico, ma quelli che indicano complicazioni sottostanti o più complesse che richiedono un approccio più completo sono chiamati problemi.

Questo spiega l'esistenza della gestione degli incidenti e dei problemi, due processi importanti per il controllo di complicazioni ed errori, il mantenimento del tempo di attività e, in ultima analisi, la fornitura di un ottimo servizio ai clienti e agli altri stakeholder.

Le organizzazioni dipendono sempre più dalle tecnologie digitali per servire i propri clienti e collaborare con i partner. Lo stack tecnologico di un'organizzazione può creare nuove ed entusiasmanti opportunità per far crescere il proprio business. Ma un errore nel servizio può anche creare interruzioni esponenziali e danni alla sua reputazione e stato di salute finanziaria.

Cos'è la gestione degli incidenti?

La gestione degli incidenti è il modo in cui le organizzazioni identificano, monitorano e risolvono gli incidenti che potrebbero interrompere i normali processi aziendali. Spesso è un processo reattivo in cui si verifica un incidente e l'organizzazione fornisce una risposta all'incidente il più rapidamente possibile.

Un aumento delle organizzazioni che perseguono la trasformazione digitale e altre operazioni basate sulla tecnologia rende la gestione degli incidenti ancora più importante, data la dipendenza dalla tecnologia per fornire soluzioni ai clienti.

I servizi IT delle organizzazioni sono sempre più costituiti da un sistema complesso di applicazioni, software, hardware e altre tecnologie, che possono essere tutte interdipendenti. I singoli processi possono interrompersi, interrompendo il servizio che forniscono ai clienti, costando denaro all'azienda e creando problemi di reputazione. Le organizzazioni hanno adottato procedure avanzate di sviluppo operativo (DevOps) per ridurre al minimo gli incidenti, ma hanno bisogno di un processo di risoluzione quando si verificano.

Ogni giorno, le organizzazioni incontrano e devono gestire incidenti minori e gravi, che possono tutti interrompere le normali funzioni aziendali. Le organizzazioni devono prestare attenzione a diversi tipi di incidenti, tra cui interruzioni non pianificate come interruzioni del sistema, problemi di configurazione della rete, bug, incidenti di sicurezza, perdita di dati e altro ancora.

Man mano che gli stack di tecnologia sono aumentati in complessità, diventa ancora più importante gestire strategicamente il processo di gestione degli incidenti. Per garantire che tutti i membri dell'organizzazione sappiano cosa fare in caso di incidente.

I sistemi di gestione degli incidenti si sono evoluti da strumenti semplici in cui i dipendenti registravano gli incidenti osservati (spesso anche ore dopo che si erano verificati). A una pratica solida e sempre attiva con software di automazione e gestione self-service degli incidenti, che consenta a chiunque nell'organizzazione di segnalare un incidente al service desk.

È importante risolvere immediatamente gli incidenti e impedire che si ripetano. Ciò consente alle organizzazioni di rispettare il loro accordo sul livello di servizio (SLA), che può garantire un certo periodo di tempo di attività o accesso ai servizi. Il mancato rispetto di uno SLA potrebbe esporre la tua organizzazione a rischi legali o reputazionali.

Il responsabile degli incidenti è il principale stakeholder del processo di gestione degli incidenti. Un responsabile degli incidenti è responsabile della gestione della risposta a un incidente e della comunicazione dei progressi ai principali stakeholder. È un ruolo complesso nei servizi IT che richiede al dipendente di operare in condizioni di stress mentre comunica con gli stakeholder con ruoli e priorità diversi nel business.

Che cos'è la gestione dei problemi?

La gestione dei problemi ha lo scopo di evitare che l'incidente si ripeta affrontando la causa principale. Segue logicamente la gestione degli incidenti, soprattutto se quell'incidente si è verificato più volte e dovrebbe probabilmente essere diagnosticato come un problema o un errore noto.

La gestione degli incidenti senza gestione dei problemi affronta solo i sintomi e non la causa sottostante (ovvero la causa principale), con la probabilità che incidenti simili si verifichino in futuro. Una gestione efficace dei problemi identifica una soluzione permanente ai problemi, riducendo il numero di incidenti che un'organizzazione dovrà gestire in futuro.

Un team di gestione dei problemi può impegnarsi in una gestione reattiva o proattiva dei problemi, a seconda degli incidenti osservati e dei dati storici di cui dispone.

Differenze tra gestione degli incidenti e gestione dei problemi

C'è una grande differenza da considerare quando si osservano gli incidenti rispetto ai problemi: obiettivi a breve termine e obiettivi a lungo termine.

La gestione degli incidenti è più interessata a intervenire su un'istanza problematica con l'obiettivo dichiarato di riportare il servizio online senza causare ulteriori problemi. È uno strumento a breve termine per mantenere attivo il servizio in quel preciso momento.

La gestione dei problemi si concentra maggiormente sulla risposta a lungo termine, affrontando qualsiasi potenziale causa sottostante come parte di una complicazione potenziale più ampia (cioè un problema).

In che modo la gestione degli incidenti e la gestione dei problemi lavorano insieme?

Le organizzazioni cercano di mantenere in buono stato la propria infrastruttura IT utilizzando la gestione dei servizi IT (ITSM) per gestire l'implementazione, la fornitura e la gestione dei servizi che soddisfano le esigenze degli utenti finali. L'ITSM mira a ridurre al minimo i tempi di inattività non programmati e garantire che ogni risorsa IT funzioni come previsto per ogni utente finale.

I problemi sorgono indipendentemente dall'impegno che le organizzazioni dedicano alla loro ITSM. La capacità di un'organizzazione di affrontare e risolvere complicazioni impreviste prima che si trasformino in problemi più gravi può essere un enorme vantaggio competitivo. Un servizio IT che si interrompe una volta è considerato un incidente.

Ad esempio, un numero eccessivo di persone che cercano di accedere a un server può causarne il blocco, creando un incidente che la sua organizzazione deve risolvere. La gestione degli incidenti è correlata alla risoluzione di quel particolare problema che interessa gli utenti il più rapidamente e attentamente possibile. In questo caso, un responsabile degli incidenti può contattare i dipendenti dell'organizzazione e chiedere loro di uscire dai programmi mentre l'organizzazione risolve il problema.

La gestione degli incidenti e la gestione dei problemi sono entrambe regolate dall'Information Technology Infrastructure Library (ITIL), un framework ampiamente adottato per l'implementazione e la documentazione di entrambi gli approcci di gestione. L'ITIL crea la struttura per rispondere in modo reattivo agli incidenti non appena si verificano. La versione più aggiornata al momento in cui scriviamo è ITIL 4.

Fornisce una raccolta di best practice per la gestione degli asset IT e il miglioramento del supporto e dei livelli di servizio IT. I processi ITIL collegano i servizi IT alle operazioni aziendali in modo che possano cambiare quando cambiano gli obiettivi aziendali. 

Un componente chiave dell'ITIL è il database di gestione della configurazione (CMDB), che tiene traccia e gestisce l'interdipendenza di tutto il software, i componenti IT, i documenti, gli utenti e l'hardware necessari per fornire un servizio IT. L'ITIL crea anche una distinzione tra gestione degli incidenti e gestione dei problemi.

Un server che si blocca costantemente può rappresentare un problema più ampio e sistematico, come un guasto hardware o una configurazione errata. Gli arresti anomali possono continuare se il team dell'assistenza IT non riesce a scoprire la causa principale e a mappare una soluzione al problema sottostante. In questo caso, la risposta potrebbe richiedere un passaggio alla gestione dei problemi, che si occupa di risolvere gli incidenti ripetuti.

La gestione dei problemi fornisce un'analisi della causa principale del problema e una soluzione consigliata, che identifica le risorse necessarie per evitare che si ripeta.

Componenti chiave della gestione degli incidenti e dei problemi

Una gestione efficace degli incidenti e dei problemi comprende un workflow strutturato che richiede monitoraggio in tempo reale, automazione e coordinamento di lavoratori dedicati per risolvere i problemi il più rapidamente possibile ed evitare inutili tempi di inattività o interruzioni dell'attività. Entrambe le forme di gestione presentano diverse componenti che le organizzazioni dovrebbero conoscere.

Gestione degli incidenti

  • Identificazione dell'incidente: per risolvere un incidente, è necessario prima osservarlo. Le organizzazioni automatizzano sempre più i sistemi per rilevare e inviare notifiche quando si verificano incidenti. Ma molti richiedono anche l'intervento umano per accertare che un incidente stia effettivamente avvenendo, stabilire se necessiti di intervento e confermare l'approccio corretto. Ad esempio, un crash del server è un incidente comune nelle organizzazioni digital-first. Quando il server va offline, uno strumento automatizzato o un dipendente può identificare l'incidente, avviando il processo di gestione degli incidenti.
  • Segnalazione di incidenti: si tratta del processo formale di catalogazione di un record di incidente osservato da una macchina o da un essere umano. Include la registrazione degli incidenti, il processo mediante il quale un individuo o un sistema assegna un rispondente ai problemi, classifica l'incidente e identifica l'unità di business interessata e la data di risoluzione.
  • Definizione delle priorità per la risoluzione degli incidenti: software e servizi IT sono spesso interdipendenti nelle organizzazioni moderne, quindi un incidente può avere un effetto a catena su altri servizi. A volte un incidente si verifica come parte di un guasto sistematico più ampio, che può innescare una catena catastrofica di eventi. Ad esempio, se più server si bloccano, il team di analytics potrebbe non essere in grado di accedere ai dati di cui ha bisogno, oppure i lavoratori con competenze dell'azienda potrebbero non essere in grado di accedere e utilizzare il software per il loro lavoro. Oppure, se l'API di un'azienda non funziona, i clienti dell'organizzazione potrebbero non essere in grado di accedere alle informazioni di cui hanno bisogno per servire i propri utenti finali. In entrambe le situazioni, il team di risposta deve valutare l'intera portata del problema e dare priorità agli incidenti da risolvere per ridurre al minimo gli effetti a breve e lungo termine sull'azienda. Possono stabilire le priorità in base all'incidente che ha il maggiore impatto sull'organizzazione.
  • Risposta e contenimento dell'incidente: un team di risposta, potenzialmente coadiuvato da software o sistemi automatizzati, si impegna poi a risolvere l'incidente per ridurre al minimo le interruzioni dell'attività. Il team di risposta è solitamente composto da membri del team IT interno, fornitori di servizi esterni e staff delle operazioni, a seconda delle esigenze.
  • Risoluzione degli incidenti: è di importanza critica affinché le operazioni IT tornino ai normali servizi. Le possibili soluzioni a un incidente IT includono la disconnessione del server che funziona in modo errato, la creazione di una patch, la creazione di una soluzione alternativa o la modifica dell'hardware.
  • Documentazione e comunicazione degli incidenti: questa è una fase cruciale del ciclo di vita degli incidenti per evitare incidenti futuri. Molte aziende creano basi di conoscenza per le segnalazioni degli incidenti in cui i dipendenti possono cercare di aiutarli a risolvere un incidente che potrebbe essersi verificato in passato. Inoltre, i nuovi dipendenti possono conoscere gli incidenti che l'azienda ha subito di recente e le soluzioni applicate, in modo da poter aiutare più prontamente in caso di incidente successivo. La documentazione è anche critica per determinare se una complicazione è ricorrente e diventa un problema, aumentando la necessità di gestione dei problemi.

Gestione dei problemi

  • Valutazione del problema: l'organizzazione ora deve determinare se l'incidente deve essere classificato come un record di problema o se si tratta solo di un incidente non correlato. Nel primo caso, esso entra a far parte della gestione dei problemi.
  • Registrazione e categorizzazione dei problemi: il team IT deve ora registrare il problema identificato e tenere traccia di ogni evento.
  • Analisi della causa principale: l'organizzazione dovrebbe studiare le cause principali dietro questi problemi e sviluppare una roadmap per creare una soluzione a lungo termine. Un modo per farlo è porre domande ricorsive sul "come" in ogni fase del processo fino a identificare il problema originale.
  • Risoluzione dei problemi: un team IT che comprende il problema e la sua causa principale può ora risolverlo. Questo può comportare una risposta rapida o prolungata a seconda della gravità o della complessità del problema.
  • Post-mortem: un post-mortem in cui i dipendenti competenti discutono degli incidenti, delle cause principali e della risposta al problema è un componente critico di qualsiasi organizzazione trasparente interessata a mantenere il tempo di attività e fornire ai clienti un servizio eccellente. I post-mortem offrono a tutti l'opportunità di discutere su come migliorare senza giudicare nessun dipendente o attribuire colpe per eventuali problemi. Lo scopo del post-mortem è scoprire cosa è successo e definire azioni per migliorare l'organizzazione. Può anche fornire insight su come il team può rispondere meglio agli incidenti futuri. Può identificare se un'organizzazione richiede la gestione del cambiamento per rivitalizzare e semplificare la gestione degli incidenti e dei problemi. Le idee migliori e i risultati migliori nascono da incontri post-mortem aperti e onesti. La cultura del team dovrebbe assicurare a tutti i membri che questo è un modo per scoprire come il team può migliorare i servizi IT e non un modo per trovare qualcuno da incolpare. I team capiranno subito se si tratta di un esercizio onesto e di supporto o meno.

Indicatori chiave di prestazione per la gestione di incidenti e problemi

Le organizzazioni spesso valutano i responsabili degli incidenti e il processo di gestione degli incidenti sulla base di diversi indicatori chiave di prestazione (KPI):

  • Tempo medio di intervento: un incidente richiede il rilevamento, la risposta e la riparazione. Le organizzazioni giudicano lo stato di salute del loro servizio di gestione degli incidenti in base al tempo medio di avviso o conferma (MTTA), al tempo medio di risposta e al tempo medio di riparazione (MTTR), che forniscono tutti un'immagine chiara di come l'organizzazione può rispondere agli incidenti.
  • Tempo medio tra i guasti (MTBF): il tempo tra gli incidenti per qualsiasi servizio IT. L'MTBF, che si verifica più frequentemente del previsto, potrebbe significare problemi più grandi che richiedono un atteggiamento più proattivo.
  • Tempo di attività: il tempo in cui i tuoi servizi sono disponibili e funzionano come previsto. Troppo poco tempo di attività può mettere un'organizzazione a rischio di violare il suo SLA con gli utenti finali e di perdere altrimenti affari a favore della concorrenza.
  • Incidenti e problemi segnalati: il numero di incidenti segnalati da un gestore di incidenti in un determinato periodo di tempo. L'aumento degli incidenti segnalati può essere un segno di un problema più ampio.

Benefici della gestione degli incidenti e dei problemi

Le aziende con piani completi di gestione dei problemi e degli incidenti possono rispondere rapidamente agli incidenti e superare la concorrenza. Di seguito sono riportati alcuni benefici:

  • Maggiore soddisfazione e fidelizzazione dei clienti: i clienti si aspettano che i servizi e i prodotti per cui pagano funzionino ogni volta che è necessario. Sempre più prodotti sono software (o collegati a software, come i dispositivi intelligenti). Un server che si blocca in un'azienda che produce campanelli intelligenti significa che le persone non possono entrare nelle loro case o appartamenti. Un sito di prenotazione alberghiera con un problema di errore DNS perde entrate quel giorno e potenzialmente perde un cliente a vita a favore di un concorrente. L'impatto degli incidenti e dei problemi può pesare molto su un'organizzazione. Quelle che rispondono più rapidamente agli incidenti e riducono al minimo i tempi di inattività guadagneranno la fedeltà dei clienti che probabilmente cambieranno fornitore se non sono soddisfatti. Una solida strategia di gestione degli incidenti fa risparmiare denaro alle aziende riducendo i tempi di inattività e la probabilità che un cliente o un dipendente se ne vada, entrambi associati a costi rigidi.
  • Aumento della soddisfazione dei dipendenti: un grave incidente informatico colpisce tanto i dipendenti quanto i clienti. I dipendenti che non possono accedere a software aziendali critici non possono svolgere il proprio lavoro. Il loro lavoro si accumula mentre l'azienda cerca di rimettere le cose online. Potrebbero essere costretti a fare gli straordinari o lavorare durante il fine settimana per recuperare, il che crea stress e minaccia il loro morale.
  • Rispetto dei requisiti SLA: le organizzazioni dettagliano le aspettative dei clienti per i loro prodotti e servizi in uno SLA. L'organizzazione potrebbe essere a rischio di azioni legali se non rispetta i termini di servizio nei suoi SLA e potenzialmente perdere clienti a favore della concorrenza.

Scopri come realizzare operazioni IT proattive

IBM Turbonomic si integra con le tue soluzioni ITOps esistenti, collega team e dati isolati e trasforma i processi manuali e reattivi in un'ottimizzazione continua delle risorse applicative, riducendo al contempo in sicurezza il consumo di cloud del 33%.

IBM Cloud Pak for AIOps, l'opzione self-hosted per la gestione degli incidenti, consente una gestione proattiva degli incidenti e una correzione automatica per ridurre le interruzioni rivolte ai clienti fino al 50% e il tempo medio di ripristino (MTTR) fino al 50%.

Iscriviti alla newsletter Think

Soluzioni correlate
IBM Turbonomic

Scala automaticamente l'infrastruttura IT esistente per prestazioni più elevate a costi inferiori.

Esplora IBM Turbonomic
Soluzioni AIOps

Scopri come l'AI per le operazioni IT fornisce gli insight necessari per favorire eccezionali prestazioni di business.

Esplora le soluzioni AIOps
Servizi di consulenza per l'automazione

Vai oltre la semplice automazione delle attività per gestire processi di alto profilo, rivolti ai clienti e in grado di generare entrate con adozione e scalabilità integrate.

Scopri i servizi di consulenza per l'automazione
Fai il passo successivo

Scopri come l'AI per le operazioni IT fornisce gli insight necessari per ottenere prestazioni aziendali eccezionali.

Scopri Turbonomic Esplora le soluzioni AIOps