Ogni giorno, miliardi di persone in tutto il mondo utilizzano i propri computer o mobile per accedere a Internet. Invariabilmente, alcuni di questi utenti tentano di accedere a un sito web lento da caricare o soggetto a crash.
Uno dei motivi per cui il sito web ha prestazioni inferiori è che troppe persone cercavano di accedere al sito contemporaneamente, sovraccaricando i server. Tuttavia, potrebbe anche essere indicativo di un problema più ampio, tra cui un'errata configurazione DNS, un errore duraturo del server o un attacco dannoso da parte di un malintenzionato.
Gli incidenti sono errori o complicazioni del servizio IT che devono essere corretti. Molti di questi incidenti sono sfide temporanee che richiedono un rimedio specifico, ma quelli che indicano complicazioni sottostanti o più complesse che richiedono un approccio più completo sono chiamati problemi.
Questo spiega l'esistenza della gestione degli incidenti e dei problemi, due processi importanti per il controllo di complicazioni ed errori, il mantenimento del tempo di attività e, in ultima analisi, la fornitura di un ottimo servizio ai clienti e agli altri stakeholder.
Le organizzazioni dipendono sempre più dalle tecnologie digitali per servire i propri clienti e collaborare con i partner. Lo stack tecnologico di un'organizzazione può creare nuove ed entusiasmanti opportunità per far crescere il proprio business. Ma un errore nel servizio può anche creare interruzioni esponenziali e danni alla sua reputazione e stato di salute finanziaria.
La gestione degli incidenti è il modo in cui le organizzazioni identificano, monitorano e risolvono gli incidenti che potrebbero interrompere i normali processi aziendali. Spesso è un processo reattivo in cui si verifica un incidente e l'organizzazione fornisce una risposta all'incidente il più rapidamente possibile.
Un aumento delle organizzazioni che perseguono la trasformazione digitale e altre operazioni basate sulla tecnologia rende la gestione degli incidenti ancora più importante, data la dipendenza dalla tecnologia per fornire soluzioni ai clienti.
I servizi IT delle organizzazioni sono sempre più costituiti da un sistema complesso di applicazioni, software, hardware e altre tecnologie, che possono essere tutte interdipendenti. I singoli processi possono interrompersi, interrompendo il servizio che forniscono ai clienti, costando denaro all'azienda e creando problemi di reputazione. Le organizzazioni hanno adottato procedure avanzate di sviluppo operativo (DevOps) per ridurre al minimo gli incidenti, ma hanno bisogno di un processo di risoluzione quando si verificano.
Ogni giorno, le organizzazioni incontrano e devono gestire incidenti minori e gravi, che possono tutti interrompere le normali funzioni aziendali. Le organizzazioni devono prestare attenzione a diversi tipi di incidenti, tra cui interruzioni non pianificate come interruzioni del sistema, problemi di configurazione della rete, bug, incidenti di sicurezza, perdita di dati e altro ancora.
Man mano che gli stack di tecnologia sono aumentati in complessità, diventa ancora più importante gestire strategicamente il processo di gestione degli incidenti. Per garantire che tutti i membri dell'organizzazione sappiano cosa fare in caso di incidente.
I sistemi di gestione degli incidenti si sono evoluti da strumenti semplici in cui i dipendenti registravano gli incidenti osservati (spesso anche ore dopo che si erano verificati). A una pratica solida e sempre attiva con software di automazione e gestione self-service degli incidenti, che consenta a chiunque nell'organizzazione di segnalare un incidente al service desk.
È importante risolvere immediatamente gli incidenti e impedire che si ripetano. Ciò consente alle organizzazioni di rispettare il loro accordo sul livello di servizio (SLA), che può garantire un certo periodo di tempo di attività o accesso ai servizi. Il mancato rispetto di uno SLA potrebbe esporre la tua organizzazione a rischi legali o reputazionali.
Il responsabile degli incidenti è il principale stakeholder del processo di gestione degli incidenti. Un responsabile degli incidenti è responsabile della gestione della risposta a un incidente e della comunicazione dei progressi ai principali stakeholder. È un ruolo complesso nei servizi IT che richiede al dipendente di operare in condizioni di stress mentre comunica con gli stakeholder con ruoli e priorità diversi nel business.
La gestione dei problemi ha lo scopo di evitare che l'incidente si ripeta affrontando la causa principale. Segue logicamente la gestione degli incidenti, soprattutto se quell'incidente si è verificato più volte e dovrebbe probabilmente essere diagnosticato come un problema o un errore noto.
La gestione degli incidenti senza gestione dei problemi affronta solo i sintomi e non la causa sottostante (ovvero la causa principale), con la probabilità che incidenti simili si verifichino in futuro. Una gestione efficace dei problemi identifica una soluzione permanente ai problemi, riducendo il numero di incidenti che un'organizzazione dovrà gestire in futuro.
Un team di gestione dei problemi può impegnarsi in una gestione reattiva o proattiva dei problemi, a seconda degli incidenti osservati e dei dati storici di cui dispone.
C'è una grande differenza da considerare quando si osservano gli incidenti rispetto ai problemi: obiettivi a breve termine e obiettivi a lungo termine.
La gestione degli incidenti è più interessata a intervenire su un'istanza problematica con l'obiettivo dichiarato di riportare il servizio online senza causare ulteriori problemi. È uno strumento a breve termine per mantenere attivo il servizio in quel preciso momento.
La gestione dei problemi si concentra maggiormente sulla risposta a lungo termine, affrontando qualsiasi potenziale causa sottostante come parte di una complicazione potenziale più ampia (cioè un problema).
Le organizzazioni cercano di mantenere in buono stato la propria infrastruttura IT utilizzando la gestione dei servizi IT (ITSM) per gestire l'implementazione, la fornitura e la gestione dei servizi che soddisfano le esigenze degli utenti finali. L'ITSM mira a ridurre al minimo i tempi di inattività non programmati e garantire che ogni risorsa IT funzioni come previsto per ogni utente finale.
I problemi sorgono indipendentemente dall'impegno che le organizzazioni dedicano alla loro ITSM. La capacità di un'organizzazione di affrontare e risolvere complicazioni impreviste prima che si trasformino in problemi più gravi può essere un enorme vantaggio competitivo. Un servizio IT che si interrompe una volta è considerato un incidente.
Ad esempio, un numero eccessivo di persone che cercano di accedere a un server può causarne il blocco, creando un incidente che la sua organizzazione deve risolvere. La gestione degli incidenti è correlata alla risoluzione di quel particolare problema che interessa gli utenti il più rapidamente e attentamente possibile. In questo caso, un responsabile degli incidenti può contattare i dipendenti dell'organizzazione e chiedere loro di uscire dai programmi mentre l'organizzazione risolve il problema.
La gestione degli incidenti e la gestione dei problemi sono entrambe regolate dall'Information Technology Infrastructure Library (ITIL), un framework ampiamente adottato per l'implementazione e la documentazione di entrambi gli approcci di gestione. L'ITIL crea la struttura per rispondere in modo reattivo agli incidenti non appena si verificano. La versione più aggiornata al momento in cui scriviamo è ITIL 4.
Fornisce una raccolta di best practice per la gestione degli asset IT e il miglioramento del supporto e dei livelli di servizio IT. I processi ITIL collegano i servizi IT alle operazioni aziendali in modo che possano cambiare quando cambiano gli obiettivi aziendali.
Un componente chiave dell'ITIL è il database di gestione della configurazione (CMDB), che tiene traccia e gestisce l'interdipendenza di tutto il software, i componenti IT, i documenti, gli utenti e l'hardware necessari per fornire un servizio IT. L'ITIL crea anche una distinzione tra gestione degli incidenti e gestione dei problemi.
Un server che si blocca costantemente può rappresentare un problema più ampio e sistematico, come un guasto hardware o una configurazione errata. Gli arresti anomali possono continuare se il team dell'assistenza IT non riesce a scoprire la causa principale e a mappare una soluzione al problema sottostante. In questo caso, la risposta potrebbe richiedere un passaggio alla gestione dei problemi, che si occupa di risolvere gli incidenti ripetuti.
La gestione dei problemi fornisce un'analisi della causa principale del problema e una soluzione consigliata, che identifica le risorse necessarie per evitare che si ripeta.
Una gestione efficace degli incidenti e dei problemi comprende un workflow strutturato che richiede monitoraggio in tempo reale, automazione e coordinamento di lavoratori dedicati per risolvere i problemi il più rapidamente possibile ed evitare inutili tempi di inattività o interruzioni dell'attività. Entrambe le forme di gestione presentano diverse componenti che le organizzazioni dovrebbero conoscere.
Le organizzazioni spesso valutano i responsabili degli incidenti e il processo di gestione degli incidenti sulla base di diversi indicatori chiave di prestazione (KPI):
Le aziende con piani completi di gestione dei problemi e degli incidenti possono rispondere rapidamente agli incidenti e superare la concorrenza. Di seguito sono riportati alcuni benefici:
IBM Turbonomic si integra con le tue soluzioni ITOps esistenti, collega team e dati isolati e trasforma i processi manuali e reattivi in un'ottimizzazione continua delle risorse applicative, riducendo al contempo in sicurezza il consumo di cloud del 33%.
IBM Cloud Pak for AIOps, l'opzione self-hosted per la gestione degli incidenti, consente una gestione proattiva degli incidenti e una correzione automatica per ridurre le interruzioni rivolte ai clienti fino al 50% e il tempo medio di ripristino (MTTR) fino al 50%.
Iscriviti alla newsletter Think
Scala automaticamente l'infrastruttura IT esistente per prestazioni più elevate a costi inferiori.
Scopri come l'AI per le operazioni IT fornisce gli insight necessari per favorire eccezionali prestazioni di business.
Vai oltre la semplice automazione delle attività per gestire processi di alto profilo, rivolti ai clienti e in grado di generare entrate con adozione e scalabilità integrate.