La resilienza operativa è la capacità di un'organizzazione di anticipare, assorbire, adattarsi e recuperare da interruzioni, fornendo continuamente servizi aziendali critici.
I principali eventi dirompenti, che si tratti di attacchi informatici, interruzioni di corrente o guasti del sistema, sono inevitabili. Nessuna organizzazione o impresa è immune. La resilienza operativa va oltre il tradizionale disaster recovery, gestendo in modo proattivo gli eventi imprevisti. Questo approccio richiede di identificare quali servizi sono più importanti per l'azienda e assicurarsi che rimangano stabili e si riprendano rapidamente.
Le imprese stanno affrontando sempre più la necessità di resilienza operativa. Secondo ricerche di BCI e Riskonnect, il 70% delle organizzazioni ha ora programmi di resilienza operativa e un ulteriore 10% è in fase di sviluppo.¹ L'aderenza alle best practice è la motivazione più comune per lo sviluppo di queste strategie, mentre la conformità normativa è al secondo posto.
Sebbene la resilienza operativa sia vitale per tutte le aziende, alcuni settori richiedono funzionalità robuste. Le istituzioni finanziarie sono particolarmente vulnerabili agli incidenti di sicurezza e ai rischi informatici. Devono proteggere i dati dei clienti, mantenere la stabilità del sistema finanziario e rispettare normative rigorose, altrimenti rischiano di perdere la reputazione e la fiducia dei clienti. Allo stesso modo, le organizzazioni sanitarie sono responsabili di garantire la continuità delle cure durante eventi avversi rispettando al contempo i requisiti di privacy per i dati sensibili dei pazienti.
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
La resilienza operativa è diventata un fattore mission-critical nel business moderno per numerosi motivi. In un mondo digitale "sempre attivo", ci si aspetta che le organizzazioni resistano a qualsiasi interruzione operativa, con ogni secondo di tempo di inattività che comporta perdite finanziarie, vulnerabilità di sicurezza e rischi aziendali.
I grandi eventi catastrofici, che si tratti di pandemie o di disastri naturali, hanno messo in evidenza la necessità di una resilienza operativa. Inoltre, l'attività regolatoria a livello mondiale è in aumento, con governi e altre autorità che emanano linee guida, leggi e regolamenti per garantire che le imprese possano anticipare e riprendersi rapidamente dagli eventi avversi.
Man mano che le organizzazioni implementano costantemente l'intelligenza artificiale (AI) e si affidano alle partnership per rimanere competitive, le organizzazioni devono assicurarsi che queste dipendenze rispettino gli stessi standard di sicurezza informatica, resilienza e controllo che esse e i loro regolatori richiedono.
Anche il landscape delle minacce informatiche si sta evolvendo. Secondo l'IBM X-Force Threat Intelligence Index 2024, gli aggressori stanno passando dal ransomware al malware progettato per rubare informazioni.
Indipendentemente dal settore, la fiducia e la sicurezza devono essere alla base del processo decisionale relativo al luogo in cui risiedono workload e dati.
La resilienza operativa, la gestione della continuità aziendale (BCM) e il disaster recovery (DR) sono tutte strategie per proteggere le aziende, ma sono processi distinti.
Una strategia di continuità aziendale si riferisce alla capacità di un'organizzazione di mantenere le funzioni aziendali cruciali e riprendere le normali operazioni con tempi di inattività minimi in caso di crisi. La gestione della continuità operativa (BCM) si concentra sulla creazione di piani e procedure dettagliate per garantire che i processi aziendali essenziali possano continuare anche in caso di interruzioni della supply chain, pandemie o altri eventi imprevisti.
I piani di disaster recovery sono più tecnici e orientati all'IT. Il DR è costituito da tecnologie IT e best practice progettate per prevenire o ridurre al minimo la perdita di dati e l'interruzione delle attività derivanti da eventi catastrofici come guasti alle attrezzature, attacchi informatici o danni alle strutture.
Si concentra su punti isolati di guasto che potrebbero interrompere operazioni critiche, tipicamente in un data center, sia on-premise che nel cloud. Il DR stabilisce obiettivi di tempo di ripristino (RTO) e obiettivi di punto di ripristino (RPO) specifici per il ripristino di sistemi informativi e dati.
Vale la pena notare che la continuità aziendale e il disaster recovery (BCDR) sono spesso combinati in strategie integrate, ma possono anche essere utilizzati separatamente a seconda degli obiettivi aziendali.
Un piano di resilienza operativa è una strategia più ampia che si riferisce alla capacità di un'azienda di prevedere, mantenere e ripristinare i propri servizi e funzioni critiche di fronte a una sfida. Mentre DR e BCM si concentrano tipicamente su scenari specifici e piani di recupero, la resilienza operativa comprende l'intero spettro di fattori (ad esempio, persone, processi, tecnologia, supply chain) che supportano le operazioni dei servizi aziendali e la loro consegna. Si è evoluta per far fronte a minacce sempre più sofisticate.
Negli ultimi anni, la resilienza operativa è diventata una priorità regolatoria per governi e altre entità in tutto il mondo. Guida i settori altamente regolamentati (ad esempio, le società di servizi finanziari, le infrastrutture dei mercati finanziari) nella gestione dei requisiti di privacy, resilienza informatica, sicurezza e sovranità dei dati.
Per proteggere l'interesse pubblico, questi organismi regolatori hanno istituito pratiche standardizzate per garantire che le organizzazioni comprendano le loro vulnerabilità e investano in misure di protezione per la stabilità finanziaria.
Negli Stati Uniti, la Federal Reserve e altri enti regolatori bancari hanno emesso linee guida sulle pratiche di resilienza operativa. A livello internazionale, regolamenti come il Digital Operational Resilience Act (DORA) dell'Unione europea hanno creato framework vincolanti e completi di gestione del rischio nelle tecnologie dell'informazione e della comunicazione (ICT) per le istituzioni finanziarie e i loro fornitori critici di servizi tecnologici terzi.
La resilienza operativa richiede un approccio olistico tra aree interconnesse che includono:
Le organizzazioni costruiscono resilienza operativa in tutte le aree principali attraverso un ciclo di vita continuo e proattivo in quattro fasi.
Le imprese devono identificare funzioni aziendali critiche, potenziali minacce e vulnerabilità in tutto il loro sistema IT (ad esempio, on-premise, cloud privato, cloud sovrano, cloud pubblico, edge).
Questo approccio prevede la conduzione di valutazioni del rischio informatico, modellazione delle minacce e analisi dell'impatto aziendale (BIA) per identificare potenziali vulnerabilità e funzioni importanti.
Questa fase sviluppa e implementa strategie per fermare o ridurre l'impatto di potenziali interruzioni. Implica l'integrazione di solide politiche di sicurezza, formazione dei dipendenti e soluzioni IT specializzate per prevenire incidenti.
Questa fase si riferisce all'attivazione di piani di risposta agli incidenti e di continuità aziendale per gestire una crisi in corso e ripristinare rapidamente le funzioni essenziali.
L'obiettivo è minimizzare gli impatti improvvisi e gli shock e garantire la continuità dei servizi vitali.
Dopo un incidente, le organizzazioni devono analizzare quanto accaduto, raccogliere dati, esaminare l'efficacia del piano e colmare le lacune identificate per migliorare le loro funzionalità di resilienza.
Convertire la resilienza operativa in pratica richiede una strategia coerente che incorpori l'intero sistema: team interni, processi, tecnologia ed entità di terze e quarte parti.
Molte organizzazioni incontrano ostacoli come i dati isolati, l'infrastruttura legacy e la complessità di effettuare stress test su larga scala senza interrompere le operazioni aziendali critiche.
Un piano onnicomprensivo affronta questi problemi attraverso i passaggi chiave presentati più avanti.
Inizia mappando quali servizi sono essenziali per la tua attività e che causerebbero i danni più gravi in caso di interruzione. Stabilisci tolleranze e metriche di impatto.
È importante non concentrarsi solo sulle considerazioni tecniche dell'azienda; assicurati di considerare l'impatto su clienti, ricavi e reputazione.
Documenta come sistemi, persone e processi si collegano. Comprendere questa interconnessione e interdipendenza aiuta a identificare le potenziali reazioni a catena, come un'interruzione di un fornitore di servizi di terze parti che colpisce simultaneamente più sistemi interni.
Gli strumenti moderni di mappatura delle dipendenze possono automatizzare la visibilità su ambienti complessi e distribuiti.
Individua punti significativi di guasto, come la dipendenza da un singolo data center. Creare un linguaggio comune del rischio in tutta l'organizzazione utilizzando terminologia standardizzata e scale di valutazione del rischio che permettano una comunicazione coerente tra team tecnici, leader aziendali e il consiglio di amministrazione.
Considera sia le minacce tradizionali (ad esempio, guasti hardware) che le minacce emergenti (ad esempio, malware sofisticati). Il monitoraggio e gli analytics basati su AI possono aiutare a scoprire le vulnerabilità e i potenziali punti di errore nelle infrastrutture critiche.
Crea un framework di governance dei dati che designi una chiara titolarità dei dirigenti senior. Assegna ruoli e responsabilità chiari (con misure di responsabilità) per dare priorità alle attività di resilienza operativa.
La leadership dovrebbe anche stabilire la propensione al rischio dell'organizzazione per determinare gli investimenti e le priorità della resilienza.
Esegui test di scenario per convalidare le tue capacità di risposta. Esercitazioni e simulazioni frequenti contribuiscono a garantire che i team siano preparati e che i piani di emergenza rimangano efficaci in caso di incidenti o interruzioni informatiche.
Incidenti reali ed esercizi di test aiutano a individuare le lacune. Le valutazioni di routine e le modifiche aiutano a rafforzare le funzionalità di resilienza e a tenere il passo con le minacce e i cambiamenti aziendali in corso.
Integra la conformità nella tua strategia fin dall'inizio. Allinea la tua azienda con le normative appropriate e utilizza framework di settore come il NIST.
Il monitoraggio automatico della conformità può aiutare a dimostrare la conformità continua ai requisiti normativi.
Semplifica la gestione delle applicazioni e ottieni insight fruibili generati dall'AI con IBM Concert, una piattaforma di automazione della tecnologia basata su AI generativa.
Fai crescere e trasforma il tuo business reinventando la tua strategia aziendale e il modo in cui lavori.
Scopri soluzioni che forniscono rapidamente automazioni intelligenti con strumenti a uso limitato di codice.