Che cos'è la resilienza operativa?

Persone che lavorano su lavagne

Spiegazione di resilienza operativa

La resilienza operativa è la capacità di un'organizzazione di anticipare, assorbire, adattarsi e recuperare da interruzioni, fornendo continuamente servizi aziendali critici.

I principali eventi dirompenti, che si tratti di attacchi informatici, interruzioni di corrente o guasti del sistema, sono inevitabili. Nessuna organizzazione o impresa è immune. La resilienza operativa va oltre il tradizionale disaster recovery, gestendo in modo proattivo gli eventi imprevisti. Questo approccio richiede di identificare quali servizi sono più importanti per l'azienda e assicurarsi che rimangano stabili e si riprendano rapidamente.

Le imprese stanno affrontando sempre più la necessità di resilienza operativa. Secondo ricerche di BCI e Riskonnect, il 70% delle organizzazioni ha ora programmi di resilienza operativa e un ulteriore 10% è in fase di sviluppo.¹ L'aderenza alle best practice è la motivazione più comune per lo sviluppo di queste strategie, mentre la conformità normativa è al secondo posto.

Sebbene la resilienza operativa sia vitale per tutte le aziende, alcuni settori richiedono funzionalità robuste. Le istituzioni finanziarie sono particolarmente vulnerabili agli incidenti di sicurezza e ai rischi informatici. Devono proteggere i dati dei clienti, mantenere la stabilità del sistema finanziario e rispettare normative rigorose, altrimenti rischiano di perdere la reputazione e la fiducia dei clienti. Allo stesso modo, le organizzazioni sanitarie sono responsabili di garantire la continuità delle cure durante eventi avversi rispettando al contempo i requisiti di privacy per i dati sensibili dei pazienti.

Perché la resilienza operativa è importante?

La resilienza operativa è diventata un fattore mission-critical nel business moderno per numerosi motivi. In un mondo digitale "sempre attivo", ci si aspetta che le organizzazioni resistano a qualsiasi interruzione operativa, con ogni secondo di tempo di inattività che comporta perdite finanziarie, vulnerabilità di sicurezza e rischi aziendali.

I grandi eventi catastrofici, che si tratti di pandemie o di disastri naturali, hanno messo in evidenza la necessità di una resilienza operativa. Inoltre, l'attività regolatoria a livello mondiale è in aumento, con governi e altre autorità che emanano linee guida, leggi e regolamenti per garantire che le imprese possano anticipare e riprendersi rapidamente dagli eventi avversi.

Man mano che le organizzazioni implementano costantemente l'intelligenza artificiale (AI) e si affidano alle partnership per rimanere competitive, le organizzazioni devono assicurarsi che queste dipendenze rispettino gli stessi standard di sicurezza informatica, resilienza e controllo che esse e i loro regolatori richiedono.

Anche il landscape delle minacce informatiche si sta evolvendo. Secondo l'IBM X-Force Threat Intelligence Index 2024, gli aggressori stanno passando dal ransomware al malware progettato per rubare informazioni.

Indipendentemente dal settore, la fiducia e la sicurezza devono essere alla base del processo decisionale relativo al luogo in cui risiedono workload e dati.

AI Academy

Prepararsi all'AI con l'hybrid cloud

Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.

Resilienza operativa, gestione della continuità aziendale (BCM) e disaster recovery (DR)

La resilienza operativa, la gestione della continuità aziendale (BCM) e il disaster recovery (DR) sono tutte strategie per proteggere le aziende, ma sono processi distinti.

Una strategia di continuità aziendale si riferisce alla capacità di un'organizzazione di mantenere le funzioni aziendali cruciali e riprendere le normali operazioni con tempi di inattività minimi in caso di crisi. La gestione della continuità operativa (BCM) si concentra sulla creazione di piani e procedure dettagliate per garantire che i processi aziendali essenziali possano continuare anche in caso di interruzioni della supply chain, pandemie o altri eventi imprevisti.

I piani di disaster recovery sono più tecnici e orientati all'IT. Il DR è costituito da tecnologie IT e best practice progettate per prevenire o ridurre al minimo la perdita di dati e l'interruzione delle attività derivanti da eventi catastrofici come guasti alle attrezzature, attacchi informatici o danni alle strutture.

Si concentra su punti isolati di guasto che potrebbero interrompere operazioni critiche, tipicamente in un data center, sia on-premise che nel cloud. Il DR stabilisce obiettivi di tempo di ripristino (RTO) e obiettivi di punto di ripristino (RPO) specifici per il ripristino di sistemi informativi e dati.

Vale la pena notare che la continuità aziendale e il disaster recovery (BCDR) sono spesso combinati in strategie integrate, ma possono anche essere utilizzati separatamente a seconda degli obiettivi aziendali.

Un piano di resilienza operativa è una strategia più ampia che si riferisce alla capacità di un'azienda di prevedere, mantenere e ripristinare i propri servizi e funzioni critiche di fronte a una sfida. Mentre DR e BCM si concentrano tipicamente su scenari specifici e piani di recupero, la resilienza operativa comprende l'intero spettro di fattori (ad esempio, persone, processi, tecnologia, supply chain) che supportano le operazioni dei servizi aziendali e la loro consegna. Si è evoluta per far fronte a minacce sempre più sofisticate.

Regolamentazione della resilienza operativa

Negli ultimi anni, la resilienza operativa è diventata una priorità regolatoria per governi e altre entità in tutto il mondo. Guida i settori altamente regolamentati (ad esempio, le società di servizi finanziari, le infrastrutture dei mercati finanziari) nella gestione dei requisiti di privacy, resilienza informatica, sicurezza e sovranità dei dati.

Per proteggere l'interesse pubblico, questi organismi regolatori hanno istituito pratiche standardizzate per garantire che le organizzazioni comprendano le loro vulnerabilità e investano in misure di protezione per la stabilità finanziaria.

Negli Stati Uniti, la Federal Reserve e altri enti regolatori bancari hanno emesso linee guida sulle pratiche di resilienza operativa. A livello internazionale, regolamenti come il Digital Operational Resilience Act (DORA) dell'Unione europea hanno creato framework vincolanti e completi di gestione del rischio nelle tecnologie dell'informazione e della comunicazione (ICT) per le istituzioni finanziarie e i loro fornitori critici di servizi tecnologici terzi.

Componenti chiave della resilienza operativa

La resilienza operativa richiede un approccio olistico tra aree interconnesse che includono:

  • Framework di gestione del rischio: le pratiche di gestione del rischio operativo costituiscono la base contro le minacce interne ed esterne. Le organizzazioni devono identificare, valutare e mitigare costantemente l'esposizione ai rischi operativi, che vanno dall'errore umano ai guasti di tecnologia e di sistema. Una gestione efficace del rischio consente alle organizzazioni di anticipare i rischi potenziali e di sviluppare strategie per ridurne l'impatto.
  • Tecnologia e sistemi: la creazione di una solida infrastruttura informatica (IT) è essenziale. I sistemi IT, le applicazioni, i dati e i controlli di cybersecurity devono essere sufficientemente robusti da resistere alle interruzioni e riprendersi rapidamente in caso di incidenti operativi.
  • Persone e processi: dipendenti qualificati, procedure ben definite e una formazione efficace garantiscono che tutti gli stakeholder possano rispondere in modo appropriato durante le crisi e mantenere funzioni cruciali e la sovranità digitale.
  • Strutture e infrastrutture: le sedi fisiche come data center, sistemi di alimentazione e infrastrutture di rete devono essere protette e dotate di funzionalità di backup per supportare il disaster recovery e la continuità aziendale.
  • Dipendenze da terze parti: fornitori, provider di cloud service e partner di outsourcing introducono dipendenze che richiedono pratiche di gestione del rischio da parte di terzi per garantire che rispettino gli standard di resilienza.

Il ciclo di vita della resilienza operativa

Le organizzazioni costruiscono resilienza operativa in tutte le aree principali attraverso un ciclo di vita continuo e proattivo in quattro fasi.

1. Anticipare e prepararsi

Le imprese devono identificare funzioni aziendali critiche, potenziali minacce e vulnerabilità in tutto il loro sistema IT (ad esempio, on-premise, cloud privato, cloud sovrano, cloud pubblico, edge).

Questo approccio prevede la conduzione di valutazioni del rischio informatico, modellazione delle minacce e analisi dell'impatto aziendale (BIA) per identificare potenziali vulnerabilità e funzioni importanti.

2. Prevenire e mitigare

Questa fase sviluppa e implementa strategie per fermare o ridurre l'impatto di potenziali interruzioni. Implica l'integrazione di solide politiche di sicurezza, formazione dei dipendenti e soluzioni IT specializzate per prevenire incidenti.

3. Rispondere e recuperare

Questa fase si riferisce all'attivazione di piani di risposta agli incidenti e di continuità aziendale per gestire una crisi in corso e ripristinare rapidamente le funzioni essenziali.

L'obiettivo è minimizzare gli impatti improvvisi e gli shock e garantire la continuità dei servizi vitali.

4. Adattarsi e imparare

Dopo un incidente, le organizzazioni devono analizzare quanto accaduto, raccogliere dati, esaminare l'efficacia del piano e colmare le lacune identificate per migliorare le loro funzionalità di resilienza.

Costruire una strategia di resilienza operativa

Convertire la resilienza operativa in pratica richiede una strategia coerente che incorpori l'intero sistema: team interni, processi, tecnologia ed entità di terze e quarte parti.

Molte organizzazioni incontrano ostacoli come i dati isolati, l'infrastruttura legacy e la complessità di effettuare stress test su larga scala senza interrompere le operazioni aziendali critiche.

Un piano onnicomprensivo affronta questi problemi attraverso i passaggi chiave presentati più avanti.

1. Identificare i servizi aziendali cruciali

Inizia mappando quali servizi sono essenziali per la tua attività e che causerebbero i danni più gravi in caso di interruzione. Stabilisci tolleranze e metriche di impatto. 

È importante non concentrarsi solo sulle considerazioni tecniche dell'azienda; assicurati di considerare l'impatto su clienti, ricavi e reputazione.

2. Mappare le dipendenze e le interconnessioni

Documenta come sistemi, persone e processi si collegano. Comprendere questa interconnessione e interdipendenza aiuta a identificare le potenziali reazioni a catena, come un'interruzione di un fornitore di servizi di terze parti che colpisce simultaneamente più sistemi interni.

Gli strumenti moderni di mappatura delle dipendenze possono automatizzare la visibilità su ambienti complessi e distribuiti.

3. Valutare rischi e vulnerabilità

Individua punti significativi di guasto, come la dipendenza da un singolo data center. Creare un linguaggio comune del rischio in tutta l'organizzazione utilizzando terminologia standardizzata e scale di valutazione del rischio che permettano una comunicazione coerente tra team tecnici, leader aziendali e il consiglio di amministrazione.

Considera sia le minacce tradizionali (ad esempio, guasti hardware) che le minacce emergenti (ad esempio, malware sofisticati). Il monitoraggio e gli analytics basati su AI possono aiutare a scoprire le vulnerabilità e i potenziali punti di errore nelle infrastrutture critiche.

4. Stabilire governance e responsabilità

Crea un framework di governance dei dati che designi una chiara titolarità dei dirigenti senior. Assegna ruoli e responsabilità chiari (con misure di responsabilità) per dare priorità alle attività di resilienza operativa.

La leadership dovrebbe anche stabilire la propensione al rischio dell'organizzazione per determinare gli investimenti e le priorità della resilienza.

5. Implementare test e validazione

Esegui test di scenario per convalidare le tue capacità di risposta. Esercitazioni e simulazioni frequenti contribuiscono a garantire che i team siano preparati e che i piani di emergenza rimangano efficaci in caso di incidenti o interruzioni informatiche.

6. Costruire un miglioramento continuo

Incidenti reali ed esercizi di test aiutano a individuare le lacune. Le valutazioni di routine e le modifiche aiutano a rafforzare le funzionalità di resilienza e a tenere il passo con le minacce e i cambiamenti aziendali in corso.

7. Rispettare i requisiti normativi

Integra la conformità nella tua strategia fin dall'inizio. Allinea la tua azienda con le normative appropriate e utilizza framework di settore come il NIST.

Il monitoraggio automatico della conformità può aiutare a dimostrare la conformità continua ai requisiti normativi.

Stephanie Susnjara

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Soluzioni correlate
IBM Concert

Semplifica la gestione delle applicazioni e ottieni insight fruibili generati dall'AI con IBM Concert, una piattaforma di automazione della tecnologia basata su AI generativa.

Esplora IBM Concert
Servizi di consulenza strategica

Fai crescere e trasforma il tuo business reinventando la tua strategia aziendale e il modo in cui lavori.

Esplora i servizi di consulenza strategica
Soluzioni di automazione dei processi aziendali

Scopri soluzioni che forniscono rapidamente automazioni intelligenti con strumenti a uso limitato di codice.

Esplora le soluzioni di automazione dei processi aziendali
Prossimi passi

Attraverso l'AI, IBM Concert scopre insight di importanza chiave sulle operazioni e fornisce raccomandazioni specifiche per migliorare le applicazioni. Scopri come Concert può migliorare il tuo business.

  1. Esplora Concert
  2. Esplora le soluzioni di automazione dei processi aziendali