Elevata disponibilità (HA) è un termine che si riferisce alla capacità di un sistema di essere accessibile e affidabile quasi il 100% del tempo.
I sistemi a elevata disponibilità devono essere in grado di resistere alle interruzioni, compresi i tempi di inattività programmati e i disastri a livello di sito. Solitamente, i sistemi a elevata disponibilità soddisfano due caratteristiche:
Con l'aumento delle iniziative di trasformazione digitale e il successivo spostamento di numerosi servizi sul cloud, le soluzioni a elevata disponibilità sono ora offerte da numerose società tecnologiche e software as a service (SaaS), tra cui Microsoft, Amazon (AWS), IBM®, Red Hat® e altre ancora.
L'elevata disponibilità dei sistemi IT è particolarmente importante nei settori in cui le applicazioni critiche si basano su tempi di inattività del sistema minimi o assenti. Ad esempio, negli ospedali e nei data center, gli utenti dipendono da soluzioni a elevata disponibilità per svolgere numerose funzioni quotidiane di routine. Se per qualsiasi motivo gli utenti non riescono ad accedere a un sistema, questo viene considerato "non disponibile". Il periodo di tempo in cui un sistema non è disponibile per gli utenti prende il nome di tempo di inattività.
Il disaster recovery (DR) è costituito da tecnologie di infrastruttura IT e best practice progettate per prevenire o ridurre al minimo la perdita di dati e l'interruzione della continuità aziendale derivante da eventi catastrofici. L'elevata disponibilità (HA), invece, riguarda solitamente i guasti o i problemi più piccoli che potrebbero avere un impatto sulla disponibilità di un sistema.
Anche se diversi, il DR e l'HA condividono entrambi l'obiettivo di ridurre al minimo le interruzioni dei sistemi IT ed entrambi in genere utilizzano componenti e sistemi ridondanti come parte di una strategia generale. Inoltre, sia il DR sia l'HA utilizzano i data backup per rendere disponibili i dati in caso di un'ampia serie di problemi, tra cui guasti hardware, guasti software e interruzioni di corrente.
La tolleranza ai guasti è la capacità di un sistema di funzionare ininterrottamente dopo il guasto di uno o più componenti critici. Esattamente come l'HA, la tolleranza ai guasti può aiutare a rendere disponibile un sistema durante o dopo un evento di disturbo.
Tuttavia, dove la tolleranza ai guasti e l'HA differiscono è nel modo di gestione dei tempi di inattività. Sebbene l'HA tenti di ridurre al minimo i tempi di inattività, l'obiettivo della tolleranza ai guasti è l'assenza di tempi di inattività, un obiettivo raggiungibile solo attraverso la ridondanza, con un backup o una copia secondaria di ogni singolo componente dell'infrastruttura.
Con le aziende che si affidano sempre di più ai servizi online e alle architetture cloud e hybrid cloud per offrire applicazioni e servizi critici, le richieste di infrastruttura stanno aumentando, rendendo l'elevata disponibilità una priorità. Ecco alcuni dei benefici aziendali più comuni dei sistemi a elevata disponibilità.
Dal momento che la trasformazione digitale è un obiettivo chiave per la maggior parte delle aziende, l'elevata disponibilità dei sistemi è fondamentale per offrire a dipendenti e clienti un accesso illimitato ad applicazioni critiche1.
I guasti del sistema che provocano tempi di inattività di ore o anche minuti possono causare grandi preoccupazioni nelle pubbliche relazioni per le aziende di un'ampia gamma di settori, tra cui SaaS, aviazione e tecnologia mobile2. L'infrastruttura a elevata disponibilità assicura che la reputazione di un marchio non soffra a causa di un'interruzione o di un tempo di inattività.
I provider di servizi gestiti (MSP) devono garantire un'elevata disponibilità delle reti o rischieranno di non rispettare gli accordi sul livello del servizio (SLA). I sistemi HA aiutano i provider di servizi gestiti (MSP) a fornire reti su cui i loro clienti più importanti possono contare, come le reti che aiutano i veicoli a guida autonoma a guidare in sicurezza o una struttura sanitaria a gestire le cartelle cliniche dei pazienti.
Che si tratti di raggiungere tempi di inattività pari a zero in un settore come quello sanitario o finanziario, o semplicemente di trovare modi per evitare danni alla reputazione dovuti a interruzioni, le aziende che puntano a un'elevata disponibilità in genere seguono un processo articolato in 4 fasi.
Numerosi sistemi HA utilizzano il bilanciamento del carico, il processo di distribuzione del traffico tra più server per ottimizzare la disponibilità delle applicazioni. Ad esempio, con un sito Web o un cloud service ad alto traffico, un sistema riceve milioni di richieste utente ogni giorno. Il bilanciamento del carico garantisce che le applicazioni possano distribuire i contenuti dai server Web agli utenti in modo rapido e senza interruzioni. Il bilanciamento del carico, in particolare l'uso di più sistemi di bilanciamento del carico contemporaneamente, può aiutare a garantire che nessun singolo componente di un sistema venga sovraccaricato, provocando un singolo punto di guasto che potrebbe causare tempi di inattività o un'interruzione.
La ridondanza, ovvero la disponibilità di un componente secondario o di backup da sostituire in caso di guasto di un componente primario, è una parte importante di un sistema a elevata disponibilità. La ridondanza consente ai database di rimanere disponibili per gli utenti e le applicazioni anche quando un componente non funziona. Se un componente di un sistema non è ridondante, quel componente sarebbe considerato un singolo punto di guasto, in quanto la sua perdita potenzialmente potrebbe impedire il funzionamento dell'intero sistema.
I cluster a elevata disponibilità, noti anche come clustering a elevata disponibilità, sono gruppi di macchine collegate che lavorano insieme come un unico sistema. Quando una macchina di un cluster si guasta, il software di gestione del cluster trasferisce i workload su un'altra macchina. All'interno di un cluster a elevata disponibilità, lo storage condiviso tra ogni nodo (computer) assicura una perdita di dati pari a zero in caso di interruzione del funzionamento di un singolo nodo.
L'elevata disponibilità viene misurata in relazione a un sistema operativo al 100% o che non ha mai presentato una singola interruzione. Anche se nessun sistema può essere operativo al 100%, fissarlo come obiettivo aiuta a misurare la disponibilità di un sistema per un determinato periodo. La metrica più comune utilizzata per i sistemi e i servizi a elevata disponibilità è la disponibilità a cinque nove.
La disponibilità a cinque nove significa che un sistema può essere operativo e funzionare il 99,999% del tempo. In genere, solo i sistemi in settori estremamente critici come sanità, trasporti, finanza o governo, richiedono una disponibilità a cinque nove. Questi sistemi sono importanti per la vita delle persone, l'accesso al cibo e all'alloggio e il benessere economico.
I sistemi che non operano in questi settori estremamente critici in genere non richiedono la stessa disponibilità operativa e possono accontentarsi di una disponibilità "tre o quattro nove" (99,9% o 99,99%). Un altro modo in cui questo viene spesso descritto è dire che un sistema a elevata disponibilità ha "99,9/99,999% di tempo di attività."
Oltre alla disponibilità a cinque nove, i system manager utilizzano diverse altre metriche per misurare la disponibilità dei propri sistemi:
Man mano che le organizzazioni di vari settori intraprendono ampie iniziative di trasformazione digitale, le richieste di disponibilità della loro infrastruttura sono in aumento. Il lavoro da remoto e la diffusione delle reti 5G hanno reso normale che gli utenti si aspettino di poter accedere ai dati e alle applicazioni da qualsiasi luogo e in qualsiasi momento. Ma questo è possibile solo se sono disponibili i sistemi sottostanti che fanno funzionare le applicazioni e regolano l'accesso ai dati. Di seguito sono riportati alcuni esempi di sistemi a elevata disponibilità che aiutano le aziende moderne a prosperare:
Sono finiti i giorni in cui un medico doveva sfogliare le cartelle in un armadietto per trovare la data dell'ultima vaccinazione. Oggi, se ti presenti al pronto soccorso o in uno studio specializzato, è quasi certo che il medico potrà accedere alla tua cartella clinica disponibile online. A causa della natura critica e privata di questo tipo di informazioni, le EHR sono un esempio di sistema a elevata disponibilità in grado di fornire in modo sicuro informazioni accurate in pochi secondi con tempi di inattività critici prossimi allo zero.
I veicoli senza conducente, o a guida autonoma, come automobili, droni e altri tipi, si basano su connessioni Internet veloci e potenti affinché l'intelligenza artificiale (AI) che li controlla possa funzionare. Ad esempio, quando un veicolo a guida autonoma si ferma a un semaforo, decine di migliaia di dati vengono elaborati quasi in tempo reale, in modo che il veicolo si fermi al semaforo nel punto previsto e proceda verso la sua destinazione. L'elevata disponibilità è fondamentale per il funzionamento sicuro dei veicoli autonomi di ogni tipo.
L'Internet of Things (IoT) è una rete di dispositivi fisici, veicoli, apparecchiature e altri oggetti incorporati con sensori connessi a Internet che consentono di raccogliere e condividere dati. Man mano che l'ecosistema IoT si espande su strade, corsi d'acqua, elettrodomestici, sistemi di monitoraggio del meteo e altro, milioni e milioni di dispositivi si affidano alle reti. L'elevata disponibilità aiuta a garantire che le reti che supportano i dispositivi IoT funzionino senza intoppi e senza interruzioni.
Man mano che le aziende trovano più modi per utilizzare le enormi quantità di dati che generano nell'era digitale, l'elevata disponibilità è fondamentale per un trattamento dei dati efficiente ed efficace. I data center e le piattaforme di analytics complesse eseguono l'analisi in tempo reale e il trattamento dei dati costante e il tempo di inattività può far ritardare i progetti di mesi. Le soluzioni HA aiutano le aziende ad accedere 24 ore su 24, 7 giorni su 7, 365 giorni l'anno ai loro dati più importanti.
IBM Cloud Infrastructure Center è una piattaforma software compatibile con OpenStack per gestire l'infrastruttura di cloud privati su IBM zSystems e IBM LinuxONE.
Scopri i server, lo storage e il software progettati per l'hybrid cloud e la strategia AI della tua azienda.
Trova la soluzione di infrastruttura cloud adatta alle esigenze della tua azienda e scala le risorse on-demand.
1. "Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies , Gartner, October 19 2022
2. "The Global IT Outage Provides Several Crisis Management Lessons , Forbes, July 19 2024