Che cosa si intende per elevata disponibilità?

Veduta aerea di Hong Kong di notte, con strade trafficate

Autori

Mesh Flinders

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Che cosa si intende per elevata disponibilità?

Elevata disponibilità (HA) è un termine che si riferisce alla capacità di un sistema di essere accessibile e affidabile quasi il 100% del tempo.

I sistemi a elevata disponibilità devono essere in grado di resistere alle interruzioni, compresi i tempi di inattività programmati e i disastri a livello di sito. Solitamente, i sistemi a elevata disponibilità soddisfano due caratteristiche:

  • Devono essere disponibili all'uso per quasi il 100% del tempo.
  • Devono essere in grado di soddisfare un determinato insieme di aspettative predeterminate dell'utente.

Con l'aumento delle iniziative di trasformazione digitale e il successivo spostamento di numerosi servizi sul cloud, le soluzioni a elevata disponibilità sono ora offerte da numerose società tecnologiche e software as a service (SaaS), tra cui Microsoft, Amazon (AWS), IBM®, Red Hat® e altre ancora.

L'elevata disponibilità dei sistemi IT è particolarmente importante nei settori in cui le applicazioni critiche si basano su tempi di inattività del sistema minimi o assenti. Ad esempio, negli ospedali e nei data center, gli utenti dipendono da soluzioni a elevata disponibilità per svolgere numerose funzioni quotidiane di routine. Se per qualsiasi motivo gli utenti non riescono ad accedere a un sistema, questo viene considerato "non disponibile". Il periodo di tempo in cui un sistema non è disponibile per gli utenti prende il nome di tempo di inattività.

HA e Disaster Recovery (DR) a confronto

Il disaster recovery (DR) è costituito da tecnologie di infrastruttura IT e best practice progettate per prevenire o ridurre al minimo la perdita di dati e l'interruzione della continuità aziendale derivante da eventi catastrofici. L'elevata disponibilità (HA), invece, riguarda solitamente i guasti o i problemi più piccoli che potrebbero avere un impatto sulla disponibilità di un sistema.

Anche se diversi, il DR e l'HA condividono entrambi l'obiettivo di ridurre al minimo le interruzioni dei sistemi IT ed entrambi in genere utilizzano componenti e sistemi ridondanti come parte di una strategia generale. Inoltre, sia il DR sia l'HA utilizzano i data backup per rendere disponibili i dati in caso di un'ampia serie di problemi, tra cui guasti hardware, guasti software e interruzioni di corrente.

HA e tolleranza ai guasti a confronto

La tolleranza ai guasti è la capacità di un sistema di funzionare ininterrottamente dopo il guasto di uno o più componenti critici. Esattamente come l'HA, la tolleranza ai guasti può aiutare a rendere disponibile un sistema durante o dopo un evento di disturbo.

Tuttavia, dove la tolleranza ai guasti e l'HA differiscono è nel modo di gestione dei tempi di inattività. Sebbene l'HA tenti di ridurre al minimo i tempi di inattività, l'obiettivo della tolleranza ai guasti è l'assenza di tempi di inattività, un obiettivo raggiungibile solo attraverso la ridondanza, con un backup o una copia secondaria di ogni singolo componente dell'infrastruttura.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Benefici dell'elevata disponibilità

Con le aziende che si affidano sempre di più ai servizi online e alle architetture cloud e hybrid cloud per offrire applicazioni e servizi critici, le richieste di infrastruttura stanno aumentando, rendendo l'elevata disponibilità una priorità. Ecco alcuni dei benefici aziendali più comuni dei sistemi a elevata disponibilità.

Maggiore flessibilità

Dal momento che la trasformazione digitale è un obiettivo chiave per la maggior parte delle aziende, l'elevata disponibilità dei sistemi è fondamentale per offrire a dipendenti e clienti un accesso illimitato ad applicazioni critiche1.

Proteggi i dati
Con un'architettura a elevata disponibilità, i dati più importanti delle organizzazioni sono sempre disponibili, accessibili e protetti da violazioni non autorizzate.
Miglioramento della reputazione del marchio

I guasti del sistema che provocano tempi di inattività di ore o anche minuti possono causare grandi preoccupazioni nelle pubbliche relazioni per le aziende di un'ampia gamma di settori, tra cui SaaS, aviazione e tecnologia mobile2. L'infrastruttura a elevata disponibilità assicura che la reputazione di un marchio non soffra a causa di un'interruzione o di un tempo di inattività.

Un miglior servizio clienti

I provider di servizi gestiti (MSP) devono garantire un'elevata disponibilità delle reti o rischieranno di non rispettare gli accordi sul livello del servizio (SLA). I sistemi HA aiutano i provider di servizi gestiti (MSP) a fornire reti su cui i loro clienti più importanti possono contare, come le reti che aiutano i veicoli a guida autonoma a guidare in sicurezza o una struttura sanitaria a gestire le cartelle cliniche dei pazienti.

AI Academy

Prepararsi all'AI con l'hybrid cloud

Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.

Come raggiungere l'elevata disponibilità

Che si tratti di raggiungere tempi di inattività pari a zero in un settore come quello sanitario o finanziario, o semplicemente di trovare modi per evitare danni alla reputazione dovuti a interruzioni, le aziende che puntano a un'elevata disponibilità in genere seguono un processo articolato in 4 fasi.

  1. Eliminazione dei singoli punti di guasto:i singoli punti di guasto sono componenti che possono causare l'interruzione del funzionamento di un intero sistema in caso di guasto. Ad esempio, se una serie di server funziona su un singolo switch di rete e quel determinato switch si guasta, tutti i server della rete non funzioneranno. Una tattica chiamata bilanciamento del carico, in cui il lavoro è distribuito tra le capacità di un sistema, spesso viene utilizzata per ridurre e persino eliminare i singoli punti di guasto.

  2. Creazione di un failover affidabile: il failover consiste nel trasferimento dei workload da un sistema primario a un sistema secondario in caso di guasto del sistema primario. Quando le aziende creano un failover affidabile, i workload possono essere trasferiti facilmente senza tempi di inattività, perdita di dati o calo delle prestazioni.

  3. Rilevamento immediato dei guasti: l'elevata disponibilità dipende dalla presenza di processi in grado di rilevare guasti o difetti in un sistema nell'istante stesso in cui si verificano. Numerosi sistemi moderni dispongono di un rilevamento automatico dei guasti integrato. Alcuni sistemi sono persino in grado di rilevare un errore e scegliere la linea d'azione successiva, come ad esempio l'implementazione di un processo di failover.

  4. Sviluppo di solide funzionalità di backup e ripristino dei dati: quando singole parti di un sistema non funzionano, i dati possono andare persi se non vengono implementate le procedure di backup e ripristino adeguate. Le tecnologie e le pratiche di protezione dei dati effettuano periodicamente delle copie di dati e applicazioni su un dispositivo secondario separato, in modo che i dati e le applicazioni possano essere rapidamente recuperati.

Bilanciamento del carico

Numerosi sistemi HA utilizzano il bilanciamento del carico, il processo di distribuzione del traffico tra più server per ottimizzare la disponibilità delle applicazioni. Ad esempio, con un sito Web o un cloud service ad alto traffico, un sistema riceve milioni di richieste utente ogni giorno. Il bilanciamento del carico garantisce che le applicazioni possano distribuire i contenuti dai server Web agli utenti in modo rapido e senza interruzioni. Il bilanciamento del carico, in particolare l'uso di più sistemi di bilanciamento del carico contemporaneamente, può aiutare a garantire che nessun singolo componente di un sistema venga sovraccaricato, provocando un singolo punto di guasto che potrebbe causare tempi di inattività o un'interruzione.

Ridondanza

La ridondanza, ovvero la disponibilità di un componente secondario o di backup da sostituire in caso di guasto di un componente primario, è una parte importante di un sistema a elevata disponibilità. La ridondanza consente ai database di rimanere disponibili per gli utenti e le applicazioni anche quando un componente non funziona. Se un componente di un sistema non è ridondante, quel componente sarebbe considerato un singolo punto di guasto, in quanto la sua perdita potenzialmente potrebbe impedire il funzionamento dell'intero sistema.

Cluster a elevata disponibilità

I cluster a elevata disponibilità, noti anche come clustering a elevata disponibilità, sono gruppi di macchine collegate che lavorano insieme come un unico sistema. Quando una macchina di un cluster si guasta, il software di gestione del cluster trasferisce i workload su un'altra macchina. All'interno di un cluster a elevata disponibilità, lo storage condiviso tra ogni nodo (computer) assicura una perdita di dati pari a zero in caso di interruzione del funzionamento di un singolo nodo.

Come si misura l'elevata disponibilità?

L'elevata disponibilità viene misurata in relazione a un sistema operativo al 100% o che non ha mai presentato una singola interruzione. Anche se nessun sistema può essere operativo al 100%, fissarlo come obiettivo aiuta a misurare la disponibilità di un sistema per un determinato periodo. La metrica più comune utilizzata per i sistemi e i servizi a elevata disponibilità è la disponibilità a cinque nove.

Disponibilità a cinque nove

La disponibilità a cinque nove significa che un sistema può essere operativo e funzionare il 99,999% del tempo. In genere, solo i sistemi in settori estremamente critici come sanità, trasporti, finanza o governo, richiedono una disponibilità a cinque nove. Questi sistemi sono importanti per la vita delle persone, l'accesso al cibo e all'alloggio e il benessere economico.

I sistemi che non operano in questi settori estremamente critici in genere non richiedono la stessa disponibilità operativa e possono accontentarsi di una disponibilità "tre o quattro nove" (99,9% o 99,99%). Un altro modo in cui questo viene spesso descritto è dire che un sistema a elevata disponibilità ha "99,9/99,999% di tempo di attività."

Altre metriche importanti: tempi medi e tempi di recupero

Oltre alla disponibilità a cinque nove, i system manager utilizzano diverse altre metriche per misurare la disponibilità dei propri sistemi:

  • Tempo medio tra i guasti (MTBF): il tempo medio tra i guasti (MTBF) è una misura dell'affidabilità di un sistema o di un componente. È un elemento fondamentale della gestione della manutenzione e rappresenta il tempo medio di funzionamento di un sistema o di un componente prima che questo si guasti. La formula MTBF spesso viene utilizzata nel contesto della manutenibilità di sistemi industriali o elettronici, dove il guasto di un componente può portare a tempi di inattività significativi o addirittura rischi per la sicurezza, ma l'MTBF viene utilizzato in numerosi tipi di sistemi riparabili e in diversi settori.

  • Tempo medio di riparazione (MTTR): il tempo medio di riparazione (MTTR), talvolta indicato come tempo medio di ripristino, è una metrica utilizzata per misurare il tempo medio necessario per riparare un sistema o un componente dell'attrezzatura dopo che si è verificato un guasto. L'MTTR include il tempo che intercorre tra il momento in cui si verifica il guasto e il momento in cui il sistema o l'attrezzatura sono di nuovo completamente funzionanti. Questo include il tempo necessario per rilevare l'errore, diagnosticare il problema e risolverlo. L'MTTR è una metrica importante da monitorare perché valuta la disponibilità e l'affidabilità dei sistemi e delle attrezzature.

  • Recovery Time Objective (RTO): Recovery Time Objective (RTO) è il tempo necessario per eseguire il ripristino a seguito di un'interruzione (programmata, non programmata o un disastro) e riprendere le normali operazioni di un sistema, un'applicazione o una serie di applicazioni. L'RTO potrebbe essere diverso a seconda che si tratti di interruzioni programmate, non programmate o disaster recovery.

  • Recovery point objective (RPO): il recovery point objective (RPO) è il momento relativo al guasto in cui è necessario conservare i dati. Le modifiche ai dati precedenti il guasto o il disastro almeno per questo periodo di tempo non sono interessate dal ripristino. Zero è un valore valido ed equivale al requisito di "perdita di dati pari a zero".

Esempi di elevata disponibilità

Man mano che le organizzazioni di vari settori intraprendono ampie iniziative di trasformazione digitale, le richieste di disponibilità della loro infrastruttura sono in aumento. Il lavoro da remoto e la diffusione delle reti 5G hanno reso normale che gli utenti si aspettino di poter accedere ai dati e alle applicazioni da qualsiasi luogo e in qualsiasi momento. Ma questo è possibile solo se sono disponibili i sistemi sottostanti che fanno funzionare le applicazioni e regolano l'accesso ai dati. Di seguito sono riportati alcuni esempi di sistemi a elevata disponibilità che aiutano le aziende moderne a prosperare:

Cartelle cliniche elettroniche (EHR)

Sono finiti i giorni in cui un medico doveva sfogliare le cartelle in un armadietto per trovare la data dell'ultima vaccinazione. Oggi, se ti presenti al pronto soccorso o in uno studio specializzato, è quasi certo che il medico potrà accedere alla tua cartella clinica disponibile online. A causa della natura critica e privata di questo tipo di informazioni, le EHR sono un esempio di sistema a elevata disponibilità in grado di fornire in modo sicuro informazioni accurate in pochi secondi con tempi di inattività critici prossimi allo zero.

Veicoli a guida autonoma

I veicoli senza conducente, o a guida autonoma, come automobili, droni e altri tipi, si basano su connessioni Internet veloci e potenti affinché l'intelligenza artificiale (AI) che li controlla possa funzionare. Ad esempio, quando un veicolo a guida autonoma si ferma a un semaforo, decine di migliaia di dati vengono elaborati quasi in tempo reale, in modo che il veicolo si fermi al semaforo nel punto previsto e proceda verso la sua destinazione. L'elevata disponibilità è fondamentale per il funzionamento sicuro dei veicoli autonomi di ogni tipo.

Internet delle cose (IoT)

L'Internet of Things (IoT) è una rete di dispositivi fisici, veicoli, apparecchiature e altri oggetti incorporati con sensori connessi a Internet che consentono di raccogliere e condividere dati. Man mano che l'ecosistema IoT si espande su strade, corsi d'acqua, elettrodomestici, sistemi di monitoraggio del meteo e altro, milioni e milioni di dispositivi si affidano alle reti. L'elevata disponibilità aiuta a garantire che le reti che supportano i dispositivi IoT funzionino senza intoppi e senza interruzioni.

Big Data

Man mano che le aziende trovano più modi per utilizzare le enormi quantità di dati che generano nell'era digitale, l'elevata disponibilità è fondamentale per un trattamento dei dati efficiente ed efficace. I data center e le piattaforme di analytics complesse eseguono l'analisi in tempo reale e il trattamento dei dati costante e il tempo di inattività può far ritardare i progetti di mesi. Le soluzioni HA aiutano le aziende ad accedere 24 ore su 24, 7 giorni su 7, 365 giorni l'anno ai loro dati più importanti.

Soluzioni correlate
IBM Cloud Infrastructure Center 

IBM Cloud Infrastructure Center è una piattaforma software compatibile con OpenStack per gestire l'infrastruttura di cloud privati su IBM zSystems e IBM LinuxONE.

Esplora Cloud Infrastructure Center
Soluzioni per l'infrastruttura IT

Scopri i server, lo storage e il software progettati per l'hybrid cloud e la strategia AI della tua azienda.

Scopri le soluzioni per le infrastrutture IT
Soluzioni per l'infrastruttura cloud

Trova la soluzione di infrastruttura cloud adatta alle esigenze della tua azienda e scala le risorse on-demand.

Soluzioni cloud
Fai il passo successivo

Trasforma la sua infrastruttura aziendale con l'hybrid cloud e le soluzioni pensate per l'AI di IBM. Scopri i server, lo storage e i software progettati per proteggere, scalare e modernizzare la tua azienda o ascolta i pareri degli esperti per migliorare la tua strategia di AI generativa.

Scopri le soluzioni per le infrastrutture IT Scarica l'ebook