Trasformare la gestione della resilienza con l'automazione

Un'organizzazione software SRE globale diventa più Resiliente con l'automazione

Dipendenti che dialogano intorno a un laptop.
Difficoltà con la resilienza multicloud

Il team di ingegneria dell'affidabilità del sito (SRE) di IBM svolge un ruolo cruciale nel mantenere l'affidabilità e la sicurezza delle offerte SaaS e dell'infrastruttura dei servizi gestiti di IBM. Operando su IBM Cloud®, AWS, Microsoft Azure e Google Cloud Platform, il team SRE fornisce quasi 70 soluzioni SaaS a livello globale, raccogliendo grandi quantità di dati fino al livello dei microservizi.

La creazione di una valutazione completa della resilienza ha rappresentato una sfida significativa per questo team. Kevin Yu, Principal Site Reliability Engineer, spiega: "I nostri metodi precedenti prevedevano workshop e un ampio utilizzo dei fogli di calcolo per la valutazione rispetto al nostro playbook, il cui completamento poteva richiedere letteralmente mesi ed era anche difficile da aggiornare. Questi metodi non erano in grado di fornire una visione olistica della capacità di resilienza del nostro sistema".

Il team SRE necessitava anche di una soluzione per misurare e tracciare con precisione le metriche chiave della resilienza, come disponibilità, recuperabilità e osservabilità nel tempo, per identificare le vulnerabilità e implementare i miglioramenti in modo efficace.

Il miglioramento delle recensioni operative mensili (MOR) è stata un'altra sfida chiave. Le inefficienze dell'attuale processo MOR del team SRE ostacolavano la loro capacità di identificare e risolvere rapidamente i problemi. I silos dell'organizzazione hanno complicato ulteriormente il processo, rendendo difficile l'allineamento dei diversi team a una strategia di resilienza comune.

62% valutazione più rapida del livello di resilienza aziendale per applicazione 72% analisi mensile delle operazioni più rapida
Concert ci ha aiutato ad abbattere i silos e a essere più produttivi. Ora disponiamo di un framework scalabile per misurare, migliorare e sostenere la resilienza delle applicazioni all'interno di IBM.
Kevin Yu Principal Site Reliability Engineer IBM
Rivoluzionare la gestione della resilienza

Il team SRE ha implementato la piattaforma IBM Concert® per aiutare a ridurre i silos, promuovere il miglioramento continuo e sbloccare introdurre un approccio ripetibile alla resilienza.

La soluzione combina l'automazione e gli insight basati su AI in un framework scalabile standardizzato per valutare, migliorare e sostenere la resilienza.

Prima di implementare IBM Concert, le valutazioni della resilienza erano un'attività manuale e laboriosa che poteva richiedere mesi per essere completata. Il framework di resilienza della soluzione ha automatizzato questo processo, fornendo una visione completa delle principali metriche di resilienza, come disponibilità, recuperabilità e osservabilità. L'automazione ha ridotto significativamente il tempo e gli sforzi necessari, consentendo al team SRE di concentrarsi sull'aumento della robustezza e dell'affidabilità dell'applicazione.

Il precedente processo MOR era inefficiente e dispendioso in termini di tempo e spesso erano necessarie centinaia di ore per estrarre e confrontare i dati. Con IBM Concert, il team SRE è ora in grado di riassumere e riportare i dati in modo più efficiente e di fornire quindi informazioni più accurate ai propri stakeholder, ai fini della valutazione della conformità e della pianificazione strategica. La soluzione consolida inoltre i dati provenienti da varie fonti per creare una visione unificata che migliora la capacità del team SRE di risolvere i problemi.

Come spiega Yu: "Concert ci ha aiutato ad abbattere i silos e a essere più produttivi. Ora disponiamo di un framework scalabile per misurare, migliorare e supportare la resilienza delle applicazioni all'interno di IBM".

Maggiore efficienza e resilienza

L'implementazione del framework di resilienza in IBM Concert ha portato risultati trasformativi al team SRE di IBM.

"La soluzione ha trasformato il nostro approccio alla resilienza delle applicazioni. Automatizzando la raccolta dei dati chiave sulla resilienza, abbiamo affrontato il problema dei silos e abbiamo reso operativa la resilienza delle applicazioni", afferma Yu. Di conseguenza, il livello di resilienza di IBM Concert ha ridotto del 62% per applicazione i giorni-persona in una valutazione del livello di resilienza aziendale di IBM, rispetto alla valutazione manuale.1

Il team SRE afferma che la trasformazione ha anche migliorato la produttività e favorito una migliore collaborazione con gli altri team. Utilizzando il framework standardizzato della soluzione, il team SRE può allineare diverse parti dell'organizzazione a una strategia di resilienza comune in cui si nota un miglioramento del coordinamento e della comunicazione complessivi. Inoltre, le funzionalità di reporting complete e uniformi hanno migliorato la trasparenza e la responsabilità all'interno di IBM. Gli stakeholder interni hanno dichiarato di avere ora una migliore comprensione delle metriche di resilienza e della gestione dei problemi, il che ha quindi reso il processo decisionale più informato.

Utilizzando la posizione di resilienza di IBM Concert, il team SRE ha raggiunto un approccio più snello ed efficace alla valutazione della resilienza e ai MOR, contribuendo a garantire che l'infrastruttura SaaS e dei servizi gestiti di IBM rimanga affidabile e protetta. "Il livello di resilienza di IBM Concert ha ridotto del 72% le ore-persona dedicate al MOR da parte del team SRE di IBM rispetto alla produzione manuale del report", afferma Yu.1

Informazioni sull'organizzazione IBM Software SRE

L'organizzazione IBM Software SRE è un team globale focalizzato sull'offerta di soluzioni SaaS di produzione altamente disponibili e scalabili per i prodotti software IBM. Il team Software SRE effettua il provisioning, l'implementazione, il monitoraggio, la manutenzione e la gestione degli incidenti standardizzando strumenti, processi, automazione, runbook e procedure. Il team lavora a stretto contatto con i team di sviluppo di IBM Software per progettare e implementare le modifiche, fornendo un servizio altamente resiliente per tutto il ciclo di vita del software.

Componente della soluzione IBM Concert
Reinventare la resilienza

IBM Concert combina automazione e insight basati su AI in un framework standardizzato e scalabile per valutare, migliorare e sostenere la resilienza.

Maggiori informazioni Inizia la prova gratuita
Note a piè di pagina

1: In base ai risultati di un test interno. I singoli risultati potrebbero variare.

Legale

© Copyright IBM Corporation 2025. IBM, il logo IBM, Concert, IBM Cloud e IBM Concert sono marchi o marchi registrati di IBM Corp., negli Stati Uniti e/o in altri paesi.

Microsoft è un marchio di Microsoft Corporation registrato negli Stati Uniti o in altri Paesi.

Gli esempi presentati sono solo illustrativi. I risultati effettivi varieranno in base alle configurazioni e alle condizioni del cliente e, pertanto, non è possibile fornire i risultati generalmente attesi.