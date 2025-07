Il team di ingegneria dell'affidabilità del sito (SRE) di IBM svolge un ruolo cruciale nel mantenere l'affidabilità e la sicurezza delle offerte SaaS e dell'infrastruttura dei servizi gestiti di IBM. Operando su IBM Cloud®, AWS, Microsoft Azure e Google Cloud Platform, il team SRE fornisce quasi 70 soluzioni SaaS a livello globale, raccogliendo grandi quantità di dati fino al livello dei microservizi.

La creazione di una valutazione completa della resilienza ha rappresentato una sfida significativa per questo team. Kevin Yu, Principal Site Reliability Engineer, spiega: "I nostri metodi precedenti prevedevano workshop e un ampio utilizzo dei fogli di calcolo per la valutazione rispetto al nostro playbook, il cui completamento poteva richiedere letteralmente mesi ed era anche difficile da aggiornare. Questi metodi non erano in grado di fornire una visione olistica della capacità di resilienza del nostro sistema".

Il team SRE necessitava anche di una soluzione per misurare e tracciare con precisione le metriche chiave della resilienza, come disponibilità, recuperabilità e osservabilità nel tempo, per identificare le vulnerabilità e implementare i miglioramenti in modo efficace.

Il miglioramento delle recensioni operative mensili (MOR) è stata un'altra sfida chiave. Le inefficienze dell'attuale processo MOR del team SRE ostacolavano la loro capacità di identificare e risolvere rapidamente i problemi. I silos dell'organizzazione hanno complicato ulteriormente il processo, rendendo difficile l'allineamento dei diversi team a una strategia di resilienza comune.