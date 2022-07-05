Il paradigma dell'architettura cloud-native esiste già da parecchio tempo. Al centro dell'architettura cloud-native ci sono componenti funzionali coesi e indipendenti che portano agilità aziendale, scalabilità e resilienza, contribuendo a un time to market accelerato, vantaggi competitivi e costi ottimizzati. Questo paradigma è stato attivamente supportato da un panorama tecnologico poliglotta.
Le soluzioni realizzate utilizzando la combinazione sopra descritta di architettura e landscape possono risultare piuttosto complesse da mantenere e gestire, principalmente a causa dell'enorme numero di componenti e dei molteplici framework necessari per la loro realizzazione. L'implementazione non ottimale delle pratiche di progettazione e di ingegneria aumenta esponenzialmente la complessità e i rischi di manutenzione di tali soluzioni.
La "resilienza" è una di queste pratiche ingegneristiche che determina il successo o il fallimento di qualsiasi iniziativa di trasformazione digitale. Come forse sapete, la resilienza contribuisce direttamente alla disponibilità complessiva della soluzione attraverso metriche come il tempo medio di recupero (MTTR) e il tempo medio tra i guasti (MTBF), ed è anche direttamente responsabile di creare o distruggere un'esperienza utente trasformativa.
La resilienza è essenzialmente la capacità di un sistema di resistere contro i guasti. Sebbene i guasti nei sistemi possano infine manifestarsi come errori o indisponibilità di un componente/sistema, l'elenco dei fattori che possono causare guasti in un sistema distribuito e cloud-native è significativo.
Esiste già molto materiale incentrato su come "implementare" la resilienza nelle applicazioni cloud-native. La pratica Build for Reliability Garage di IBM offre un'ottima introduzione e un framework di riferimento per l'attuazione della resilienza. Esistono anche framework come Chaos Monkey o strumenti come Gremlin che aiutano a "testare" la resilienza delle applicazioni.
La sfida però rimane: come possiamo verificare se una soluzione è "abbastanza resiliente"? In particolare, come facciamo a sapere se i nostri test coprono gli scenari necessari e sufficienti? Come facciamo a sapere quali guasti indurre?
Per affrontare la sfida sopra citata, vogliamo proporre il seguente approccio in quattro fasi.
Ciò può essere fatto identificando "percorsi di attraversamento univoci", ovvero la sequenza/combinazione in cui i componenti della soluzione possono essere utilizzati per supportare scenari funzionali. Questi scenari e i componenti di supporto forniscono il set di base che deve essere testato.
Ad esempio, la tua applicazione potrebbe supportare uno o più dei seguenti elementi:
Una volta identificati gli scenari e i componenti, il passo successivo è determinare cosa potrebbe "andare storto" con questi componenti. Prendiamo un esempio di un singolo microservizio con le seguenti caratteristiche:
Questa visione può essere elaborata attraverso l'identificazione delle "superfici di errore", come di seguito:
Ogni superficie di errore identificata nel passaggio precedente potrebbe guastarsi per molteplici motivi: è questo che dobbiamo identificare ora. Continuando con lo stesso esempio di prima, associando le superfici di errore alle possibili cause, si può ottenere il seguente elenco:
Le cause e le superfici di guasto possono essere utilizzate per creare una matrice come quella mostrata di seguito. Questo ci consente ora di comprendere e pianificare la combinazione con cui dobbiamo pianificare gli "assalti" alla soluzione. Questi, a loro volta, possono ora essere implementati tramite framework di chaos testing, come menzionato in precedenza:
Infine, ma non meno importante, i soli test di guasto non saranno sufficienti. Considera i seguenti scenari:
Questo richiede funzionalità aggiuntive per integrare i tuoi framework di test del caos, come Infrastructure as Code (IaC) o la riconfigurazione dinamica delle risorse cloud.
Inoltre, poiché i test effettivi con i componenti sono costosi, potresti anche prendere in considerazione funzionalità per la verifica "statica", come le seguenti:
Nel complesso, riteniamo che la resilienza richieda un focus non solo dopo lo sviluppo, ma su tutto il percorso, dall'identificazione precoce degli scenari, dall'attribuzione delle priorità in base all'impatto aziendale e infine all'uso di una combinazione di "assalti" statici e dinamici per verificare e convalidare la resilienza a livello di componente. L'approccio che abbiamo illustrato in questo post sul blog ti aiuterà ad affrontare le principali sfide menzionate in tutto questo percorso.
