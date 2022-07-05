Tag
Cloud

Un approccio in quattro fasi per verificare la resilienza delle applicazioni cloud-native

Immagine astratta generata digitalmente di più cubi in tonalità blu e viola

Come fai a sapere se una soluzione è "abbastanza resiliente" e come fai a sapere se i tuoi test coprono gli scenari necessari?

Il paradigma dell'architettura cloud-native esiste già da parecchio tempo. Al centro dell'architettura cloud-native ci sono componenti funzionali coesi e indipendenti che portano agilità aziendale, scalabilità e resilienza, contribuendo a un time to market accelerato, vantaggi competitivi e costi ottimizzati. Questo paradigma è stato attivamente supportato da un panorama tecnologico poliglotta.

Le soluzioni realizzate utilizzando la combinazione sopra descritta di architettura e landscape possono risultare piuttosto complesse da mantenere e gestire, principalmente a causa dell'enorme numero di componenti e dei molteplici framework necessari per la loro realizzazione. L'implementazione non ottimale delle pratiche di progettazione e di ingegneria aumenta esponenzialmente la complessità e i rischi di manutenzione di tali soluzioni.

     

    Cos'è la resilienza?

    La "resilienza" è una di queste pratiche ingegneristiche che determina il successo o il fallimento di qualsiasi iniziativa di trasformazione digitale. Come forse sapete, la resilienza contribuisce direttamente alla disponibilità complessiva della soluzione attraverso metriche come il tempo medio di recupero (MTTR) e il tempo medio tra i guasti (MTBF), ed è anche direttamente responsabile di creare o distruggere un'esperienza utente trasformativa.

    La resilienza è essenzialmente la capacità di un sistema di resistere contro i guasti. Sebbene i guasti nei sistemi possano infine manifestarsi come errori o indisponibilità di un componente/sistema, l'elenco dei fattori che possono causare guasti in un sistema distribuito e cloud-native è significativo.

    Esiste già molto materiale incentrato su come "implementare" la resilienza nelle applicazioni cloud-native. La pratica Build for Reliability Garage di IBM offre un'ottima introduzione e un framework di riferimento per l'attuazione della resilienza. Esistono anche framework come Chaos Monkey o strumenti come Gremlin che aiutano a "testare" la resilienza delle applicazioni.

    La sfida però rimane: come possiamo verificare se una soluzione è "abbastanza resiliente"? In particolare, come facciamo a sapere se i nostri test coprono gli scenari necessari e sufficienti? Come facciamo a sapere quali guasti indurre?

    Per affrontare la sfida sopra citata, vogliamo proporre il seguente approccio in quattro fasi.

    1. Identificare scenari e componenti architettonici che devono essere testati per la resilienza

    Ciò può essere fatto identificando "percorsi di attraversamento univoci", ovvero la sequenza/combinazione in cui i componenti della soluzione possono essere utilizzati per supportare scenari funzionali. Questi scenari e i componenti di supporto forniscono il set di base che deve essere testato.

    Ad esempio, la tua applicazione potrebbe supportare uno o più dei seguenti elementi:

    • Cerca il catalogo dei prodotti attraverso un'applicazione che invoca i microservizi di backend, che recuperano i dati dallo Storage dei dati.
    • Processi/programmatori batch eseguiti a orari/frequenze preimpostati.
    • Eventi pubblicati su argomenti predefiniti e processati dai microservizi iscritti.
    • API esposte e invocate da molteplici sistemi consumer.

    2. Determinare i punti di errore

    Una volta identificati gli scenari e i componenti, il passo successivo è determinare cosa potrebbe "andare storto" con questi componenti. Prendiamo un esempio di un singolo microservizio con le seguenti caratteristiche:

    • Espone un'API attraverso un gateway.
    • È implementato su un framework di container abilitato per Kubernetes.
    • Accede a un database.
    • Si integra con un sistema a valle.

    Questa visione può essere elaborata attraverso l'identificazione delle "superfici di errore", come di seguito:

    Diagramma che illustra un'architettura a più livelli per i microservizi. Al centro c'è una scatola gialla etichettata "Core", circondata da uno strato grigio etichettato "Microservice Pod". All'esterno c'è un livello blu etichettato "Node", seguito da un livello azzurro chiaro etichettato "API Gateway". Oltre a questo c'è uno strato bianco etichettato "Risorse + Sistemi a valle" e il livello più esterno color pesca denominato "Compute-Storage-Network". Ogni livello rappresenta un componente nella gerarchia del sistema

    3. Identificare le cause di malfunzionamento su tutte le superfici di errore

    Ogni superficie di errore identificata nel passaggio precedente potrebbe guastarsi per molteplici motivi: è questo che dobbiamo identificare ora. Continuando con lo stesso esempio di prima, associando le superfici di errore alle possibili cause, si può ottenere il seguente elenco:

    • Core: il microservizio core stesso (come unità di codice) potrebbe non andare a buon fine a causa di problemi di memoria esaurita, il server dell'applicazione potrebbe bloccarsi, ecc.
    • Pod e nodo di microservizi: il pod/nodo può fallire un controllo di stato di salute. La VM che ospita la piattaforma container Kubernetes potrebbe crashare.
    • API Gateway: il motore API Gateway può diventare non reattivo a causa di thread/memoria insufficienti per la gestione delle richieste.
    • Sistema di backend: il sistema di backend può impiegare molto tempo per rispondere e il sistema può andare in crash.
    • Computer/storage/rete: la rete tra il microservizio e il sistema di backend (che potrebbe essere ospitato in una sede separata) potrebbe andare in tilt.

    4. Prepararsi all'"assalto"

    Le cause e le superfici di guasto possono essere utilizzate per creare una matrice come quella mostrata di seguito. Questo ci consente ora di comprendere e pianificare la combinazione con cui dobbiamo pianificare gli "assalti" alla soluzione. Questi, a loro volta, possono ora essere implementati tramite framework di chaos testing, come menzionato in precedenza:

    Tabella che mostra i pro e i contro dei prodotti

    Considerazioni aggiuntive

    Infine, ma non meno importante, i soli test di guasto non saranno sufficienti. Considera i seguenti scenari:

    • Oltre a introdurre l'errore in un'istanza di un componente, è necessario assicurarsi di non avere istanze con auto-scaling in esecuzione sulla piattaforma cloud oppure assicurarsi che tutte le repliche falliscano come richiesto.
    • Per testare un risultato degradato (ad esempio tramite cache), è necessario disporre di una funzionalità di test "prima" e "dopo".

    Questo richiede funzionalità aggiuntive per integrare i tuoi framework di test del caos, come Infrastructure as Code (IaC) o la riconfigurazione dinamica delle risorse cloud.

    Inoltre, poiché i test effettivi con i componenti sono costosi, potresti anche prendere in considerazione funzionalità per la verifica "statica", come le seguenti:

    • Convalida del descrittore di implementazione per ReplicaSet
    • Convalida della configurazione di auto-scaling per le macchine virtuali
    • Controlli statici del codice per i nuovi tentativi, implementazione di interruttori, ecc.

    Scopri di più

    Nel complesso, riteniamo che la resilienza richieda un focus non solo dopo lo sviluppo, ma su tutto il percorso, dall'identificazione precoce degli scenari, dall'attribuzione delle priorità in base all'impatto aziendale e infine all'uso di una combinazione di "assalti" statici e dinamici per verificare e convalidare la resilienza a livello di componente. L'approccio che abbiamo illustrato in questo post sul blog ti aiuterà ad affrontare le principali sfide menzionate in tutto questo percorso.

    I servizi di sviluppo e modernizzazione delle applicazioni cloud-native di IBM garantiscono l'integrazione di pratiche ingegneristiche con la coerenza e il rigore richiesti. Per saperne di più, consulta i seguenti link:

