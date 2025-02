Ogni giorno c'è il rischio che un'applicazione o un'infrastruttura critica di un'organizzazione non funzionino, minacciando potenzialmente la sua capacità di fornire servizi ai clienti. Le cause di malfunzionamento possono variare tra diversi problemi, come violazioni della sicurezza, configurazioni errate o interruzioni del servizio. La probabilità di errori o interruzioni aumenta di pari passo con l'aumento delle applicazioni e dei dati ospitati nel cloud, che può creare maggiori problemi di sicurezza.



Un modo per affrontare le interruzioni è il chaos engineering. Non si tratta di un processo casuale in cui gli ingegneri interrompono le istanze o i servizi o altrimenti causano il malfunzionamento dei sistemi senza alcuno scopo. Questo processo identifica i potenziali problemi futuri, consentendo ai team di ingegneria di risolvere i problemi in modo proattivo e di evitarli nell'ambiente live più avanti nel tempo.



Il chaos engineering è importante perché errori o interruzioni possono rallentare lo slancio di un'organizzazione, facendo perdere tempo prezioso per trovare una soluzione rapidamente mentre i tempi di inattività aumentano. Netflix ha imparato questo concetto in prima persona quando è passata dal sistema on-premise al cloud1: ha sperimentato un guasto che ha portato a un'interruzione di tre giorni della fornitura del servizio nel 2008.

Questa interruzione precede la trasformazione in un'operazione di streaming video, il che avrebbe reso il guasto stesso immensamente più costoso. Di conseguenza, Netflix ha deciso che avrebbe fatto tutto il possibile per ridurre al minimo le interruzioni e ha iniziato a introdurre il chaos engineering nei suoi workflow. Questo processo consente di identificare i problemi prima che si verifichino e di minimizzare i danni se e quando si verifica un guasto inevitabile.

Netflix ha creato chaos monkey2, uno strumento open source che crea errori casuali nei servizi e nelle infrastrutture IT destinato a identificare i punti deboli che possono essere corretti o risolti tramite procedure di ripristino automatiche. Hanno implementato chaos monkey durante lo spostamento da un data center privato ad Amazon Web Services (AWS) in risposta all'inaffidabilità del cloud. Molte organizzazioni ora usano chaos monkey per eseguire i loro esperimenti di chaos engineering.



Il chaos engineering è una difesa importante contro i guasti dell'infrastruttura, le interruzioni o i componenti mancanti nell'ambiente di produzione di un'organizzazione. Aiuta i tecnici dell'affidabilità del sito (SRE) e gli altri membri del team DevOps a fornire una fornitura continua di servizi evitando interruzioni significative del loro servizio. Il chaos engineering li aiuta a comprendere meglio le vulnerabilità e informa su come minimizzare l'impatto in caso di interruzione.



Anche un piccolo problema nel codice può avere un effetto catastrofico sull'ambiente di produzione complessivo, date le varie dipendenze del programma. Ad esempio, un errore nel sistema software delle transazioni di una società di servizi finanziari può comportare la perdita di milioni di dollari3.

Forse le organizzazioni non sono in grado di evitare tutti gli incidenti IT, ma possono ridurre al minimo i danni utilizzando il chaos management per comprendere gli scenari probabili e le migliori soluzioni possibili.