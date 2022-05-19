Quando 10 secondi diventano un grosso problema? Quando si tratta di prestazioni delle applicazioni.
Per le applicazioni cloud-native di microservizi, 10 secondi sono davvero lunghi.
Le cose che possono succedere alle tue applicazioni in 10 secondi sono infinite e, per la maggior parte, non sono positive.
Tuttavia, prima di entrare nei dettagli su cosa potrebbe accadere alle tue applicazioni, vediamo alcuni eventi reali che mostrano cosa può accadere in 10 secondi:
Ci piace particolarmente l'esempio di Usain Bolt, perché quella distanza è molto lunga da percorrere in meno di 10 secondi.
Per le prestazioni e la disponibilità delle applicazioni cloud-native, 10 secondi sono un'eternità. Le transazioni si svolgono rapidamente su Internet, mantenendo ben lubrificati gli ingranaggi del commercio.
Cosa può succedere in 10 secondi se qualcosa va storto? Ebbene, migliaia di transazioni possono subire ritardi o crash e non completarsi affatto.
Con questo tipo di problema, i ricavi possono diminuire a causa delle vendite perse. I clienti abbandoneranno i carrelli e il tuo sito e troveranno un altro posto dove acquistare ciò che desiderano. E l'immagine del tuo brand può risentirne.
Perché, allora, sarebbe accettabile per gli strumenti di observability, che catturano metriche lentamente o, peggio, campionano e aggregano metriche e tracce? Come può una piattaforma del genere essere vista come equivalente a una piattaforma di observability, come la piattaforma IBM® Instana che raccoglie e contestualizza informazioni alla velocità dei microservizi moderni? Permettono ai problemi sopra descritti di persistere per un periodo prolungato finché non sono disponibili le informazioni necessarie per risolvere il problema.
Per PRISA Tecnologia, le prestazioni sono fondamentali. Quando riscontrano un problema di prestazioni, l'impatto è immediato e dannoso per le prestazioni aziendali e per la percezione che i consumatori hanno del brand.
"Una differenza di tempo di un secondo nella visualizzazione dei contenuti fa un'enorme differenza nell'esperienza del nostro pubblico". – Jorge Tomé Hernando, Director of IT Architecture, Operations, Security and Workplace, PRISA Tecnologia
I principali concorrenti dell'observability della piattaforma Instana campionano le metriche a intervalli di 10 secondi o aggregano le metriche a intervalli di un minuto o più, rispetto all'intervallo metrico ultra preciso di un secondo della piattaforma Instana. La piattaforma Instana invia inoltre una notifica di un problema entro tre secondi. Questa risposta è illustrata nel diagramma del gap di rilevamento dell'observability mostrato qui.
Puoi davvero permetterti di aspettare 10 secondi o fino a un minuto prima che la tua piattaforma di observability ti dica che c'è un problema? Forse con il triage manuale, ma con la correzione automatizzata o addirittura semi-automatizzata questo non è possibile.
Per tutte le applicazioni, velocità e affidabilità sono gli obiettivi finali. Per ottenere un migliore livello di prestazioni e affidabilità dell'applicazione, la strategia di riferimento secondo cui "un essere umano deve sempre risolvere un problema (MTTR)" deve cambiare. L'intervento umano per apportare correzioni sovraccarica le risorse umane e limita il ritmo del cambiamento. Riduce anche gli indicatori del livello di servizio (SLI).
“Con Instana, il nostro obiettivo quotidiano è garantire un'attesa di latenza. Il nostro obiettivo per le chiamate di servizio è completarle in meno di 250 millisecondi. Quindi, non si tratta solo di situazioni di emergenza. Nella quotidianità, possiamo migliorare le prestazioni, avvicinandoci all'obiettivo dei 250 millisecondi. Instana rende possibile tutto questo.” – Bryce Hendrix, Lead Platform Architect, Dealerware
Per migliorare le prestazioni con una maggiore disponibilità, l'AIOps automatizzato è la strada da seguire. L'AIOps automatizzato offre un'automazione aggiuntiva combinata con AIOps, che consente di raggiungere livelli più alti di prestazioni e disponibilità. Come? Permettendo agli AIOps automatizzati di risolvere problemi che la macchina può correggere perfettamente molto più velocemente di un essere umano. Ci sono molti problemi riguardanti l'allocazione delle risorse infrastrutturali e altri che la macchina può risolvere e prevenire prima che un essere umano possa intervenire.
Questi benefici significano che tutti i problemi delle applicazioni possono essere risolti con l'AIOps automatizzato? Certo che no.
Esistono molti problemi logici complessi che solo il triage umano può risolvere, come problemi di codice e simili. Tuttavia, ci sono anche molti problemi in cui l'AIOps automatizzato è più veloce, più efficiente e dovrebbe essere preferito per la correzione dei problemi.
Consideriamo il tempo medio di prevenzione (MTTP), che è classificato come la quantità di tempo che l'observability e l'AIOps impiegano per prevenire che un problema abbia un impatto negativo sulle applicazioni hybrid cloud e sull'infrastruttura.
L' AIOps automatizzato aggiunge una nuova opzione al continuum di correzione dei problemi di applicazione. Il diagramma precedente illustra che il continuum inizia con la correzione completamente automatica dei problemi fino all'MTTR umano di base.
Nel continuum, l'observability è il punto di partenza per ogni tipo di correzione. Quanto più tempo impiega la piattaforma di observability a rilevare un problema, tanto più tempo ci vorrà per avviare il processo di risoluzione. Questo lasso di tempo significa che, quando si aggiunge l'AIOps automatizzato, la differenza tra il rilevamento di un secondo e quello di 10 secondi o più diventa enorme. Se la tua applicazione può permettersi di aspettare più di 10 secondi prima che venga rilevato un problema, perché usare l'AIOps automatizzato?
La correzione automatizzata AIOps è la tendenza del futuro. Il passo logico successivo è migliorare le prestazioni e la resilienza delle applicazioni. I problemi di prestazioni dell'infrastruttura spesso superano i problemi di codice dei microservizi e continueranno a farlo anche in futuro.
Il nuovo gold standard per il rilevamento e la correzione dei problemi delle applicazioni diventeranno l'observability automatizzata e l'AIOps. Saranno usati in tandem per contribuire a garantire che i problemi non si trasformino in problemi gravi.
Per utilizzare appieno i benefici della correzione automatizzata di AIOps, sono necessarie metriche e tracce ad alta frequenza e ultraprecise per alimentare il motore AIOps. Puoi ottenerli inoltre a una frazione del costo delle tecnologie di observability più lente.
Di fatto, in 10 secondi può succedere molto. Con metriche in tempo reale e AIOps automatizzato, puoi assicurarti che le tue applicazioni non abbiano problemi gravi.
