Analisi della causa principale

Modifica online

Instana gestisce gli incidenti e accelera l'individuazione della probabile causa principale. Instana rileva automaticamente incidenti, problemi e modifiche per aiutarti a individuare, comprendere e analizzare i problemi relativi alla qualità del servizio delle tue applicazioni.

I professionisti DevOps affrontano problemi significativi nel mondo odierno delle applicazioni dinamiche che sono composte da centinaia o forse migliaia di componenti. Quando le cose si interrompono, devono essere in grado di rilevare e comprendere il problema il prima possibile, anche prima che gli utenti inizino a percepire l'impatto del servizio. Dopo ilDevOps ripristinare il servizio il più rapidamente possibile, devono risolvere l'esatta causa principale e assicurarsi che il problema non si ripeta. L' DevOps e può impiegare ore o giorni per individuare la causa principale di un problema e, spesso, la causa rimane sconosciuta.

Incidenti

Modifica online

Gli incidenti presentano il livello di gravità più elevato. Vengono creati quando i servizi edge a cui accedono gli utenti subiscono un impatto o esiste un rischio imminente di impatto. Utilizzando il grafico dinamico, tutti gli eventi rilevanti sono correlati per ogni incidente per fornire ipotesi di analisi della causa principale e del contesto.

Se un servizio inizia improvvisamente a rispondere più lentamente del solito, definiamo questo evento un improvviso aumento della latenza media. L'incidente viene automaticamente contrassegnato in giallo come avvertenza.Il colore viene presentato finché questo incidente è attivo. Una volta risolto, il colore diventa grigio ed è ancora disponibile per il menu a discesa. Vedere il seguente esempio di incidente.

La vista dettagli incidente è organizzata in tre parti:

L'intestazione contiene informazioni di base sui fatti chiave dell'incidente.
- Ora di inizio;
- Ora di fine (corrente se è ancora in corso);
- Il numero degli eventi ancora attivi;
- il numero di modifiche da apportare;
- Il numero di entità interessate.
È possibile visualizzare la data di inizio dell'incidente, la data di chiusura (se chiuso), il numero di eventi ancora attivi, il numero di modifiche relative a questo incidente e il numero di entità interessate:

Figura 2. Indicatori chiave di prestazione relativi agli incidenti
La seconda sezione fornisce una rappresentazione visiva dello sviluppo dell'incidente nel tempo. Il grafico mostra l'intero arco temporale, dall'inizio alla fine, e tutti gli eventi, ordinati in base all'ora di inizio. La vista è limitata a sette eventi quando è compressa. Premere il pulsante di espansione per visualizzare la vista completa se gli incidenti contengono più di sette eventi alla volta. Facendo clic su una delle barre si apre la vista dettagli per quel problema:

Figura 3. Popolazione interessata dall'incidente
La terza sezione contiene i dettagli relativi alla visualizzazione grafica della seconda sezione. Un elenco di tutti gli eventi, ordinati per ora di inizio, consente all'utente di vedere tutte le informazioni disponibili per ciascun evento. Clicca su un evento per visualizzarne i dettagli e vedere tutte le informazioni disponibili:

Figura 4. Evento relativo a un incidente (versione estesa)

I dettagli aiutano a capire l'evento, seguiti da più grafici con la metrica corrispondente tracciata per la visualizzazione. Se un evento è ancora attivo, il grafico continua a rappresentare nuovi valori di metrica in entrata. Sono disponibili due flag. Un flag serve per enfatizzare che un evento influisce su un servizio e l'altro flag che un evento ha attivato l'incidente. Se disponibili, i contrassegni vengono posizionati sopra ciascun evento nell'elenco.

Quando ti concentri su un evento, la sezione dei dettagli fornisce le stesse informazioni descritte nell'elenco eventi Incidenti al punto 3.

Probabile causa principale automatica (anteprima pubblica)

Modifica online

Per ridurre il tempo medio di risoluzione (MTTR) per i professionisti dell' DevOps, Instana automatizza il processo di identificazione della probabile causa principale di un incidente. Il motore di individuazione delle cause probabili di Instana utilizza un modello di analisi statistico e non deterministico, anziché basarsi su regole fisse. Instana utilizza l'algoritmo di IA causale del modello per analizzare dinamicamente le statistiche e la topologia delle tracce, valutando eventuali modelli individuati, relazioni di dipendenza, correlazioni di anomalie e punteggi di affidabilità della telemetria, al fine di individuare il componente che con maggiore probabilità è all'origine dell'incidente.

L'algoritmo di Causal AI identifica l'entità (o le entità) che potrebbe essere all'origine del problema. La sezione " Probabile causa principale" mostra fino a tre entità identificate come le cause principali più probabili. Queste entità sono ordinate in base alla probabilità che causino il problema, quindi la causa principale più probabile viene visualizzata per prima. Le entità possono essere qualsiasi entità fisica o logica monitorata d Instana e e visualizzata. Ogni entità visualizzata rimanda alla pagina dei dettagli dell'entità, che descrive lo stato dell'entità al momento dell'incidente. Una volta individuata questa probabile causa principale, Instana consente ai professionisti dell' DevOps e di determinare più rapidamente la causa effettiva e la soluzione al malfunzionamento di un'applicazione.

La causa principale probabile di un incidente viene visualizzata nella pagina dei dettagli relativa a quell'incidente solo quando il modello di IA raggiunge un livello di affidabilità sufficiente per la causa principale probabile identificata. Se il livello di affidabilità non è sufficientemente elevato, Instana omette intenzionalmente di visualizzare la probabile causa principale o la sezione corrispondente dell'interfaccia utente, al fine di evitare di indicare una causa fuorviante o errata dell'incidente.

Instana analizza e identifica solo la causa principale probabile degli incidenti generati da uno Smart Alert sui seguenti tipi di entità:

Prospettive applicazione
Servizi
Endpoint
Obiettivi del livello di servizio sulle prospettive applicative

Quando viene individuata una causa probabile e nella pagina dei dettagli viene visualizzata la sezione "Probabile causa principale" relativa a un incidente, tale sezione include le seguenti informazioni:

L'entità ritenuta la causa principale più probabile, eventuali altre cause principali probabili individuate, nonché le informazioni relative all'infrastruttura o all'applicazione. Sono inclusi anche i collegamenti alla pagina dei dettagli dell'entità presente nella gerarchia mostrata.
Le prove utilizzate per individuare l'entità, al fine di aiutare i professionisti dell' DevOps e a comprendere il motivo per cui una determinata entità viene identificata come probabile causa principale.
L'elenco delle azioni raccomandate per le probabili cause alla radice individuate.
Un'opzione (pulsante nell'interfaccia utente) per avviare un'indagine intelligente sugli incidenti che utilizza funzionalità avanzate di analisi basate su modelli di linguaggio di grandi dimensioni (LLM) per fornire ulteriori approfondimenti. Ulteriori informazioni.
Un'opzione (pulsante dell'interfaccia utente) per visualizzare gli eventi correlati associati all'entità che costituisce la probabile causa principale e il livello di probabilità che indica la probabilità di guasto. Gli eventi associati sono tutti eventi recenti verificatisi sull'entità che costituisce la probabile causa principale. Con eventi associati dettagliati, ilDevOps i professionisti possono identificare rapidamente problemi, incidenti o modificare gli eventi che hanno causato il problema.
Un'opzione (pulsante nell'interfaccia utente) che consente di visualizzare i messaggi di errore e i registri relativi alla traccia della causa principale probabile permette di individuare ulteriori dettagli del problema a prima vista.
- I messaggi di errore delle tracce vengono estratti dalle tracce che passano attraverso la causa probabile (se il sistema sta registrando errori di traccia). La tabella mostra sia il messaggio di errore stesso, sia il numero di volte in cui quel particolare messaggio è stato registrato nel periodo di tempo specificato.
- I registri di tracciamento costituiscono una documentazione più completa degli eventi relativi al flusso delle chiamate del sistema. I registri di traccia sono ordinati in base al conteggio e includono livelli di registro come 'ERROR e 'WARN.

Problemi

Modifica online

Un problema è un evento che viene generato quando si verifica un deterioramento delle prestazioni di un'applicazione, di un servizio o di una loro parte. Instana include diverse centinaia di indicatori di integrità selezionati con cura, in grado di rilevare vari problemi che vanno dal deterioramento della qualità del servizio a complesse criticità infrastrutturali, fino alla saturazione del disco. I problemi vengono risolti automaticamente quando le metriche, gli eventi o i metadati tornano ai valori previsti.

Oltre ai problemi predefiniti, è possibile definire eventi personalizzati per individuare problemi specifici del proprio sistema.

Per visualizzare tutti i problemi rilevati (sia quelli predefiniti che quelli personalizzati) da Instana, vai alla vista Eventi e seleziona la scheda Problemi. È possibile utilizzare Dynamic Focus per filtrare i problemi.

Ogni numero di « Instana » contiene le seguenti informazioni:

Gravità: questa informazione può essere CRITICA o AVVERTENZA. CRITICO significa che esiste un rischio diretto o indiretto di perdita di dati o di servizio e non sono disponibili. Il termine "AVVISO" indica qualsiasi altro problema di prestazioni che potrebbe influire sull'esperienza dell'utente o causare un problema a lungo termine.
Data di inizio, data di fine e durata del problema.
Entità interessate: il problema riguarda una o più entità.
Dettagli: descrizione aggiuntiva che fornisce ulteriori informazioni di contesto e indicazioni su come risolvere il problema.
Metriche: grafici delle metriche che mostrano i valori relativi al problema nel periodo in cui si è verificato.
Se necessario, accedi a Unbounded Analytics per analizzare le tracce, le chiamate o i caricamenti delle pagine interessati dal problema.

Figura 6. Esempio di dettagli dell'evento

In questo esempio, la CPU ruba il tempo su una macchina Linux ed è pertanto contrassegnata come un problema. Un problema di per sé non genera un avviso, ma Instana ne registra l'avvenuta segnalazione. Se il servizio a cui è collegato questo sistema presenta malfunzionamenti, il problema rientra nell'ambito dell'incidente. Questa metodologia rappresenta uno dei principali vantaggi di Instana, poiché non è necessario correlare manualmente gli eventi e i problemi di prestazioni. Il fatto che un processo utilizzi troppa CPU per un po' non significa necessariamente che ci sia un problema. Queste informazioni assumono rilevanza solo quando incidono su un servizio.

Per ulteriori informazioni sulla gestione degli eventi predefiniti e personalizzati, consultare la sezione "Gestione degli eventi predefiniti"

Poiché Instana conosce tutte le dipendenze tra i servizi monitorati, genera segnalazioni di incidente per tutti i problemi relativi alla qualità del servizio quando questi incidono sull'utente. Inoltre, genera segnalazioni di incidenti in caso di problemi critici alle infrastrutture, quali la saturazione dei dischi e le situazioni di "split-brain" nel cluster di Elasticsearch, poiché tali problemi possono causare la perdita di dati.

Nota: le applicazioni, i servizi o gli endpoint che ricevono traffico sporadico (ad esempio, una chiamata ogni 15 minuti) non sono considerati sufficientemente significativi ai fini del nostro sistema di rilevamento dei problemi. La gravità di un problema può cambiare durante il suo ciclo di vita. Rappresenta la severità più elevata mai raggiunta da questo particolare problema.

Draft comment:

Impacted Users for application issues (private preview)

This feature is under private preview. You can contact the technical Instana support to get included in this program.

By using this feature, you can see the impacted users of a specific event, and get valuable insights into how events are affecting your users by quickly identifying and addressing issues that impact user experience.

Availability

To use this feature, ensure that the following conditions are met:

Both your front-end (website or mobile app) and back-end servers are monitored by Instana.
The correlation between front-end and back-end monitoring functions as expected. For more information, see [Backend correlation](../website_monitoring/backend_correlation.md).
The Impacted Users feature is currently supported only for application issues.

What is an impacted user?

An impacted user is a user whose experience is negatively affected by an application issue that triggers an event. For example, an impacted user might be someone whose journey or visit to your website or mobile app is disrupted due to a back-end server error issue as follows:

The user encounters a critical error page and cannot continue using the site or app.
The user experiences significant delays or timeouts, leading to a disrupted experience.
The user's actions (such as form submissions or transactions) fail to complete due to server-side issues.

Event data correlation and impact analysis

When an event is triggered, the system correlates data from your front-end and back-end monitoring to identify which end users are impacted. Then, you can detailed information about the affected users and understand the scope and impact of the issue.

Modifiche

Modifica online

Un cambiamento è un evento che indica delle modifiche, come l'avvio o l'arresto di un server, l'implementazione o una modifica alla configurazione di un sistema. Inoltre, suddiviso in:

Modifiche: configurazione modificata dei componenti, ad esempio versioni, valori delle variabili di ambiente e altri componenti
Offline/Online: tracciamento della presenza dei componenti in gestione

Gli eventi di modifica sono informazioni importanti utilizzate insieme al grafico dinamico per rilevare automaticamente la relazione tra le modifiche nella configurazione e gli incidenti.

Figura 7. Esempio di dettagli della modifica

Panoramica degli eventi

Modifica online

Per visualizzare tutti gli eventi rilevati da Instana, accedi alla dashboard Eventi e seleziona le schede Incidenti, Problemi, Modifiche o Tutti per visualizzare i tipi di evento corrispondenti.

Funzionalità di filtraggio per tutti gli eventi

Modifica online

DFQ (Dynamic Focus Query)

Modifica online

La ricerca tra gli eventi individuati da Instana si basa sulla funzione Dynamic Focus. Selezionando una o più barre nel grafico a barre degli eventi, la tabella degli eventi elenca solo gli eventi inclusi nelle barre selezionate. Selezionando le barre nel grafico a barre degli eventi, è possibile esaminare in dettaglio gli eventi senza modificare l'intervallo di tempo corrente. È inoltre possibile utilizzare la casella di ricerca per trovare voci specifiche in base ai dati presenti nelle colonne "Titolo" o "Su" (il servizio in cui si è verificato l'incidente) nella tabella Panoramica. In questo esempio, la query di ricerca è event.text:"Error rate". Il risultato è un elenco di tutti gli eventi che contengono la frase "Tasso di errore" nel titolo:

Tabella di filtraggio

Modifica online

La vista Eventi offre potenti funzionalità di filtraggio tramite filtri dedicati nell'interfaccia utente. L'elenco degli eventi può essere filtrato utilizzando le tre opzioni di filtro principali:

Eventi transitori : se gli eventi sono transitori, non transitori o entrambi.
Tipo di evento : se gli eventi sono predefiniti o personalizzati.
Avvisi intelligenti : se gli eventi vengono attivati dagli avvisi intelligenti provenienti da applicazioni, siti web, test sintetici, infrastruttura, dispositivi mobili, log o SLO.

Questi filtri possono essere utilizzati singolarmente o in combinazione tra loro per individuare rapidamente gli eventi rilevanti e concentrare gli sforzi di risoluzione dei problemi sugli aspetti più importanti.