Cos'è l'observability?

Autrice

Staff Writer, Automation & ITOps

IBM Think

Cos'è l'observability?

L'observability è la capacità di comprendere lo stato interno o la condizione di un sistema complesso basandosi unicamente sulla conoscenza dei suoi output esterni, in particolare della sua telemetria.

L’observability svolge un ruolo cruciale nel mantenimento della disponibilità, delle prestazioni e della sicurezza dei sistemi software moderni e degli ambienti di cloud computing.

Il termine “observability” deriva dalla teoria del controllo, una teoria ingegneristica che si occupa dell’automazione del controllo dei sistemi dinamici, ad esempio la regolazione del flusso d’acqua attraverso un tubo in base al feedback di un sistema di controllo del flusso.

L’observability fornisce una visibilità approfondita sui moderni stack tecnologici distribuiti per individuare e risolvere i problemi in modo automatizzato e in tempo reale. Quanto più un sistema è osservabile, tanto più rapidamente e accuratamente i team IT possono passare dall’identificazione di un problema a livello di prestazioni alla sua causa principale, senza ulteriori prove o codifiche.

Nelle operazioni IT (ITOps) e nel cloud computing, l’observability richiede strumenti software in grado di aggregare, correlare e analizzare un flusso costante di dati sulle prestazioni dalle applicazioni, dall’hardware e dalle reti su cui vengono eseguiti. I team possono quindi utilizzare questi dati per monitorare, risolvere i problemi ed eseguire il debug di app e reti e, di fatto, ottimizzare l’esperienza del cliente e soddisfare gli accordi sul livello di servizio (SLA) e altri requisiti aziendali.

L’observability viene spesso confusa con il monitoraggio delle prestazioni dell’applicazione e con la gestione delle prestazioni della rete (NPM). Tuttavia, gli strumenti di observability sono una naturale evoluzione del monitoraggio delle prestazioni delle applicazioni e dei metodi di raccolta dei dati NPM. Sono più adatti per affrontare la natura sempre più distribuita e dinamica delle implementazioni di applicazioni cloud-native.

L’observability non sostituisce altri approcci di monitoraggio, bensì li migliora e li estende.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Tre pilastri dell'observability

Le piattaforme di observability scoprono e raccolgono continuamente la telemetria delle prestazioni integrandosi con la strumentazione presente nei componenti di app e infrastrutture e aggiungendo caratteristiche e strumentazione a questi componenti.

L'observability si concentra su tre tipi di telemetria principali:

Log

I log sono record granulari, con data e ora, completi e immutabili, degli eventi dell'applicazione. Tra le altre cose, i log possono essere utilizzati per creare un record ad alta fedeltà, millisecondo per millisecondo, di ogni evento, includendo inoltre in maniera completa il contesto circostante. Gli sviluppatori utilizzano i log per la risoluzione dei problemi e per il debug.

Tracce

Le tracce registrano il “percorso” end-to-end di ogni richiesta dell'utente, dall'interfaccia utente o dall'app per dispositivi mobili, attraverso l'intera architettura, per poi tornare all'utente.

Metriche

Le metriche (a volte chiamate metriche delle serie temporali) sono misure fondamentali dello stato di salute delle applicazioni e dei sistemi nel tempo. Ad esempio, le metriche vengono utilizzate per misurare la quantità di memoria o la capacità della CPU utilizzata da un’applicazione in cinque minuti, oppure la latenza di un’applicazione durante un picco di utilizzo.

Gli strumenti di observability producono anche mappe delle dipendenze che rivelano in che modo ogni componente dell’applicazione dipende da altri componenti, applicazioni e risorse IT.

Dopo avere raccolto la telemetria, la piattaforma correla i dati in tempo reale, fornendo ai team DevOps, ai team di ingegneria dell’affidabilità del sito (SRE) e al personale IT informazioni contestuali complete. I team arrivano a comprendere il “cosa, dove e perché” di qualsiasi evento che potrebbe indicare, causare o risolvere un problema di prestazioni dell’applicazione.

Molte piattaforme di observability rilevano automaticamente anche nuove fonti di telemetria via via che emergono all’interno del sistema, ad esempio quando una nuova application programming interface (API) viene aggiunta alla rete.

Le piattaforme più importanti includono anche funzionalità di artificial intelligence for operations (AIOps) in grado di separare i segnali, che sono indicazioni di problemi reali, dal “rumore”, ovvero dati non correlati a problemi attuali o potenziali.

IBM DevOps

Cos'è DevOps?

Andrea Crawford spiega cos'è DevOps, il suo valore e in che modo le pratiche e gli strumenti DevOps ti aiutano a spostare le tue app nell'intera delivery pipeline, dall'ideazione alla produzione. Guidato dai principali leader di pensiero IBM, il curriculum è progettato con lo scopo di aiutare i leader aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti nell'AI che possono promuovere la crescita.

Esplora DevOps

Come funzionano gli strumenti di observability?

Gli strumenti di observability in genere automatizzano tre processi chiave per aiutare le aziende a comprendere meglio i loro stack tecnologici:

Raccolta dei dati

La raccolta continua dei dati rende possibile l'observability. Gli strumenti di observability facilitano la raccolta, l'aggregazione e l'accesso ai dati della memoria della CPU, ai log dell'app, ai numeri di alta disponibilità, alla latenza e alle altre metriche.

Monitoraggio

I team devono essere in grado di visualizzare i dati dell'app e del sistema con relativa facilità, quindi gli strumenti di observability configurano dashboard per monitorare lo stato di salute dell'app, tutti i servizi correlati e gli obiettivi aziendali pertinenti.

Le funzionalità di monitoraggio aiutano anche a chiarire come i servizi lavorano tra loro, utilizzando strumenti come i grafici di dipendenza, e si inseriscono nell'architettura generale.

Analisi

In precedenza, le attività di analisi dei dati venivano eseguite utilizzando strumenti di Application Performance Management (APM), che aggregavano i dati raccolti da ciascuna fonte di dati per creare report, dashboard e visualizzazioni comprensibili, simili alle caratteristiche di monitoraggio del software di observability.

Poiché le architetture moderne si basano spesso su microservizi containerizzati, gli strumenti di observability spesso scaricano la telemetria di base nel livello Kubernetes, consentendo ai team IT di concentrare l’analisi dei dati sugli obiettivi del livello di servizio (SLO) e sugli indicatori del livello di servizio (SLI). Il software di observability compila dati da più fonti, li analizza per trovare ciò che è pertinente e fornisce insight fruibili ai team di sviluppo.

Vale la pena notare che le funzionalità di automazione del software di observability vanno oltre questi tre processi.

Gli strumenti di observability possono anche automatizzare i processi di debug, la strumentazione e il monitoraggio degli aggiornamenti della dashboard via via che vengono aggiunti nuovi servizi alla rete. Si occupano della gestione degli agenti, in cui gli agenti sono piccoli componenti distribuiti in un ecosistema per raccogliere continuamente dati di telemetria e molto altro.

Observability, monitoraggio e APM

Negli ultimi decenni, i team IT si sono affidati principalmente agli strumenti APM per monitorare e risolvere i problemi delle applicazioni. L’APM include, tra le altre cose, il monitoraggio delle prestazioni delle applicazioni e campiona e aggrega periodicamente i dati delle applicazioni e del sistema che possono aiutare a identificare i problemi di prestazioni delle applicazioni.

L’APM analizza la telemetria rispetto agli indicatori chiave di prestazione (KPI) e assembla i risultati in dashboard di facile lettura che avvisano i team operativi e di supporto di eventuali condizioni anomale che causano (o minacciano di causare) problemi di prestazioni del sistema.

Gli strumenti APM sono efficaci per il monitoraggio e la risoluzione dei problemi delle app monolitiche e delle applicazioni distribuite tradizionali. In queste configurazioni, i nuovi rilasci di codice avvengono periodicamente e i workflow e le dipendenze tra i componenti dell’applicazione, i server e le risorse correlate sono ben noti o relativamente facili da rintracciare.

Tuttavia, oggi le organizzazioni stanno adottando la trasformazione digitale. Si stanno rapidamente spostando verso pratiche di sviluppo moderne, come lo sviluppo agile, il continuous integration and continuous deployment (CI/CD), DevOps e l’adozione di tecnologie cloud-native, come i container Docker e le funzioni serverless.

Le applicazioni moderne si basano spesso su architetture di microservizi, spesso eseguite all’interno di cluster Kubernetes in container. Di conseguenza, gli sviluppatori possono immettere sul mercato un numero maggiore di servizi, il tutto più velocemente che mai.

Ma, così facendo, distribuiscono nuovi componenti di applicazione in tutta l’architettura. Questi componenti operano in lingue e formati di dati diversi e funzionano per durate variabili, a volte solo per qualche secondo o frazione di secondo, come si è visto con le funzioni serverless. Ciò significa che ci sono più tempi di esecuzione, ognuno dei quali emette log in posizioni diverse all’interno dell’architettura.

Il campionamento dei dati una volta al minuto e i protocolli di monitoraggio tradizionali di APM non sono in grado di tenere il passo con una quantità così immensa di dati.

Le aziende necessitano invece di una telemetria dettagliata e automatizzata ad alto volume e della generazione di insight in tempo reale che gli strumenti di observability sono in grado di fornire. Questi strumenti consentono ai team di sviluppo di creare e memorizzare record in tempo reale, ad alta fedeltà, ricchi di contesto e completamente correlati di ogni applicazione, richiesta utente e transazione di dati sulla rete.

Observability in DevOps

L’argomento dell’observability è diventato centrale per il moderno DevOps, che accelera la consegna di app e servizi combinando e automatizzando il lavoro dei team di sviluppo software e di operazioni. Una metodologia DevOps utilizza strumenti e pratiche condivise e aggiornamenti più piccoli e frequenti per rendere lo sviluppo software più veloce, più efficiente e più affidabile.

Una strategia DevOps efficace richiede che i team identifichino potenziali colli di bottiglia e problemi di prestazioni nell’esperienza dell’utente finale e utilizzino strumenti di observability per risolvere il problema. Con una piattaforma di observability, i team DevOps possono identificare rapidamente componenti ed eventi problematici utilizzando insight pertinenti sui dati.

Le piattaforme di observability forniscono inoltre ai team DevOps strumenti e metodi di observability engineering per comprendere meglio i loro sistemi.

Questi strumenti e metodi includono l’analisi degli incidenti per aiutare a trovare le cause di eventi di sistema imprevisti e migliorare le tattiche di risposta agli incidenti future, il contrassegno delle funzionalità per consentire ai team di abilitare e disabilitare le funzioni dell’app senza modificare il codice sorgente, e la verifica continua, che utilizza il machine learning (ML) per analizzare i dati storici di distribuzione/implementazione e stabilire una linea di base per le prestazioni.

Insight sui dati di observability di alta qualità si traducono in un feedback più rapido e migliore nei processi di sviluppo software e nei processi di testing, così come in una pipeline CI/CD più efficiente.

Observability e AI

L’AI sta trasformando l’observability, integrando analytics avanzata, automazione e caratteristiche predittive nelle operazioni IT.

L’observability tradizionale offre una visibilità dettagliata sui sistemi, ma l’AI la migliora ulteriormente analizzando in modo intelligente i dati per prevedere e prevenire i problemi prima che si verifichino.

L’observability basata su AI consente ai team di sviluppo di proteggere in modo proattivo l’infrastruttura IT aziendale anziché risolvere i problemi via via che si presentano. Utilizzando algoritmi di ML, gli strumenti di observability possono analizzare grandi flussi di dati per trovare modelli, tendenze e anomalie, rivelando insight che un essere umano potrebbe trascurare.

Gli strumenti e caratteristiche di observability basati su AI includono:

Correzione automatizzata

Gli strumenti di observability possono utilizzare le tecnologie AI per emulare e automatizzare il processo decisionale umano nel processo di correzione.

Supponiamo che un team utilizzi una piattaforma di gestione dell’esperienza digitale (DEM). Attualmente, queste piattaforme utilizzano una serie di script di correzione che consentono al personale IT di eseguire correzioni con un clic e di suggerire opzioni self-service agli utenti.

Utilizzando il monitoraggio continuo, le funzioni di observability basate su AI possono analizzare i dati in arrivo per trovare anomalie e attività che superano le soglie stabilite. La piattaforma di observability può quindi eseguire una serie di azioni correttive, simili a script di correzione, per risolvere il problema.

Se, per qualche motivo, il software non è in grado di risolvere il problema, genererà automaticamente un ticket con tutti i dettagli pertinenti. Questi dettagli includono il punto in cui si trova il problema, il suo livello di priorità e qualsiasi insight pertinente dai modelli AI nella piattaforma di gestione dei problemi del team IT.

Questo processo consente al personale IT di concentrarsi esclusivamente sui problemi che il software non è in grado di gestire e di risolvere i problemi di prestazioni del sistema il più rapidamente possibile.

Modelli linguistici di grandi dimensioni (LLM)

Gli LLM eccellono nel riconoscere i pattern all’interno di grandi quantità di dati testuali ripetitivi, che assomigliano molto ai dati di log e di telemetria nei sistemi complessi e dinamici. Gli LLM attualmente esistenti possono essere addestrati per processi IT specifici (oppure guidati da protocolli di prompt engineering) per fornire informazioni e insight utilizzando la sintassi e la semantica del linguaggio umano.

I progressi negli LLM aiutano gli utenti degli strumenti di observability a scrivere ed esplorare le query in linguaggio naturale, allontanandosi dai linguaggi di interrogazione complessi. Questo sviluppo va a vantaggio degli utenti di tutti i livelli di competenza, e in particolare delle persone con competenze tecniche limitate, aiutandoli a gestire dati complessi in modo più efficace.

Gli LLM non sono ancora adatti per l’analisi e la risoluzione dei problemi in tempo reale, perché spesso non possiedono la precisione necessaria per catturare un contesto completo. Tuttavia, dispongono delle capacità avanzate di elaborazione del testo per aiutare a semplificare gli insight sui dati nelle piattaforme di observability.

Insight più accessibili consentono una migliore consapevolezza del comportamento del sistema e una comprensione migliore e più ampia dei problemi IT e dei punti di errore.

AI causale

L’AI causale è una branca dell’AI che si concentra sul chiarimento e sulla modellazione delle relazioni causali tra le variabili, piuttosto che sulla semplice identificazione delle correlazioni.

Le tecniche di AI tradizionali, come il ML, spesso si basano sulla correlazione statistica per fare previsioni. L’AI causale vuole invece trovare i meccanismi sottostanti che producono correlazioni, al fine di migliorare il potere predittivo e promuovere un processo decisionale più mirato.

L’integrazione dell’AI causale nei sistemi di observability può migliorare notevolmente gli insight delle organizzazioni sui loro ambienti IT.

L’AI causale consente ai team IT di analizzare le relazioni e le interdipendenze tra i componenti dell’infrastruttura, in modo da poter individuare meglio le cause principali dei problemi operativi e di qualità. Permette agli sviluppatori di capire non solo il “quando e dove” dei problemi del sistema, ma anche il “perché”, aiutando i team a risolvereli più velocemente e a migliorare l’affidabilità del sistema.

Vantaggi dell'observability

La full-stack observability può rendere un sistema più facile da comprendere e monitorare, più facile e più sicuro da aggiornare con un nuovo codice e più facile da riparare. Aiuta i team IT a:

Scoprire e affrontare le “incognite sconosciute”

Uno dei limiti principali degli strumenti di monitoraggio è che rilevano solo le “incognite note”, ossia le condizioni eccezionali che i team IT sanno già di dover monitorare.

Gli strumenti di observability scoprono condizioni che i team potrebbero non conoscere né pensare di cercare, quindi monitorano la loro relazione con problemi di prestazioni specifici. Questi insight forniscono un contesto più ampio per aiutare a identificare le cause principali dei problemi e accelerarne la risoluzione.

Individuare e risolvere i problemi nelle prime fasi di sviluppo

L'observability integra il monitoraggio nelle prime fasi del processo di sviluppo del software. Questa integrazione aiuta i team DevOps a identificare e risolvere i problemi presenti nel nuovo codice prima che influiscano sull'esperienza del cliente o sugli SLA.

Migliorare l'esperienza degli utenti

Gli strumenti di observability consentono agli sviluppatori di raccogliere, analizzare, correlare e scoprire un'ampia gamma di dati di telemetria per comprendere meglio il comportamento degli utenti e ottimizzarne l'esperienza.

Scalare automaticamente

Gli strumenti di observability consentono ai team di specificare la strumentazione e l'aggregazione dei dati in una configurazione del cluster Kubernetes, ad esempio, e di iniziare a raccogliere i dati di telemetria dal momento in cui viene avviato fino a quando non viene chiuso.

Automatizzare la riparazione e l'infrastruttura applicativa self-healing

I team IT possono combinare l'observability con le funzionalità di AIOps, ML e automazione per prevedere i problemi in base agli output di sistema e risolverli senza intervento umano.

Ridurre al minimo tempi di inattività e MTTR

Le soluzioni di observability accelerano i processi di individuazione e risoluzione dei problemi. Questa accelerazione aiuta i team a mantenere elevata la disponibilità delle app, a tenere basso il tempo medio di riparazione (MTTR) e a mantenere al minimo le interruzioni.

Casi d'uso dell'observability

Le soluzioni di observability adottano un approccio olistico e cloud-native alla registrazione e al monitoraggio delle applicazioni. Facilitano l’automazione dei processi senza interruzioni e utilizzano i dati contestuali storici per aiutare i team a ottimizzare meglio le app aziendali in una serie di casi d’uso.

Monitoraggio del sistema in tempo reale

Gli strumenti di observability forniscono telemetria end-to-end sullo stato di salute e sulle prestazioni in tempo reale, affinché i team IT possano accelerare i protocolli di debug e mantenere le app funzionanti in modo ottimale.

Trasformazione digitale informata e migrazione al cloud

Via via che le aziende modernizzano le loro infrastrutture di app e cloud, spesso aumentano la complessità generale del sistema. Le piattaforme di observability consentono ai team di mantenere la visibilità in ambienti hybrid cloud e multicloud distribuiti e altamente dinamici.

Prestazioni aziendali migliorate

L’observability consente ai team di trovare e risolvere i problemi più rapidamente, in modo che possano dedicare più tempo a concentrarsi su altri aspetti del business.

DevSecOps migliore

I sistemi osservabili consentono ai team di sviluppo, sicurezza e operazioni di creare applicazioni più sicure e resilienti, fornendo un feedback continuo e in tempo reale dal ciclo di vita della distribuzione del software.

Ottimizzazione del sistema basata su AI

Gli strumenti di observability basati su AI possono funzionare su sistemi complessi e distribuiti, implementando algoritmi di AI per analizzare e correlare rapidamente i dati. I modelli ML all’interno degli strumenti di observability possono anche generare analytics predittiva e prevedere le tendenze delle prestazioni.

Techsplainers | Podcast | Cos'è l'observability?

Ascolta: "Cos'è l'observability?"

Segui Techsplainers: Spotify, Apple Podcast e Casted.

Trova altri episodi

Distribuisci il software in modo efficiente

Migliorare l'efficienza della distribuzione del software è fondamentale per le organizzazioni che devono affrontare situazioni economiche sfavorevoli e concentrarsi sull'automazione DevOps è fondamentale.

Cos'è l'observability?

Autrice

Cos'è l'observability?

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Grazie per aver effettuato l'iscrizione!

Tre pilastri dell'observability

Log

Tracce

Metriche

Cos'è DevOps?

Come funzionano gli strumenti di observability?

Raccolta dei dati

Monitoraggio

Analisi

Observability, monitoraggio e APM

Observability in DevOps

Observability e AI

Correzione automatizzata

Modelli linguistici di grandi dimensioni (LLM)

AI causale

Vantaggi dell'observability

Scoprire e affrontare le “incognite sconosciute”

Individuare e risolvere i problemi nelle prime fasi di sviluppo

Migliorare l'esperienza degli utenti

Scalare automaticamente

Automatizzare la riparazione e l'infrastruttura applicativa self-healing

Ridurre al minimo tempi di inattività e MTTR

Casi d'uso dell'observability

Ascolta: "Cos'è l'observability?"

Risorse