Cos'è l'osservabilità cloud-native?

By Derek Robertson , Matthew Kosinski

Definizione dell'osservabilità cloud-native

L'osservabilità cloud-native è la capacità di comprendere applicazioni e sistemi cloud altamente complessi, tipicamente basati su microservizi e spesso serverless, basandosi sui loro output e dati di telemetria.

L'osservabilità cloud-native si differenzia dall'osservabilità tradizionale per il suo focus specifico sulle sfide poste dai sistemi cloud. In questi sistemi, container, macchine virtuali e altre risorse possono essere provisionati e cancellati in un attimo, creando enormi quantità di dati talvolta effimeri.

Le soluzioni di osservabilità cloud-native aiutano le organizzazioni a tracciare i punti dati chiave in questo sistema mutabile, il che a sua volta supporta il processo DevOps e i suoi piccoli, frequenti e spesso automatizzati aggiornamenti.

Le piattaforme di osservabilità cloud-native raccolgono dati dall'ambiente di cloud ibrido di un'organizzazione, che può includere servizi di più fornitori (come Microsoft Azure e Amazon Web Services), server onsite e i numerosi strumenti e risorse che supportano (come microservizi o strumenti di orchestrazione in container come Kubernetes). Forniscono insight attuabili su metriche come il traffico di rete e la latenza e le correlazioni tra tali metriche tra le piattaforme, spesso automatizzando le riparazioni necessarie e la visualizzazione dei dati raccolti.

Ad esempio, una piattaforma di osservabilità basata su cloud potrebbe raccogliere metriche di latenza da una macchina virtuale ospitata su un server cloud, log dai container orchestrati da Kubernetes di quella macchina virtuale che descrivono le chiamate API e informazioni su eventi di rete come il deployment di una nuova applicazione. Può quindi presentare i dati raccolti come un grafico o un grafico ed eseguire un'analisi delle cause principali, fornendo agli amministratori una comprensione concreta di cosa causa i tempi di inattività.

Molte piattaforme moderne utilizzano intelligenza artificiale (AI) e machine learning (ML) per alimentare queste funzionalità automatizzate. Secondo un report del 2025 di 451 ricerca, il 71% delle organizzazioni che utilizzano soluzioni di osservabilità utilizzano le proprie caratteristiche di AI, con un aumento del 26% rispetto al 2024.¹

Molti strumenti di osservabilità cloud-native popolari sono open source, come OpenTelemetry, Jaeger e Prometheus. Permettendo alla comunità di sviluppatori di apportare correzioni specifiche per piattaforma o applicazione man mano che sorgono problemi, gli strumenti open source offrono alle organizzazioni maggiore flessibilità in ambienti cloud-native a volte imprevedibili, e una maggiore capacità di collegare i loro strumenti a vari sistemi e application programming interface (API).

Come funziona l'osservabilità cloud-native?

Gli strumenti di osservabilità cloud-native raccolgono log, tracce e metriche da tutto l'ecosistema cloud. Spesso presentano dati non elaborati, analisi e visualizzazioni attraverso un dashboard che aiuta gli utenti a monitorare lo stato di salute dell'applicazione e gli obiettivi aziendali.

Raccolta dei dati

In un ambiente cloud composto in gran parte da microservizi, i nuovi container e le macchine virtuali possono scomparire e apparire da un momento all'altro, creando una grande quantità di dati telemetrici. Questo crea un problema nuovo che le piattaforme di osservabilità cloud-native devono affrontare: vedere tutto ciò che si trova in una rete che cambia costantemente e tracciare dati provenienti da fonti che potrebbero non esistere più man mano che la rete si espande e si contrae automaticamente per soddisfare le esigenze aziendali.

Gli strumenti di osservabilità facilitano la raccolta e l'aggregazione dei dati di memoria della CPU, dei log delle app, delle informazioni sulla disponibilità, della latenza media e di altri punti dati all'interno di queste reti complesse.

Le piattaforme di osservabilità cloud-native si basano sui tre pilastri dell'osservabilità: log, tracce e metriche.

Log

I log sono record granulari, con data e ora, completi e immutabili, degli eventi dell'applicazione. Tra le altre cose, i log possono essere utilizzati per creare un record ad alta fedeltà, millisecondo per millisecondo, di ogni evento, includendo inoltre in maniera completa il contesto circostante. Gli sviluppatori utilizzano i log per la risoluzione dei problemi e per il debug.

Tracce

Le tracce registrano il “percorso” end-to-end di ogni richiesta dell'utente, dall'interfaccia utente, attraverso l'intera architettura, e di nuovo all'utente.

Metriche

Le metriche sono misure fondamentali delle prestazioni delle applicazioni e dello stato di salute del sistema nel tempo. Ad esempio, le metriche vengono utilizzate per misurare la quantità di memoria o la capacità della CPU utilizzata da un'applicazione in cinque minuti, oppure la latenza di un'applicazione durante un picco di utilizzo.

Monitoraggio

La visibilità è una funzione fondamentale delle piattaforme di observability cloud-native. La capacità di monitorare i container, le macchine virtuali, i server e gli altri elementi di una rete basata su microservizi è una caratteristica critica per queste architetture, in cui il tracciamento distribuito e le mappe di dipendenza possono essere complicate e quasi indecifrabili.

I dashboard di osservabilità permettono agli utenti di monitorare le misure di stato di salute dell'applicazione come la disponibilità e l'uso delle risorse e gli obiettivi aziendali rilevanti come il tasso di conversione o gli utenti attivi. Le funzionalità di monitoraggio aiutano anche a chiarire come i servizi interagiscono tra loro (utilizzando strumenti come i grafici di dipendenza) e come si inseriscono nell'architettura complessiva.

Analisi

Il monitoraggio tradizionale veniva effettuato con strumenti di Application Performance Management (APM), che aggregavano i dati raccolti da ciascuna fonte di dati per creare rapporti, dashboard e visualizzazioni digeribili, simile dalle caratteristiche di monitoraggio dei moderni software di observability.

In un ambiente di cloud computing moderno, gli strumenti di osservabilità spesso scaricano la telemetria di base al livello Kubernetes, dove il software di orchestrazione dei container utilizza strumenti nativi per eseguire l'osservabilità all'interno della piattaforma. Permettere a Kubernetes di automatizzare questa attività consente ai team IT di concentrare l'analisi dei dati su obiettivi di livello di servizio (SLO) e indicatori di livello di servizio (SLI).

L'automazione nei moderni software di osservabilità va oltre la raccolta, il monitoraggio e l'analisi. Gli strumenti di osservabilità possono anche automatizzare i processi di debug, la strumentazione e il monitoraggio degli aggiornamenti della dashboard via via che vengono aggiunti nuovi servizi alla rete. Si occupano anche della gestione degli agenti, piccoli componenti software distribuiti in tutto un ecosistema che raccolgono continuamente dati di telemetria.

Vantaggi dell'osservabilità cloud-native

Praticare l'osservabilità cloud-native può offrire alle organizzazioni una visione più completa dei sistemi complessi, ridurre il tempo medio di riparazione (MTTR) e integrare ulteriormente gli strumenti di automazione nel workflow DevOps.

Trasparenza del sistema

In sistemi altamente distribuiti, un gran numero di server sovrapposti e applicazioni cloud-native emettono segnali, metriche, log e tracce, e non sempre condividono i dati in modo pulito. Gli strumenti di osservabilità cloud-native aiutano a superare questi colli di bottiglia raccogliendo dati di osservabilità da tutto l'ecosistema, permettendo agli amministratori di risolvere problemi in tempo reale e prendere decisioni basate sui dati.

Ripristino più rapido

Una volta che gli amministratori (o gli strumenti automatizzati all'interno della piattaforma di osservabilità) hanno individuato le correlazioni tra i problemi nel cloud, possono eseguire un'analisi della causa principale. Ad esempio, una piattaforma potrebbe segnalare una risposta lenta dell'applicazione a livello globale che coincide con alta latenza in una determinata regione, e poi eseguire un'analisi per identificare il server mal configurato o malfunzionante responsabile del problema.

Questa analisi può fare la differenza tra il triage di un incidente per ore e la risoluzione di un problema imminente prima che si verifichi, riducendo i tempi di inattività e liberando i team DevOps per altri compiti.

Maggiore automazione

L'intelligenza artificiale e gli strumenti di machine learning sono al centro di molte piattaforme moderne di osservabilità, rilevando anomalie senza intervento dell'utente, eseguendo analisi delle cause principali e utilizzando l'AI generativa per la visualizzazione dei dati.

L'enorme volume di dati di telemetria prodotti in un ambiente cloud rende AI e ML preziosi per l'osservabilità basata sul cloud. Automatizzare l'osservabilità su larga scala può generare insight che permettono alle organizzazioni di automatizzare anche altre funzioni aziendali. L'analytics predittiva, ad esempio, può consentire a un'azienda di predisporre una nuova infrastruttura server in anticipo rispetto al traffico intenso.

Sfide dell'osservabilità cloud-native

Poiché raccoglie e sintetizza una quantità così vasta e diversificata di dati, l'osservabilità cloud-native può rappresentare sfide riguardo alla scalabilità e alla complessità, all'uso di strumenti di osservabilità e alla privacy dei dati.

Scalabilità e complessità

Le organizzazioni devono bilanciare la visibilità in un complesso ambiente cloud con vincoli pratici relativi ai costi di storage, alle prestazioni delle query e alla conservazione dei dati. Senza adeguate strategie di campionamento e di definizione delle priorità dei dati, il volume di dati raccolti può sopraffare le piattaforme di osservabilità.

La natura vasta e in rapida evoluzione dei microservizi containerizzati può anche significare che il monitoraggio debba estendersi oltre il livello dell'applicazione ai cluster e ai nodi di uno strumento di orchestrazione come Kubernetes.

Utilizzo di più strumenti

La maggior parte delle organizzazioni utilizza dozzine di strumenti di monitoraggio accumulati nel corso degli anni, ciascuno al servizio di team o tecnologie specifici. Lo stack tecnologico generalmente comprende più linguaggi di programmazione, sistemi legacy, ambienti multicloud , microservizi, componenti infrastrutturali e framework. Ciò rende difficile l'interoperabilità e crea dati frammentati, vanificando l'obiettivo fondamentale dell'osservabilità: creare una visione unificata della salute del sistema.

Privacy e conformità

L'osservabilità cloud-native può creare sfide di conformità aggregando dati sensibili provenienti da tutta l'azienda in piattaforme. I dati telemetrici possono contenere informazioni di identificazione personale (PII), dettagli delle carte di pagamento o informazioni sanitarie protette. Questi tipi di dati possono rientrare nell'autorità di regolamenti come il Regolamento generale sulla protezione dei dati (GDPR), l'Health Insurance Portability and Accountability Act (HIPAA) e il California Consumer Privacy Act (CCPA).

Senza mascheramento dei dati, tokenizzazione, restrizioni geografiche e controlli di accesso basati sui ruoli, le organizzazioni rischiano di esporre dati sensibili a utenti non autorizzati o di violare i requisiti normativi. Ad esempio, la risoluzione di un problema di transazione per un cliente europeo può richiedere l'accesso ai log contenenti informazioni di identificazione personale. Se i dipendenti con sede negli Stati Uniti visualizzano tali dati, questa situazione potrebbe aprire la porta a violazioni del GDPR.

Osservabilità cloud-native e AIOps

L'implementazione dell'osservabilità cloud-native è un pilastro del passaggio verso AIOps, l'applicazione delle funzionalità di AI per automatizzare, snellire e ottimizzare la gestione dei servizi IT e i workflow operativi.

Quando le organizzazioni hanno più visibilità sui dati nel cloud, possono automatizzare le decisioni su provisioning o troubleshooting anche nell'ambiente spesso vasto, vasto e imprevedibile del cloud. In breve, l'osservabilità consente l'AIOps dando alle organizzazioni maggiore fiducia nelle decisioni dei loro strumenti di AI e ML.

Le principali funzioni di AI nell'osservabilità cloud-native includono:

Il rilevamento delle anomalie, dove gli algoritmi possono analizzare i dati su larga scala per determinare le prestazioni di base del sistema e identificare rapidamente le deviazioni;
l'analisi della causa principale, che sposta oltre la correlazione per identificare le azioni che possono essere intraprese per correggere direttamente un errore;
e l'analytics predittiva, attraverso la quale i modelli AI possono prevedere i workload futuri e adattare di conseguenza la scalabilità della rete.

Osservabilità cloud-native e osservabilità full-stack

Sebbene le due somiglianze condividano importanti somiglianze, l'osservabilità cloud-native è diversa dalla pratica dell'osservabilità full-stack. L'osservabilità cloud-native può essere considerata un'evoluzione dell'osservabilità full stack, adattando gli stessi strumenti e tecniche per un ambiente cloud-native.

L'osservabilità full stack correla la telemetria su tutti i livelli dello stack tecnologico. Le piattaforme di osservabilità full stack raccolgono dati da più sistemi in tempo reale e utilizzano AI e ML per rilevare anomalie, prevedere guasti e generare insight per gli amministratori.

L'osservabilità cloud-native è un'evoluzione di questo, dove strumenti di raccolta e analisi dati utilizzati per l'osservabilità full stack sono sviluppati specificamente per tecnologie cloud-native, integrandosi perfettamente con microservizi complessi e containerizzati.

In breve, mentre l'osservabilità full stack fornisce dati telemetrici completi su un ambiente IT, l'osservabilità cloud-native è focalizzata specificamente su ambienti cloud-native spesso serverless.

Autori

Derek Robertson

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor