Che cos'è l'osservabilità della SRE?

4 marzo 2025

Autore

Chrystal R. China

Writer, automation & ITOps

Che cos'è l'osservabilità della SRE?

L'osservabilità della SRE è una pratica che comprende strumenti e metodologie di sviluppo software che forniscono una visibilità granulare dello stato interno di un sistema o processo analizzandone gli output esterni.

Utilizza la strumentazione software per raccogliere e analizzare i dati nell'ambiente di elaborazione (comprese l'infrastruttura e le applicazioni), consentendo ai team IT di capire, mantenere e migliorare l'architettura e l'affidabilità del sito nel tempo.

L'osservabilità della SRE va oltre il monitoraggio standard dei sistemi, che serve come componente vitale di qualsiasi strategia di osservabilità ma non è in grado di fornire la visibilità completa necessaria per ottimizzare le reti di calcolo moderne.

Gli strumenti di monitoraggio tradizionali, ad esempio, possono fornire dashboard per visualizzare lo stato del sistema e avvisare il personale IT dei malfunzionamenti. Tuttavia, gli ambienti informatici cloud-native di oggi sono sempre più distribuiti e si basano su una gamma di microservizi, server edge, container Docker e funzioni serverless.

Queste reti sono altamente dinamiche e richiedono un intervento umano limitato per gestire i servizi di rete. Pertanto, i sistemi di monitoraggio tradizionali spesso si rivelano insufficienti anche per le semplici attività di monitoraggio.

L'obiettivo dell'osservabilità è dare agli ingegneri SREi i dati fruibili di cui hanno bisogno per mantenere siti e servizi sicuri, scalabili e ad alta disponibilità. Quando i sistemi sono osservabili, gli ingegneri possono visualizzare facilmente le attività interne e risolvere meglio i problemi e le vulnerabilità che influiscono negativamente sull'affidabilità del sito. L'osservabilità della SRE aiuta inoltre gli ingegneri a ottimizzare le prestazioni complessive della rete e a implementare pratiche di miglioramento continuo tra i servizi di rete.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

SRE e osservabilità: un breve riassunto

Ingegneria dell'affidabilità del sito

La SRE è una pratica di ingegneria del software che combina DevOps e operazioni IT tradizionali (ITOps) per risolvere i problemi dei clienti, automatizzare le attività delle operazioni IT, accelerare la distribuzione del software e ridurre al minimo i rischi dell'IT. Si concentra sul raggiungere la resilienza automatizzando costantemente i processi chiave.

Tradizionalmente, la SRE comprende operazioni IT manuali e processi di amministrazione del sistema, come log analysis, perfezionamento delle prestazioni, patch, test dell'ambiente di produzione, gestione degli incidenti e valutazione post-mortem. La SRE moderna, invece, automatizza queste attività per risparmiare tempo, ridurre gli errori umani e semplificare la collaborazione tra i team di sviluppo e operazioni.

Gli strumenti di SRE cercano automaticamente le carenze del sistema utilizzando un processo chiamato chaos engineering, in cui gli ingegneri addetti all'affidabilità del sito causano intenzionalmente guasti negli ambienti di produzione e pre-produzione. Questo processo aiuta i team a comprendere in che modo i guasti possono influenzare i sistemi software e a sviluppare strategie per mitigare i guasti in futuro.

La SRE dà priorità anche alla pianificazione della capacità, un processo che determina i requisiti di risorse per le funzioni aziendali essenziali, le scalabilità e consente agli sviluppatori di creare nuove applicazioni e funzionalità. Utilizzando indicatori chiave di prestazione (KPI) stabiliti, i team di SRE possono valutare la consegna degli aggiornamenti e l'implementazione di nuove funzionalità.

Osservabilità

L'osservabilità svolge un ruolo fondamentale nel mantenimento della disponibilità, delle prestazioni e della sicurezza dei sistemi software moderni e degli ambienti di cloud computing.

Il termine "osservabilità" deriva dalla teoria del controllo, una teoria ingegneristica che si occupa dell'automazione del controllo dei sistemi dinamici (ad esempio, la regolazione del flusso d'acqua attraverso un tubo in base al feedback di un sistema di controllo del flusso).

L'osservabilità fornisce una visibilità approfondita sui moderni stack tecnologici distribuiti per individuare e risolvere i problemi in modo automatizzato e in tempo reale. Quanto più un sistema è osservabile, tanto più rapidamente e accuratamente i team di IT possono determinare la causa principale dei problemi legati alle prestazioni, spesso senza test o codifica aggiuntivi.

Costruire e mantenere sistemi osservabili richiede strumenti software in grado di aggregare, correlare e analizzare flussi costanti di dati sulle prestazioni da app e hardware e reti su cui vengono eseguiti. I team IT possono quindi utilizzare i dati per monitorare, risolvere i problemi ed eseguire il debug di ogni componente della rete, aiutando le aziende a ottimizzare l'esperienza dei clienti e a soddisfare gli accordi sul livello di servizio (SLA).

L'osservabilità viene spesso confusa con il monitoraggio delle prestazioni delle applicazioni (APM) e con la gestione delle prestazioni di rete (NPM). Tuttavia, gli strumenti di osservabilità rappresentano un'evoluzione naturale dei metodi di raccolta dei dati APM e NPM, più adatti per le reti distribuite e le implementazioni di applicazioni cloud-native.

Componenti dell'osservabilità della SRE

Il raggiungimento dell'osservabilità richiede alle organizzazioni di raccogliere dati di telemetria, tra cui:

Metriche

Le metriche sono misurazioni quantitative grezze, derivate o aggregate che riguardano lo stato di salute e le prestazioni del sistema (di un server o di un'API, ad esempio) in intervalli di tempo specifici. Aiutano le organizzazioni a creare una solida base per le pratiche di monitoraggio e analisi dei dati SRE, in modo che gli ingegneri possano identificare i modelli di dati e prevedere i problemi dei sistemi.

Le metriche SRE comuni includono l'utilizzo della CPU , il consumo di memoria, la latenza delle richieste, i tassi di errore e la larghezza di banda della rete, ognuna delle quali fornisce un'istantanea dello stato del sistema e aiuta i team a risolvere potenziali problemi prima che si aggravino.

Log

I log sono registrazioni testuali dettagliate degli eventi dotate di timestamp e, in genere, registrate in formato testo normale, binario o strutturato. Spesso forniscono un punto di partenza per gli ingegneri che vogliono comprendere e diagnosticare i problemi del sistema.

Le funzioni di registrazione all'interno degli strumenti di osservabilità della SRE raccolgono, memorizzare, analizzano e correlano una serie di dati (inclusi messaggi di errore, processi di avvio e di arresto e modifiche alla configurazione). Consentono ai team SRE di comprendere gli eventi in ordine cronologico e contestuale, rendendo più facile rintracciare la causa principale dei problemi e implementare workflow di risoluzione.

Tracce

Le tracce, come le richieste HTTP e le query del database, forniscono una visione completa del ciclo di vita di una richiesta di dati dall'inizio al completamento. Rappresentano il percorso di una richiesta attraverso una rete informatica, che acquisisce le interazioni (come le dipendenze) tra diversi componenti e servizi.

Il monitoraggio, e in particolare il tracciamento distribuito, è utile nelle architetture di microservizi, in cui le richieste potrebbero attraversare più servizi prima di raggiungere la loro destinazione.

Avvisi

Gli strumenti SRE inviano automaticamente le notifiche quando si verificano problemi, in modo che gli ingegneri possano risolverli tempestivamente e ridurre al minimo il tempo di inattività per gli utenti finali.

Le soluzioni di osservabilità della SRE aiutano le aziende a raccogliere ed elaborare la telemetria delle prestazioni quasi in tempo reale, offrendo ai team SRE informazioni basate sui dati riguardo a errori di sistema e al motivo per cui si verificano. Questi insight consentono alle organizzazioni di ridurre il carico cognitivo sugli ingegneri durante lo sviluppo e la manutenzione del sito, in modo che team più piccoli, interfunzionali e autonomi possano gestire i servizi in modo più efficiente.

Il futuro dell'osservabilità della SRE

L'integrazione dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML) con le soluzioni di osservabilità della SRE sta cambiando rapidamente il modo in cui le aziende affrontano l'ingegneria dell'affidabilità del sito. Gli approcci AIOps consentono ai team SRE di incorporare strumenti e algoritmi avanzati nelle pratiche di observability, analizzando i set di dati dagli strumenti di osservabilità per identificare modelli, prevedere le interruzioni e consigliare soluzioni.

Invece di concentrarsi esclusivamente sulle attività manuali e sugli script, le SRE possono diventare strumenti di formazione e strategia per i sistemi AI, insegnando all'AI a riconoscere i modelli, a filtrare il rumore e a evitare errori costosi. Questo passaggio eleverà la funzione di progettazione della SRE da un ruolo orientato alle attività a una disciplina strategica incentrata sulla gestione di sistemi di automazione intelligente.

Ad esempio, gli strumenti di osservabilità della SRE possono utilizzare le tecnologie AI per emulare e automatizzare il processo decisionale umano nel processo di correzione. Le funzioni di osservabilità basate sull'AI possono monitorare e analizzare continuamente i dati in arrivo per trovare attività che superano le soglie stabilite ed eseguire una serie di azioni correttive (come script di correzione) per risolvere il problema.

Se e solo se il software non è in grado di risolvere il problema, genererà automaticamente un ticket di supporto dettagliato nella piattaforma di gestione dei problemi del team SRE in modo che il personale addetto si occupi solo dei problemi che la piattaforma di osservabilità non è in grado di gestire.

Gli strumenti di osservabilità basati sull'AI possono anche utilizzare le capacità di elaborazione del testo avanzate dei modelli linguistici di grandi dimensioni (LLM) per semplificare le informazioni sui dati nelle piattaforme di osservabilità della SRE. Gli LLM eccellono nel riconoscere i pattern in enormi quantità di dati testuali ripetitivi, che assomigliano molto ai dati di telemetria in sistemi complessi e distribuiti. Gli LLM di oggi possono essere addestrati, o guidati da protocolli di prompt engineering, per restituire informazioni e insight utilizzando la sintassi e la semantica del linguaggio umano.

Gli LLM avanzati aiutano i team SRE a scrivere ed esplorare le query in linguaggio naturale, allontanandosi dai linguaggi di query complessi e consentendo al personale IT di tutti i livelli di competenza di gestire dati complessi in modo più efficace.

Inoltre, gli strumenti di osservabilità di progettazione della SRE beneficiano delle funzioni di AI, che chiariscono e modellano le relazioni causali tra le variabili anziché limitarsi a identificare le correlazioni. Le tecniche di AI tradizionali (come il machine learning) spesso si basano sulla correlazione statistica per fare previsioni. L'AI invece mira a trovare i meccanismi sottostanti che producono correlazioni, migliorando il potere predittivo degli strumenti di osservabilità della SRE e favorendo un processo-decisionale più mirato.

L'AI causale aiuta i team SRE ad analizzare le relazioni e le interdipendenze tra siti e componenti. Queste caratteristiche aumentano l'affidabilità del sito chiarendo non solo il "quando e dove" dei problemi di sistema, ma anche il "perché".

Mixture of Experts | 25 aprile, episodio 52

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Vantaggi degli strumenti di osservabilità della SRE

L'osservabilità della SRE spesso richiede l'uso di strumenti avanzati che consentono:

Individuazione dei problemi e analisi proattiva della causa principale

Con gli strumenti di osservabilità, i team SRE possono utilizzare le metriche, la registrazione e le funzionalità di tracciamento distribuito per rilevare e correggere i problemi di sistema prima che abbiano un impatto sugli utenti. Le soluzioni di osservabilità monitorano e aggregano i dati provenienti da tutta la rete, fornendo una visibilità chiara sul comportamento del sistema e aiutando gli ingegneri a condurre rapidamente l'analisi della causa principale. Incoraggiano pratiche SRE proattive a livello aziendale e aiutano le aziende a massimizzare la disponibilità della rete. 

Tempi di risposta agli incidenti più rapidi

Le soluzioni di osservabilità che utilizzano dati aggregati e contestualizzati aiutano i team SRE e gli ingegneri reperibili ad avviare rapidamente processi di risoluzione dei problemi e a raccogliere insight sullo stato del sistema quando viene rilevato un incidente. Queste soluzioni consentono una diagnosi e una risoluzione rapide e aiutano le aziende a mantenere l'affidabilità del sito e la conformità agli SLA.

Processo decisionale informato e prestazioni del sito ottimizzate

Il processo decisionale basato sui dati è un pilastro della SRE. Le piattaforme di osservabilità forniscono ai team tutte le informazioni di cui hanno bisogno per prendere decisioni informate sull'architettura del sistema, sulla pianificazione della capacità e sulla strategia, garantendo che le modifiche siano basate su prove empiriche. I dati di telemetria consentono inoltre ai team di adattare continuamente le prestazioni del sistema per massimizzare l'affidabilità.

Migliori risultati aziendali

Le iniziative SRE sono inscindibili dagli obiettivi aziendali più ampi, poiché la soddisfazione degli utenti gioca un ruolo chiave nella creazione e nel mantenimento dell'affidabilità del sistema. Le soluzioni di osservabilità della SRE forniscono gli strumenti per valutare la soddisfazione degli utenti aiutando le aziende a stabilire obiettivi di livello di servizio (SLO).

Gli SLO forniscono insight fruibili sulle esperienze degli utenti, a differenza delle metriche indirette, come l'utilizzo della CPU e della memoria. In genere, gli strumenti di osservabilità possono essere personalizzati per valutare in modo specifico la soddisfazione degli utenti (per esempio identificando i problemi che gli utenti devono affrontare durante gli acquisti di prodotti). Le strategie basate sugli SLO guidano le discussioni basate sui dati, aiutando le aziende a capire quando concentrarsi sull'affidabilità e quando perseguire nuove caratteristiche.

Casi d'uso dell'osservabilità della SRE

L'osservabilità della SRE aiuta le organizzazioni a ottimizzare l'affidabilità del sito e il tempo di attività per una vasta gamma di casi d'uso in tutti i settori aziendali, tra cui:

E-commerce

Per le piattaforme di e-commerce, l'osservabilità della SRE aiuta a creare esperienze utente fluide e affidabilità delle transazioni. I team possono monitorare le prestazioni del sito web, l'elaborazione delle transazioni e le metriche di coinvolgimento degli utenti in tempo reale. Possono anche utilizzare gli strumenti di osservabilità per identificare rallentamenti o interruzioni, aiutare i rivenditori a prevenire l'abbandono dei carrelli e aiutare i tecnici del sito a ottimizzare i carichi dei server e scalare le risorse durante l'alta stagione.

Logistica

L'osservabilità della SRE consente alle aziende di monitorare i tempi di consegna dei pacchi, i volumi delle spedizioni e i livelli di inventario, facilitando il rilevamento rapido delle anomalie per problemi come ritardi nelle spedizioni e scorte insufficienti. Gli strumenti di osservabilità della SRE possono anche monitorare gli indicatori del livello di servizio (SLI), cioè misurazioni quantitative dei comportamenti del sistema associati ai diversi servizi, come le percentuali di successo delle consegne.

Settore bancario

L'osservabilità della SRE consente agli istituti finanziari di monitorare transazioni vitali come bonifici bancari, prelievi bancomat e pagamenti online. Gli strumenti SRE aiutano inoltre le banche a scalare automaticamente i loro siti e sistemi per soddisfare la crescente domanda di servizi finanziari digitali.

Assistenza sanitaria

L'osservabilità della SRE consente agli operatori sanitari di monitorare e analizzare i dati dei pazienti in tempo reale. Ad esempio, il team SRE di un ospedale può implementare un sistema per tracciare i segni vitali in modo che medici e infermieri possano intervenire rapidamente in caso di emergenza. Gli strumenti di osservabilità possono anche monitorare l'infrastruttura globale dell'ospedale, identificando problemi di prestazioni che potrebbero impedire al personale di fornire assistenza ai pazienti della massima qualità.

Soluzioni correlate
Full Stack Observability automatizzata

Identifica e correggi rapidamente l'origine del problema. I dati in tempo reale ad alta fedeltà offrono una visibilità completa degli ambienti dinamici delle applicazioni e dell'infrastruttura.

Maggiori informazioni su Full Stack Observability
Consulenza AIOps

Migliora l'automazione e le operazioni IT con l'AI generativa, allineando tutti gli aspetti della tua infrastruttura IT alle priorità aziendali.

Maggiori informazioni sulla consulenza AIOps
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management è un software di monitoraggio e analisi che fornisce visibilità e informazioni in tempo reale su reti complesse.

Monitora le prestazioni della rete
Fai il passo successivo

Scopri come l'AI per le operazioni IT fornisce gli insight necessari per favorire eccezionali prestazioni di business.

Esplora le soluzioni AIOps Prenota una demo live