Cos'è l'observability nelle AIOps (AIOps observability)?

By Derek Robertson , Matthew Kosinski

Definizione di AIOps observability

L'AIOps observability è la pratica di incorporare intelligenza artificiale e machine learning nella strategia di observability di un'organizzazione per automatizzare le operazioni IT, come la raccolta e l'analisi dei dati telemetrici.

AIOps è l'applicazione di funzionalità di intelligenza artificiale come l'elaborazione del linguaggio naturale e i modelli di machine learning per automatizzare la gestione dei servizi IT e i workflow operativi. L'observability è la capacità di comprendere lo stato interno o la condizione di un sistema complesso basandosi unicamente sulla conoscenza dei suoi output esterni, in particolare della sua telemetria. Combinare queste pratiche fornisce strumenti potenti per ottimizzare, risolvere problemi e automatizzare in complessi ambienti IT multicloud .

L'AIOps observability utilizza tecniche di AI e ML per analizzare i log, le metriche e le tracce di un sistema ed eseguire operazioni tra cui:

Rilevamento delle anomalie, in cui gli algoritmi analizzano grandi volumi di dati per determinare le prestazioni di base del sistema e identificare le deviazioni.
L'analisi della causa principale (RCA), che spostare oltre la correlazione per identificare insight attuabili sui problemi di sistema.
Analytics predittiva, che aiuta a prevedere i futuri workload del sistema e a scalare le risorse di conseguenza.

Per combinare AIOps e observability, la maggior parte delle organizzazioni utilizza piattaforme di observability con funzionalità di AI integrate. Le piattaforme moderne di observability spesso includono caratteristiche AI generativa , come interfacce di testo che possono rispondere a domande sullo stato della rete o strumenti di visualizzazione dei dati in tempo reale integrati nel dashboard della piattaforma. I team IT possono utilizzare questi strumenti di gen AI, insieme agli strumenti di correzione automatizzati basati sull'AI della piattaforma di observability, per prevedere i tempi di inattività, aumentare l'efficienza operativa e migliorare le prestazioni delle applicazioni.

Ecco un esempio di come le soluzioni AIOps possano essere utilizzate nell'observability. Supponiamo che una piattaforma di observability emerga una correlazione tra un afflusso improvviso di avvisi sul rallentamento delle applicazioni e la latenza in un router principale.

La piattaforma, utilizzando una base di riferimento consolidata del comportamento della rete, è in grado di identificare attività anomale che hanno preceduto la latenza, ad esempio una modifica non pianificata alla configurazione di quel router. Successivamente, può eseguire un'analisi automatica della causa principale per identificare come, quando e dove è stata effettuata la modifica. Dopodiché, la piattaforma può consultare workflow pre-approvati per applicare una correzione (come riportare il firmware del router a una versione precedente). Infine, può presentare al team IT un report sugli incidenti, aiutando a prevenire ulteriori interruzioni.

L'AI generativa, le operazioni di hybrid cloud e l'observability sono profondamente intrecciate. Un report del 2025 della società di ricerca Gartner ¹ descrive l'observability come una capacità chiave delle operazioni cloud (cloud operations) basate sull'AI generativa. Secondo un report del 2025 di S&P Global Market Intelligence,²il 71% delle organizzazioni che utilizzano soluzioni di observability stanno utilizzando le funzionalità di AI, un aumento del 26% rispetto al 2024.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Come funziona l'AIOps observability?

L'observability AIOps funziona raccogliendo dati tradizionali di observability come log, tracce e metriche. Successivamente utilizza AI e machine learning per eseguire funzioni fondamentali di observability con questi dati, come l'analisi della causa principale e il rilevamento delle anomalie, e per stabilire workflow automatizzati per ottimizzare l'infrastruttura IT.

Dati fondamentali

L'AIOps observability si basa sui tre pilastri tradizionali dell'observability: log, tracce e metriche.

I log sono record granulari, con data e ora, completi e immutabili, degli eventi dell'applicazione.
Le tracce registrano il percorso end-to-end di ogni richiesta dell'utente, dall'interfaccia utente, attraverso l'intera architettura, fino all'utente.
Le metriche sono misure fondamentali dello stato di salute delle applicazioni e del sistema nel tempo, come l'uso della CPU e le misurazioni della latenza.

Funzionalità di AI e ML

L'uso di potenti funzionalità di intelligenza artificiale e machine learning differenzia l'AIOps observability dalla observability tradizionale. L'observability AIOps prevede l'utilizzo di questi strumenti per eseguire analisi della causa principale, rilevamento di anomalie e analytics predittiva, tra le altre funzionalità.

L’analisi delle cause principali è il processo di gestione della qualità tramite il quale un’organizzazione cerca la radice di un problema, di un guasto o di un incidente. Questa analisi è spesso arricchita dall'AI, che può identificare le cause principali dei problemi unendo i dati di observability. Può quindi dimostrare come e perché determinate entità sono state identificate come probabile causa del problema, consentendo ai professionisti IT di identificarle e apportare correzioni.

Rilevamento delle anomalie è l'identificazione di punti dati che si discostano da ciò che è usuale, standard o previsto, rendendoli incoerenti con il resto di un set di dati. Le funzionalità di AI e ML possono identificare automaticamente i cambiamenti imprevisti nel comportamento normale di un set di dati utilizzando la telemetria raccolta dagli strumenti di observability per segnalare le deviazioni dalla linea di base. Queste deviazioni aiutano a rilevare problemi nelle prestazioni delle applicazioni, nella cybersecurity e nelle piattaforme di ecommerce, tra gli altri usi.

L'analytics predittiva è la pratica di fare previsioni sugli esiti futuri utilizzando dati storici combinati con la modellazione statistica, tecniche di data mining e machine learning. Nel contesto di AIOps observability, i modelli AI possono utilizzare la telemetria per prevedere i workload futuri e scalare le risorse di rete di conseguenza, riducendo la latenza e migliorando l'esperienza dell'utente.

Automazione dei sistemi IT

Quando l'observability viene combinata con le funzionalità di AIOps, ML e automazione, i team IT possono prevedere i problemi in base agli output di sistema e risolverli con un intervento umano minimo.

Il software AIOps può utilizzare l'analisi della causa principale, il rilevamento di anomalie, l'analytics predittiva e altre funzionalità di AI e ML per velocizzare la risoluzione dei problemi. Una risoluzione più rapida dei problemi aiuta a prevenire interruzioni future aumentando le prestazioni del sistema e il ritmo di risoluzione degli incidenti. Può inoltre consentire agli ingegneri DevOps di dedicarsi ad altre attività critiche.

Una volta implementata, l'AIOps observability stabilisce una sorta di "ciclo" vantaggioso. La marea di dati telemetrici generati da un sistema diventa una risorsa che i professionisti IT, con l'aiuto delle capacità di automazione della piattaforma, possono utilizzare per individuare i punti deboli e sviluppare automaticamente le correzioni.

Ad esempio, una piattaforma di observability con funzionalità AIOps potrebbe notare, tramite metriche correlate, che l'utilizzo della CPU all'interno di un cluster ha superato la soglia fissata dall'organizzazione, aumentando la latenza.

Dopo aver identificato che il problema deriva da un microservizio sovraccarico, l'AI potrebbe suggerire alla rete di scalare orizzontalmente aumentando il numero di istanze del server. Può quindi impostare una regola per eseguire automaticamente queste azioni ogni volta che il microservizio in questione viene tassato e tornare indietro quando il traffico torna alla normalità, evitando il collo di bottiglia in futuro.

Benefici dell'osservabilità AIOps

L'AIOps observability può migliorare il tempo medio di riparazione (MTTR) di un'organizzazione, l'efficienza del suo workflow DevOps e le sue pratiche di sicurezza.

Tempo di ripristino ridotto

L'observability AIOps può ridurre notevolmente i tempi di recupero e riparazione accelerando l'analisi della causa principale.

L'analisi automatizzata può fare la differenza tra il triage di un incidente per ore e la risoluzione di un problema imminente prima che si verifichi, riducendo i tempi di inattività e liberando i team DevOps per altri compiti.

DevOps più efficiente

L'AIOps observability può rendere DevOps più efficiente identificando opportunità per semplificare e automatizzare le attività amministrative.

Ad esempio, supponiamo che una piattaforma di AIOps identifichi, tramite analisi della causa principale, che una certa cache deve essere cancellata prima che un'applicazione connessa possa funzionare correttamente. I site reliability engineer possono utilizzare queste informazioni per creare un workflow automatizzato che rileva la condizione in tempo reale e cancella automaticamente la cache quando raggiunge un certo volume. La piattaforma AIOps è inoltre in grado di generare una visualizzazione delle aree della rete maggiormente a rischio di congestione simile. Questa visualizzazione può aiutare il team DevOps e altri a prendere decisioni più informate nella stesura di policy a livello di organizzazione.

Sicurezza e conformità

Alcune piattaforme di observability con funzionalità di AI possono eseguire automaticamente valutazioni del rischio, scansionare sistemi o malware e generare tracce di audit e report. Quando si verificano incidenti, le piattaforme basate sull'AI possono utilizzare dati telemetrici rilevanti per identificare automaticamente i vettori di attacco, valutare l'impatto e risolvere le vulnerabilità più rapidamente rispetto alla risposta agli incidenti tradizionale.

AIOps può anche supportare i requisiti di conformità compilando e mantenendo automaticamente audit trail dettagliati dell'accesso al sistema e dei flussi di dati.

IBM DevOps

Cos'è DevOps?

Andrea Crawford spiega cos'è DevOps, il suo valore e in che modo le pratiche e gli strumenti DevOps ti aiutano a spostare le tue app nell'intera delivery pipeline, dall'ideazione alla produzione. Guidato dai principali leader di pensiero IBM, il curriculum è progettato con lo scopo di aiutare i leader aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti nell'AI che possono promuovere la crescita.

Esplora DevOps

Casi d'uso dell'AIOps observability

Gli amministratori possono utilizzare i dati di telemetria raccolti tramite AIOps observability per sopprimere allerte eccessive o irrilevanti, pianificare la capacità organizzativa e prevenire il degrado delle prestazioni prima che inizi.

Soppressione degli incidenti

Un numero eccessivo di avvisi può causare stress da avvisi, uno stato di esaurimento mentale e operativo causato da un numero esagerato di avvisi che sono di bassa priorità, falsi positivi o altrimenti non attuabili.

Le piattaforme di observability basate sull'AI possono analizzare grandi volumi di avvisi utilizzando un sistema di triage guidato dal ML. Questo triage può ridurre significativamente il lavoro manuale e i tassi di errore identificando i modelli, riducendo i duplicati e collegando gli avvisi correlati per alleggerire il carico di lavoro umano.

Pianificazione della capacità

La pianificazione della capacità è il processo strategico che esamina la capacità di produzione e le risorse di cui un'organizzazione necessita per soddisfare la domanda attuale e futura. L'AIOps observability può migliorare questo processo alimentando le metriche di prestazioni delle applicazioni e altri dati di telemetria negli algoritmi predittivi. Alcune piattaforme di observability abilitate dall'AI possono anche attivare workflow per espandere e contrarre la capacità in base alle condizioni della rete.

Degrado delle prestazioni

L'AIOps observability aiuta a prevenire il degrado delle prestazioni, ovvero l'entropia naturale di una rete quando vengono applicate nuove patch, applicazioni e configurazioni. Elaborando i grandi volumi di dati prodotti da una rete e stabilendo un comportamento di base, può avvisare proattivamente i team IT quando un cambiamento potrebbe causare un problema. Se riceve il playbook appropriato, può anche agire automaticamente per prevenire il problema prima che si verifichi.

Observability e AI generativa

Le caratteristiche di AI generativa sono sempre più importanti per AIOps e observability, con molti strumenti che includono assistenti chatbot in grado di fornire feedback diretto in linguaggio naturale e risoluzione dei problemi agli ingegneri.

Data la vasta portata dei dati di telemetria raccolti dalle piattaforme di observability e delle funzionalità basate sull'AI delle piattaforme, un'interfaccia di AI generativa semplificata consente agli ingegneri dell'affidabilità del sito di trovare rapidamente e direttamente le risposte a una domanda come "Perché il servizio è rallentato per gli utenti in Europa?"

Le caratteristiche di AI generativa aiutano anche a scrivere riassunti semplici degli eventi di rete per gli amministratori e a creare visualizzazioni dei dati sullo stato di salute della rete e sulla correlazione degli eventi.

Autore

Derek Robertson

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Fornire ai team di piattaforma gli strumenti per utilizzare al meglio il cloud

Scopri come i team responsabili della piattaforma possono standardizzare i workflow e unificare il security lifecycle management e della sicurezza con un approccio platform-as-a-product.

Risorse

Accelera l'innovazione con una base di hybrid cloud sicura

Un framework per semplificare le operazioni hybrid cloud, garantendo sicurezza e governance coerenti.

Accelera l'innovazione su larga scala con una piattaforma cloud unificata

Scopri come i team di ingegneria della piattaforma scalano l'infrastruttura con workflow automatizzati e controllo centralizzato.

Migliora le prestazioni delle applicazioni negli ambienti Kubernetes

Impara come ottenere visibilità, rafforzare la resilienza e semplificare la complessità di Kubernetes con l’observability automatizzata.

Ottimizza le prestazioni aziendali con l'analytics basata su AI

Registrati ora per scoprire come l'analytics avanzata basata su AI può sbloccare nuove opportunità di crescita e innovazione per la tua azienda. Accedi agli insight degli esperti ed esplora come le soluzioni di AI possono migliorare l’efficienza operativa, ottimizzare le risorse e generare risultati aziendali misurabili.

Modernizza le applicazioni mainframe con modelli di hybrid cloud

Esplora l’ultima pubblicazione IBM Redbooks sulla modernizzazione del mainframe per gli ambienti hybrid cloud. Scopri strategie attuabili, soluzioni architetturali e tecniche di integrazione per favorire agilità, innovazione e successo aziendale.

Full Stack Observability per i team DevOps

Garantisci affidabilità e velocità con l'observability basata su AI. Questa guida di IBM spiega come ottenere visibilità end-to-end, accelerare l’analisi delle cause principali e risolvere i problemi prima che abbiano un impatto sugli utenti.

Lo stato della preparazione all’AI

Abbiamo analizzato perché alcune organizzazioni sono preparate sia alla disruption sia al potenziale dell’AI. Scopri cosa hanno in comune queste aziende AI-ready.

Soluzioni correlate

IBM Instana Observability

Sfrutta la potenza dell'AI e dell'automazione per risolvere in modo proattivo i problemi in tutto lo stack di applicazioni.

Esplora IBM Instana Observability

Soluzioni IBM Observability

Aumenta al massimo la resilienza operativa e migliora lo stato di salute delle applicazioni cloud-native con gli strumenti di observability basati su AI.

Scopri le soluzioni IBM Observability

IBM Consulting AIOps

Migliora l'automazione e le operazioni IT con l'AI generativa, allineando tutti gli aspetti della tua infrastruttura IT alle priorità aziendali.

Esplora IBM Consulting AIOps

Fasi successive

Scopri come IBM Instana offre monitoraggio delle prestazioni delle applicazioni in tempo reale e insight basati su AI, disponibili sia SaaS che self-hosted.

Note a piè di pagina

^1.“Hype Cycle for IT Operations, 2025,” Gartner, 28 July 2025
^2.“The AI-driven paradigm shift in observability: From reactive monitoring to intelligent automation,” Mike Fratto, 451 Research, 10 ottobre 2025