L'observability è la capacità di comprendere lo stato interno di un sistema analizzandone gli output esterni, principalmente attraverso dati di telemetria come metriche,eventi, registri e tracce, collettivamente denominati "dati MELT".
L'observability va oltre le soluzioni di monitoraggio tradizionali per fornire insight critici sui sistemi software e sugli ambienti di cloud computing, aiutando i team IT a garantire la disponibilità, ottimizzare le prestazioni e rilevare anomalie.
La maggior parte dei sistemi IT si comporta in modo deterministico, il che rende l'analisi della causa principale abbastanza semplice. Quando un'app fallisce, gli strumenti di observability possono utilizzare i dati MELT per correlare i segnali e individuare i guasti, determinando se si tratta di una perdita di memoria, di un errore di connessione al database o di un timeout dell'API.
Ma i modelli linguistici di grandi dimensioni (LLM) e altre applicazioni di intelligenza artificiale (AI) generativa complicano l'observability. A differenza dei software tradizionali, gli LLM producono output probabilistici, il che significa che input identici possono produrre risposte diverse. Questa mancanza di interpretabilità, ovvero la difficoltà nel tracciare come gli input modellano gli output, può causare problemi agli strumenti di observability convenzionali. Di conseguenza, la risoluzione dei problemi, il debug e il monitoraggio delle prestazioni sono significativamente più complessi nei sistemi di AI generativa.
"L'observability può rilevare se una risposta dell'AI contiene informazioni di identificazione personale (PII), ad esempio, ma non può impedire che ciò accada", spiega Drew Flowers di IBM, Americas Sales Leader per Instana. "Il processo decisionale del modello è ancora una black box".
Questo fenomeno "black box" evidenzia una sfida critica per l'observability degli LLM. Sebbene gli strumenti di observability siano in grado di rilevare i problemi che si sono verificati, non possono prevenirli perché hanno difficoltà con la spiegabilità dell'AI, cioè la capacità di fornire una ragione comprensibile dall'uomo per cui un modello ha preso una decisione specifica o generato un particolare output.
Fino a quando il problema della spiegabilità non sarà risolto, le soluzioni di observability dell'AI dovranno dare priorità agli elementi che possono misurare e analizzare efficacemente. Ciò include una combinazione di dati MELT tradizionali e metriche di observability specifiche per l'AI.
Sebbene le metriche tradizionali non forniscano una visibilità completa sul comportamento del modello, rimangono componenti essenziali dell'observability dell'AI. Le prestazioni di CPU, memoria e rete influiscono direttamente sulla funzionalità del sistema AI e sull'esperienza utente. Possono aiutare le organizzazioni a valutare l'efficienza del workload di AI e se i vincoli dell'infrastruttura influiscono sulle prestazioni del modello e sui tempi di risposta.
Tuttavia, l'observability dell'AI richiede metriche aggiuntive che monitorino qualità specifiche dei modelli AI e degli output, tra cui:
Un token è una singola unità di linguaggio, di solito una parola o una parte di una parola, che un modello AI è in grado di comprendere. Il numero di token che un modello elabora per comprendere un input o produrre un output influisce direttamente sui costi e sulle prestazioni di un'applicazione basata su LLM. Un maggiore consumo di token può aumentare le spese operative e la latenza di risposta.
Le metriche chiave per monitorare l'utilizzo dei token includono:
Queste metriche possono aiutare le organizzazioni a identificare le opportunità di ottimizzazione per ridurre il consumo di token, ad esempio perfezionando i prompt per trasmettere più informazioni con un minor numero di token. Ottimizzando l'utilizzo dei token, le organizzazioni possono mantenere un'elevata qualità di risposta riducendo potenzialmente i costi di inferenza per i workload di machine learning.
A differenza dei software tradizionali, i modelli AI possono modificare gradualmente il loro comportamento man mano che dati reali si evolvono. Questo fenomeno, noto come deriva del modello, può influire in modo significativo sull'affidabilità e sulle prestazioni del sistema AI.
Le metriche chiave per il monitoraggio della deriva del modello includono:
I meccanismi di rilevamento della deriva possono fornire avvisi tempestivi quando la precisione di un modello diminuisce per casi d'uso specifici, consentendo ai team di intervenire prima che il modello interrompa le operazioni aziendali.
Il monitoraggio della qualità dell'output dell'AI è essenziale per mantenere la fiducia, l'affidabilità e la conformità. Le metriche chiave per monitorare la qualità della risposta includono:
Sebbene il monitoraggio di queste metriche possa aiutare a segnalare risposte anomale, gli strumenti di observability non possono spiegare completamente perché si verificano le allucinazioni, né possono determinare automaticamente la correttezza dei contenuti generati dall'AI. Si tratta di sfide cruciali per la fiducia e la governance dell'AI che nessuno ha ancora affrontato appieno.
Garantire l'implementazione etica dell'AI e la conformità alle normative richiede un monitoraggio completo dei contenuti generati dall'AI.
Le metriche chiave per monitorare l'AI responsabile includono:
Le dashboard di visualizzazione in tempo reale con rilevamento automatico delle anomalie possono avvisare i team quando gli output dell'AI si discostano dalle norme previste. Questo approccio proattivo aiuta le organizzazioni ad affrontare i problemi rapidamente, monitorare le prestazioni dell'AI nel tempo e garantire un'implementazione responsabile dell'AI su larga scala.
OpenTelemetry (OTel) si è affermato come framework standard del settore per la raccolta e la trasmissione di dati di telemetria e può anche supportare l'observability dell'AI generativa. Questo progetto open source fornisce un approccio all'observability indipendente dal fornitore, particolarmente utile negli ecosistemi di AI complessi.
Per i provider di AI, OpenTelemetry offre un modo per standardizzare il modo in cui condividono i dati sulle prestazioni senza esporre dettagli del modello proprietario o del codice sorgente. Per le aziende, garantisce che i dati di observability fluiscano in modo coerente attraverso complesse pipeline di AI che possono includere più modelli, varie dipendenze e sistemi di retrieval-augmented generation (RAG).
I vantaggi fondamentali di OpenTelemetry per l'observability della gen AI includono:
Le applicazioni di AI richiedono investimenti significativi, dai costi di licenza dei modelli alle spese infrastrutturali fino alle risorse per gli sviluppatori. Le organizzazioni che rimandano l'observability dell'AI generativa rischiano di sprecare risorse, soprattutto se non riescono a individuare problemi di performance, criticità etiche o implementazioni inefficienti.
"Per l'observability dell'AI, il time to value (TTV) è tutto", afferma Flowers. "Se non riesco a ottenere rapidamente insight, sto sprecando denaro nell'attesa di ottimizzare il mio sistema".
Alcune sfide comuni che rallentano l'adozione dell'observability dell'AI includono:
Per superare queste sfide, le organizzazioni dovrebbero prendere in considerazione soluzioni di observability che supportino:
Le organizzazioni dovrebbero dare priorità alle soluzioni di observability per ottenere insight immediati. Le piattaforme preconfigurate possono ridurre significativamente i tempi di configurazione e accelerare il TTV, consentendo ai team di iniziare a monitorare i sistemi di AI in pochi giorni anziché settimane.
Le principali funzionalità delle soluzioni di observability che consentono una rapida implementazione dell'observability dell'AI includono:
L'analisi manuale di grandi quantità di dati generati da AI può richiedere molto tempo e competenze, spesso con conseguenti ritardi, errori o problemi trascurati. Le soluzioni di observability possono automatizzare questo processo, consentendo ai team di concentrarsi su questioni più urgenti rispetto alla selezione di dati di telemetria non elaborati.
Le principali automazioni nelle soluzioni di observability dell'AI includono:
L'observability non dovrebbe essere un aspetto secondario. Incorporarla nell'intero ciclo di vita dello sviluppo dell'AI consentirà ai team di tutta l'organizzazione di avere una visibilità condivisa sulle prestazioni dei sistemi di AI, consentendo una risoluzione più rapida dei problemi e un processo decisionale più informato.
Per l'osservabilità dell'AI, il TTV non riguarda solo la rapidità con cui gli strumenti di observability possono essere implementati. Si tratta anche della rapidità con cui questi strumenti forniscono insight attuabili che ottimizzano gli investimenti nell'AI e prevengono i tempi di inattività.
I modi principali per integrare l'observability dell'AI nei workflow di sviluppo dell'AI includono:
Con la maturazione dell'observability dell'AI, le organizzazioni stanno passando dal monitoraggio reattivo ad approcci predittivi che anticipano i problemi prima che influiscano sugli utenti o sui risultati aziendali. Per supportare ciò, le soluzioni di observability più avanzate ora incorporano i propri strumenti di AI specializzati per analizzare i modelli nei dati di telemetria e identificare i problemi prima che diventino critici.
" L'AI più preziosa nell'observability è l'AI predittiva e causale, non l'AI generativa", spiega Flowers.
Gli strumenti di observability con funzionalità di AI predittiva e causale possono:
Questo passaggio dall'observability reattiva a quella predittiva rappresenta la prossima frontiera nelle operazioni di AI, consentendo una gestione più proattiva delle applicazioni e delle infrastrutture di AI e garantendo al contempo output coerenti e di alta qualità.
Prendendo spunto dalle sfide e dalle soluzioni esaminate, ecco cinque principi essenziali da tenere a mente nella ricerca della giusta soluzione di observability per le applicazioni di AI generativa:
Sebbene l'observability dell'AI fornisca informazioni critiche sui modelli e sulle anomalie delle prestazioni, non può spiegare completamente i processi decisionali interni dei modelli linguistici di grandi dimensioni. Concentrati sulle metriche misurabili che indicano lo stato di salute e le prestazioni del sistema.
Per ottenere un'observability completa dell'AI generativa è necessario monitorare i modelli di utilizzo dei token, gli indicatori di deriva del modello e le relazioni di risposta rapida, oltre alle metriche tradizionali delle prestazioni dell'infrastruttura, come l'utilizzo della CPU e il consumo di memoria.
Seleziona piattaforme di observability che offrano capacità di implementazione rapida con dashboard preconfigurate e avvisi automatici per ottenere ritorni più rapidi sugli investimenti nell'AI e prevenire costosi problemi operativi.
Integra la strumentazione di observability nelle prime fasi del ciclo di vita dello sviluppo del software per identificare i problemi prima dell'implementazione, stabilire parametri di riferimento per le prestazioni e creare cicli di feedback che migliorino la qualità del sistema di AI.
La standardizzazione su framework di observability aperti aiuta a rendere le strategie di observability a prova di futuro, fornendo al contempo una visibilità end-to-end completa su sistemi di AI complessi ed evitando la dipendenza da un singolo fornitore.
Inoltre, ricorda che adottare OpenTelemetry non significa dover scegliere una soluzione di observability open source. Molte piattaforme commerciali, che la tua organizzazione potrebbe già utilizzare, supportano pienamente OTel, offrendo al contempo funzionalità aggiuntive di livello aziendale.
Le soluzioni commerciali di observability possono fornire un'observability completamente gestita con insight basati su AI e supporto continuo, riducendo al minimo la configurazione e la manutenzione manuali e migliorando il TTV.
"Se sono lì a creare dashboard, avvisi, contesto e dati, mi concentro letteralmente solo sulla creazione degli strumenti. Non sto ottimizzando il sistema. "Non sostengo le iniziative dei clienti", afferma Flowers. "Fondamentalmente, quello che faccio non mi aiuta generare profitti".
Con le soluzioni di observability commerciali, gran parte di questa configurazione può essere automatizzata o preconfigurata. I team possono invece concentrarsi sull'ottimizzazione delle prestazioni e dell'affidabilità dei loro modelli di AI generativa, massimizzando sia gli investimenti nell'observability che l'impatto reale delle applicazioni di AI.
Identifica e correggi rapidamente l'origine del problema. I dati in tempo reale ad alta fedeltà offrono una visibilità completa degli ambienti dinamici delle applicazioni e dell'infrastruttura.
Migliora l'automazione e le operazioni IT con l'AI generativa, allineando tutti gli aspetti della tua infrastruttura IT alle priorità aziendali.
IBM SevOne Network Performance Management è un software di monitoraggio e analisi che fornisce visibilità e informazioni in tempo reale su reti complesse.