Come l'observability si sta adattando all'AI generativa

Autori

Staff Writer

IBM Think

L'observability è la capacità di comprendere lo stato interno di un sistema analizzandone gli output esterni, principalmente attraverso dati di telemetria come metriche,eventi, registri e tracce, collettivamente denominati "dati MELT".

L'observability va oltre le soluzioni di monitoraggio tradizionali per fornire insight critici sui sistemi software e sugli ambienti di cloud computing, aiutando i team IT a garantire la disponibilità, ottimizzare le prestazioni e rilevare anomalie.

La maggior parte dei sistemi IT si comporta in modo deterministico, il che rende l'analisi della causa principale abbastanza semplice. Quando un'app fallisce, gli strumenti di observability possono utilizzare i dati MELT per correlare i segnali e individuare i guasti, determinando se si tratta di una perdita di memoria, di un errore di connessione al database o di un timeout dell'API.

Ma i modelli linguistici di grandi dimensioni (LLM) e altre applicazioni di intelligenza artificiale (AI) generativa complicano l'observability. A differenza dei software tradizionali, gli LLM producono output probabilistici, il che significa che input identici possono produrre risposte diverse. Questa mancanza di interpretabilità, ovvero la difficoltà nel tracciare come gli input modellano gli output, può causare problemi agli strumenti di observability convenzionali. Di conseguenza, la risoluzione dei problemi, il debug e il monitoraggio delle prestazioni sono significativamente più complessi nei sistemi di AI generativa.

"L'observability può rilevare se una risposta dell'AI contiene informazioni di identificazione personale (PII), ad esempio, ma non può impedire che ciò accada", spiega Drew Flowers di IBM, Americas Sales Leader per Instana. "Il processo decisionale del modello è ancora una black box".

Questo fenomeno "black box" evidenzia una sfida critica per l'observability degli LLM. Sebbene gli strumenti di observability siano in grado di rilevare i problemi che si sono verificati, non possono prevenirli perché hanno difficoltà con la spiegabilità dell'AI, cioè la capacità di fornire una ragione comprensibile dall'uomo per cui un modello ha preso una decisione specifica o generato un particolare output.

Fino a quando il problema della spiegabilità non sarà risolto, le soluzioni di observability dell'AI dovranno dare priorità agli elementi che possono misurare e analizzare efficacemente. Ciò include una combinazione di dati MELT tradizionali e metriche di observability specifiche per l'AI.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Le principali metriche per l'observability della gen AI

Sebbene le metriche tradizionali non forniscano una visibilità completa sul comportamento del modello, rimangono componenti essenziali dell'observability dell'AI. Le prestazioni di CPU, memoria e rete influiscono direttamente sulla funzionalità del sistema AI e sull'esperienza utente. Possono aiutare le organizzazioni a valutare l'efficienza del workload di AI e se i vincoli dell'infrastruttura influiscono sulle prestazioni del modello e sui tempi di risposta.

Tuttavia, l'observability dell'AI richiede metriche aggiuntive che monitorino qualità specifiche dei modelli AI e degli output, tra cui:

Utilizzo dei token
Deviazione del modello
Qualità delle risposte
Monitoraggio dell'AI responsabile

Utilizzo dei token

Un token è una singola unità di linguaggio, di solito una parola o una parte di una parola, che un modello AI è in grado di comprendere. Il numero di token che un modello elabora per comprendere un input o produrre un output influisce direttamente sui costi e sulle prestazioni di un'applicazione basata su LLM. Un maggiore consumo di token può aumentare le spese operative e la latenza di risposta.

Le metriche chiave per monitorare l'utilizzo dei token includono:

Tassi e costi di consumo dei token, che possono aiutare a quantificare le spese operative.
Efficienza dei token, una misura dell'efficacia con cui ogni token viene utilizzato in un'interazione. Le interazioni efficienti producono output di alta qualità riducendo al minimo il numero di token consumati.
Modelli di utilizzo dei token in diversi tipi di prompt, che possono aiutare a identificare gli usi dei modelli che richiedono molte risorse.

Queste metriche possono aiutare le organizzazioni a identificare le opportunità di ottimizzazione per ridurre il consumo di token, ad esempio perfezionando i prompt per trasmettere più informazioni con un minor numero di token. Ottimizzando l'utilizzo dei token, le organizzazioni possono mantenere un'elevata qualità di risposta riducendo potenzialmente i costi di inferenza per i workload di machine learning.

Deriva del modello

A differenza dei software tradizionali, i modelli AI possono modificare gradualmente il loro comportamento man mano che dati reali si evolvono. Questo fenomeno, noto come deriva del modello, può influire in modo significativo sull'affidabilità e sulle prestazioni del sistema AI.

Le metriche chiave per il monitoraggio della deriva del modello includono:

Cambiamenti nei modelli di risposta nel tempo per identificare eventuali incongruenze.
Variazioni nella qualità o nella pertinenza dell'output che potrebbero indicare un calo delle prestazioni del modello.
Variazioni nella latenza o nell'utilizzo delle risorse che potrebbero segnalare inefficienze computazionali.

I meccanismi di rilevamento della deriva possono fornire avvisi tempestivi quando la precisione di un modello diminuisce per casi d'uso specifici, consentendo ai team di intervenire prima che il modello interrompa le operazioni aziendali.

Qualità delle risposte

Il monitoraggio della qualità dell'output dell'AI è essenziale per mantenere la fiducia, l'affidabilità e la conformità. Le metriche chiave per monitorare la qualità della risposta includono:

Frequenza delle allucinazioni in diversi tipi di prompt per identificare possibili fattori scatenanti di output imprecisi.
Accuratezza fattuale delle risposte generate, anche se ciò richiede spesso una convalida esterna e una supervisione umana.
Coerenza degli output per input simili per verificare la stabilità del modello nel tempo.
Rilevanza delle risposte alle richieste degli utenti per valutare in che modo il modello si allinea alle intenzioni dell'utente.
Il monitoraggio della latenza è fondamentale per le applicazioni AI rivolte all'utente, dove la velocità e la precisione richiedono spesso dei compromessi. Il monitoraggio dei tempi di risposta tra diversi tipi di prompt può aiutare le organizzazioni a individuare i colli di bottiglia nelle prestazioni e le inefficienze computazionali.

Sebbene il monitoraggio di queste metriche possa aiutare a segnalare risposte anomale, gli strumenti di observability non possono spiegare completamente perché si verificano le allucinazioni, né possono determinare automaticamente la correttezza dei contenuti generati dall'AI. Si tratta di sfide cruciali per la fiducia e la governance dell'AI che nessuno ha ancora affrontato appieno.

Monitoraggio dell'AI responsabile

Garantire l'implementazione etica dell'AI e la conformità alle normative richiede un monitoraggio completo dei contenuti generati dall'AI.

Le metriche chiave per monitorare l'AI responsabile includono:

Presenza di distorsioni nelle risposte per garantire equità nelle interazioni degli utenti.
Presenza di informazioni di identificazione personale nei contenuti generati per proteggere le informazioni sensibili.
Conformità alle linee guida sull'AI etica per allinearsi agli standard e alle normative del settore.
Adeguatezza dei contenuti per promuovere la brand reputation e la fiducia degli utenti.

Le dashboard di visualizzazione in tempo reale con rilevamento automatico delle anomalie possono avvisare i team quando gli output dell'AI si discostano dalle norme previste. Questo approccio proattivo aiuta le organizzazioni ad affrontare i problemi rapidamente, monitorare le prestazioni dell'AI nel tempo e garantire un'implementazione responsabile dell'AI su larga scala.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

OpenTelemetry e observability dell'AI

OpenTelemetry (OTel) si è affermato come framework standard del settore per la raccolta e la trasmissione di dati di telemetria e può anche supportare l'observability dell'AI generativa. Questo progetto open source fornisce un approccio all'observability indipendente dal fornitore, particolarmente utile negli ecosistemi di AI complessi.

Per i provider di AI, OpenTelemetry offre un modo per standardizzare il modo in cui condividono i dati sulle prestazioni senza esporre dettagli del modello proprietario o del codice sorgente. Per le aziende, garantisce che i dati di observability fluiscano in modo coerente attraverso complesse pipeline di AI che possono includere più modelli, varie dipendenze e sistemi di retrieval-augmented generation (RAG).

I vantaggi fondamentali di OpenTelemetry per l'observability della gen AI includono:

Indipendenza dai fornitori: le organizzazioni evitano di vincolarsi a piattaforme di observability specifiche, rimanendo flessibili man mano che le tecnologie di AI si evolvono.
Visibilità end-to-end: i dati di telemetria fluiscono in modo coerente da tutti i componenti dell'infrastruttura dell'applicazione AI.
Adattabilità ai cambiamenti futuri: con l'evoluzione delle tecnologie di AI, lo standard OpenTelemetry si adatta, garantendo che le strategie di observability rimangano pertinenti.
Integrazione dell'ecosistema: gli standard aperti consentono l'observability tra soluzioni AI multivendor e modelli di distribuzione ibridi.
Standardizzazione dei metadati: acquisizione di metadati essenziali, tra cui i timestamp di addestramento, le origini dei set di dati e gli input del modello, per fornire un contesto fondamentale per comprendere il comportamento del sistema di AI.

Sblocca il potere di IBM® Instana Observability

IBM Instana Observability può aiutarti a raggiungere un ROI del 219% e a ridurre del 90% il tempo che gli sviluppatori dedicano alla risoluzione dei problemi.

La velocità è tutto

Le applicazioni di AI richiedono investimenti significativi, dai costi di licenza dei modelli alle spese infrastrutturali fino alle risorse per gli sviluppatori. Le organizzazioni che rimandano l'observability dell'AI generativa rischiano di sprecare risorse, soprattutto se non riescono a individuare problemi di performance, criticità etiche o implementazioni inefficienti.

"Per l'observability dell'AI, il time to value (TTV) è tutto", afferma Flowers. "Se non riesco a ottenere rapidamente insight, sto sprecando denaro nell'attesa di ottimizzare il mio sistema".

Alcune sfide comuni che rallentano l'adozione dell'observability dell'AI includono:

Dashboard personalizzate complesse che richiedono impostazioni e configurazioni complete.
Un volume di dati eccessivo che crea colli di bottiglia nell'elaborazione.
Mancanza di automazione nella configurazione degli avvisi e nella generazione di report.
Difficoltà di integrazione tra piattaforme di AI e strumenti di observability.
Lacune nelle competenze nell'interpretazione dei dati di telemetria specifici dell'AI.

Per superare queste sfide, le organizzazioni dovrebbero prendere in considerazione soluzioni di observability che supportino:

Implementazione rapida
Insight automatizzati
Workflow di AI integrati

Implementazione rapida

Le organizzazioni dovrebbero dare priorità alle soluzioni di observability per ottenere insight immediati. Le piattaforme preconfigurate possono ridurre significativamente i tempi di configurazione e accelerare il TTV, consentendo ai team di iniziare a monitorare i sistemi di AI in pochi giorni anziché settimane.

Le principali funzionalità delle soluzioni di observability che consentono una rapida implementazione dell'observability dell'AI includono:

Modelli di dashboard specifici per l'AI pronti all'uso con una personalizzazione minima.
Strumentazione automatizzata in grado di iniziare immediatamente a raccogliere dati da framework e piattaforme di AI comuni.
Connettori predefiniti per i più diffusi provider di LLM e infrastrutture di AI che eliminano la necessità di attività di integrazione personalizzate.
Guide rapide all'implementazione per aiutare i team a diventare operativi con approcci comprovati per i casi d'uso comuni dell'AI.

Insight automatizzati

L'analisi manuale di grandi quantità di dati generati da AI può richiedere molto tempo e competenze, spesso con conseguenti ritardi, errori o problemi trascurati. Le soluzioni di observability possono automatizzare questo processo, consentendo ai team di concentrarsi su questioni più urgenti rispetto alla selezione di dati di telemetria non elaborati.

Le principali automazioni nelle soluzioni di observability dell'AI includono:

Utilizzo del rilevamento delle anomalie per identificare irregolarità nel comportamento e nelle prestazioni dell'AI senza richiedere la configurazione manuale della soglia.
Generazione di raccomandazioni fruibili per l'ottimizzazione del sistema anziché limitarsi a identificare i problemi.
Traduzione delle questioni tecniche in spiegazioni rilevanti per il business.
Definizione delle priorità agli avvisi in base all'impatto per evitare lo stress da avvisi e ridurre il tempo di inattività.

Workflow di AI integrati

L'observability non dovrebbe essere un aspetto secondario. Incorporarla nell'intero ciclo di vita dello sviluppo dell'AI consentirà ai team di tutta l'organizzazione di avere una visibilità condivisa sulle prestazioni dei sistemi di AI, consentendo una risoluzione più rapida dei problemi e un processo decisionale più informato.

Per l'osservabilità dell'AI, il TTV non riguarda solo la rapidità con cui gli strumenti di observability possono essere implementati. Si tratta anche della rapidità con cui questi strumenti forniscono insight attuabili che ottimizzano gli investimenti nell'AI e prevengono i tempi di inattività.

I modi principali per integrare l'observability dell'AI nei workflow di sviluppo dell'AI includono:

Sviluppare l'observability nelle pipeline CI/CD per le applicazioni AI.
Testare la strumentazione di observability durante la fase di pre-produzione.
Acquisire metriche in fase di sviluppo per consentire il monitoraggio della produzione.

Dal monitoraggio alla previsione

Con la maturazione dell'observability dell'AI, le organizzazioni stanno passando dal monitoraggio reattivo ad approcci predittivi che anticipano i problemi prima che influiscano sugli utenti o sui risultati aziendali. Per supportare ciò, le soluzioni di observability più avanzate ora incorporano i propri strumenti di AI specializzati per analizzare i modelli nei dati di telemetria e identificare i problemi prima che diventino critici.

" L'AI più preziosa nell'observability è l'AI predittiva e causale, non l'AI generativa", spiega Flowers.

Gli strumenti di observability con funzionalità di AI predittiva e causale possono:

Prevedere quando la deriva del modello raggiungerà livelli problematici.
Prevedere i requisiti delle risorse in base ai modelli di utilizzo dell'AI.
Identificare i modelli di prompt che possono produrre allucinazioni.
Rilevare sottili segnali di distorsione prima che diventino significativi.

Questo passaggio dall'observability reattiva a quella predittiva rappresenta la prossima frontiera nelle operazioni di AI, consentendo una gestione più proattiva delle applicazioni e delle infrastrutture di AI e garantendo al contempo output coerenti e di alta qualità.

Trovare la giusta soluzione di observability della gen AI

Prendendo spunto dalle sfide e dalle soluzioni esaminate, ecco cinque principi essenziali da tenere a mente nella ricerca della giusta soluzione di observability per le applicazioni di AI generativa:

Riconoscere i limiti intrinseci

Sebbene l'observability dell'AI fornisca informazioni critiche sui modelli e sulle anomalie delle prestazioni, non può spiegare completamente i processi decisionali interni dei modelli linguistici di grandi dimensioni. Concentrati sulle metriche misurabili che indicano lo stato di salute e le prestazioni del sistema.

Guarda oltre le metriche tradizionali

Per ottenere un'observability completa dell'AI generativa è necessario monitorare i modelli di utilizzo dei token, gli indicatori di deriva del modello e le relazioni di risposta rapida, oltre alle metriche tradizionali delle prestazioni dell'infrastruttura, come l'utilizzo della CPU e il consumo di memoria.

Concentrarsi sul time to value

Seleziona piattaforme di observability che offrano capacità di implementazione rapida con dashboard preconfigurate e avvisi automatici per ottenere ritorni più rapidi sugli investimenti nell'AI e prevenire costosi problemi operativi.

Integrare l'observability nello sviluppo software

Integra la strumentazione di observability nelle prime fasi del ciclo di vita dello sviluppo del software per identificare i problemi prima dell'implementazione, stabilire parametri di riferimento per le prestazioni e creare cicli di feedback che migliorino la qualità del sistema di AI.

Adotta OpenTelemetry

La standardizzazione su framework di observability aperti aiuta a rendere le strategie di observability a prova di futuro, fornendo al contempo una visibilità end-to-end completa su sistemi di AI complessi ed evitando la dipendenza da un singolo fornitore.

Inoltre, ricorda che adottare OpenTelemetry non significa dover scegliere una soluzione di observability open source. Molte piattaforme commerciali, che la tua organizzazione potrebbe già utilizzare, supportano pienamente OTel, offrendo al contempo funzionalità aggiuntive di livello aziendale.

Le soluzioni commerciali di observability possono fornire un'observability completamente gestita con insight basati su AI e supporto continuo, riducendo al minimo la configurazione e la manutenzione manuali e migliorando il TTV.

"Se sono lì a creare dashboard, avvisi, contesto e dati, mi concentro letteralmente solo sulla creazione degli strumenti. Non sto ottimizzando il sistema. "Non sostengo le iniziative dei clienti", afferma Flowers. "Fondamentalmente, quello che faccio non mi aiuta generare profitti".

Con le soluzioni di observability commerciali, gran parte di questa configurazione può essere automatizzata o preconfigurata. I team possono invece concentrarsi sull'ottimizzazione delle prestazioni e dell'affidabilità dei loro modelli di AI generativa, massimizzando sia gli investimenti nell'observability che l'impatto reale delle applicazioni di AI.

Sbloccare il potere di IBM Instana Observability

IBM Instana Observability può aiutarti a raggiungere un ROI del 219% e a ridurre del 90% il tempo che gli sviluppatori dedicano alla risoluzione dei problemi

Come l'observability si sta adattando all'AI generativa

Autori

Le ultime notizie e insight sull'AI

Le principali metriche per l'observability della gen AI

Utilizzo dei token

Deriva del modello

Qualità delle risposte

Monitoraggio dell'AI responsabile

Decoding AI: Weekly News Roundup

OpenTelemetry e observability dell'AI

Sblocca il potere di IBM® Instana Observability

La velocità è tutto

Implementazione rapida

Insight automatizzati

Workflow di AI integrati

Dal monitoraggio alla previsione

Trovare la giusta soluzione di observability della gen AI

Share

Risorse

Le ultime notizie e insight sull'AI