Cos'è l'osservabilità degli LLM?

Autori

Data Scientist

Lead AI Advocate

PMM Intern

Osservabilità degli LLM definita

L'osservabilità degli LLM è il processo di raccolta di dati in tempo reale da modelli o applicazioni di LLM riguardanti le sue caratteristiche comportamentali, prestazionali e di output. Poiché gli LLM sono complessi, possiamo osservarli in base ai loro output.¹

Una buona soluzione di osservabilità consiste nella raccolta di metriche, tracce e log rilevanti da applicazioni LLM, application programming interface (API) e workflow, permettendo agli sviluppatori di monitorare, debuggare e ottimizzare le applicazioni in modo efficiente, proattivo e su larga scala.

I modelli linguistici di grandi dimensioni (LLM) e le piattaforme di AI generativa (gen AI) come IBM® watsonx.ai e una crescente varietà di varianti open source stanno prendendo piede in diversi settori. A causa di questo aumento, è diventato più importante che mai mantenere l'affidabilità, la sicurezza e l'efficienza dei modelli e delle applicazioni dopo l'adozione. È in questo spazio che l'osservabilità degli LLM diventa essenziale.

Newsletter di settore

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Perché è importante l'osservabilità degli LLM?

Monitoraggio della qualità e degli output degli LLM:
La valutazione continua degli output prodotti dagli LLM può essere classificata in diverse dimensioni di qualità che sono utili e applicabili agli utenti. Queste dimensioni includono correttezza, rilevanza, coerenza e coerenza fattuale rispetto a metriche di valutazione definite. Il controllo periodico di queste dimensioni delle prestazioni aiuta a prevenire ritardi o problemi che potrebbero far perdere agli utenti la fiducia nel programma e rendere difficile l'utilizzo efficiente degli LLM.
Analisi rapida della causa principale e risoluzione dei problemi:
Quando si verifica un guasto significativo o un comportamento imprevisto per un'applicazione, uno strumento di osservabilità può fornire insight utili per identificare rapidamente la causa principale (o le cause) del problema in questione. Questo livello di telemetria a grana fine permetterà generalmente agli stakeholder di isolare i problemi con livelli di fiducia più elevati in molte aree. Ad esempio, dati di formazione corrotti, messa a punto mal progettata, chiamate API esterne non riuscite o interruzioni del back-end di provider di terze parti non funzionanti.
Ottimizzazione di applicazioni, coinvolgimento degli utenti ed efficienza del sistema:
L'osservabilità degli LLM consente di migliorare le prestazioni e il coinvolgimento degli utenti attraverso il monitoraggio continuo dell'intero stack. Metriche chiave come latenza, token utilizzati, tempo di risposta e produttività vengono tracciate per identificare colli di bottiglia e fattori limitanti al fine di consentire un'ulteriore ottimizzazione delle prestazioni e riduzione dei costi, in particolare nei workflow RAG. Il monitoraggio in tempo reale delle interazioni e il feedback degli utenti aiutano a fornire insight su quando vengono generati output di bassa qualità, a risolvere i problemi man mano che sorgono e a scoprire le cause principali. Questo costante adattamento al comportamento degli utenti permette all'LLM di produrre risposte personalizzate, ottimizzare i flussi di lavoro e scalare per soddisfare la domanda senza svantaggi prestazionali.^2,³

IBM DevOps

Cos'è DevOps?

Andrea Crawford spiega cos'è DevOps, il suo valore e in che modo le pratiche e gli strumenti DevOps ti aiutano a spostare le tue app nell'intera delivery pipeline, dall'ideazione alla produzione. Guidato dai principali leader di pensiero IBM, il curriculum è progettato con lo scopo di aiutare i leader aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti nell'AI che possono promuovere la crescita.

Esplora DevOps

Metriche chiave di osservabilità

Le metriche di osservabilità degli LLM possono essere classificate in tre dimensioni principali.

L'osservabilità completa dei modelli linguistici di grandi dimensioni (LLM) può avvenire solo se monitoriamo metriche di osservabilità che monitorano le prestazioni del sistema, il consumo di risorse e il comportamento dei modelli.⁴

Metriche delle prestazioni del sistema:

Latenza: la durata dall'input all'output rappresenta il tempo di risposta del modello.
Produttività: numero di richieste che il modello elabora in una durata specifica; una misura del carico del modello.
Tasso di errore: il tasso di fallimenti o di risposte non valide; un riflesso dell'affidabilità del modello.

Metriche di utilizzo delle risorse:

Utilizzo della CPU/GPU: misurazione delle risorse consumate durante l'inferenza, con rilevanza per il costo e l'efficienza.
Uso della memoria: RAM o storage consumato durante l'elaborazione. Sebbene sia importante per le prestazioni e la scalabilità, questo utilizzo è secondario rispetto al compito generale.
Utilizzo dei token: traccia i token elaborati. Questo passaggio è particolarmente importante quando i token sono associati al costo nei modelli.
Rapporto di latenza della produttività: la produttività descrive il workload di un sistema rispetto alla sua reattività; trovare un buon equilibrio tra questi due aspetti è essenziale per l'efficienza.

Metriche comportamentali del modello:

Correttezza: monitora la frequenza con cui il modello produce una risposta corretta.
Correttezza fattuale: valuta se il modello fornisce output fattualmente "corretti".
Coinvolgimento dell'utente: quantifica la durata dell'interazione, il feedback e la soddisfazione per stimare l'esperienza.
Qualità della risposta: misura la coerenza, la chiarezza e la pertinenza degli output.⁵

Osservabilità autonoma manuale vs. basata su agenti

Il monitoraggio manuale degli LLM è difficile a causa dell'elevato volume di dati, dell'architettura di sistema complessa e della necessità di monitoraggio in tempo reale. L'abbondanza di registri e metriche rende difficile identificare rapidamente i problemi. Inoltre, l'osservazione manuale è pesante in termini di risorse, è soggetta a errori e non si può scalare efficacemente con l'espansione dei sistemi, portando a un rilevamento dei problemi più lento e a una risoluzione dei problemi inefficiente.

 Queste limitazioni dimostrano la difficoltà di mantenere manualmente l'osservabilità degli LLM, evidenziando la necessità di soluzioni più sofisticate e autonome per gli ambienti aziendali.⁶

Risoluzione dei problemi autonoma basata su agenti

La risoluzione autonoma dei problemi si riferisce a sistemi in grado di identificare, diagnosticare e risolvere problemi in modo indipendente senza necessità di intervento umano, utilizzando metodi di monitoraggio avanzati che impiegano sistemi basati su agenti. Gli agenti monitorano le prestazioni, identificano le anomalie ed eseguono diagnosi in tempo reale, consentendo ai sistemi di funzionare senza supervisione e senza alcun intervento umano.⁷

La risoluzione autonoma dei problemi basata su agenti aiuta con:

Rilevamento in tempo reale: identifica i problemi all'istante, senza bisogno di input manuali.
Analisi della causa principale: individua la fonte dei problemi utilizzando insight basati sull'AI.
Risoluzione automatica: applica soluzioni predefinite pronte all'uso immediato per risolvere i problemi.
Monitoraggio continuo: adatta e apprendi dai dati per migliorare la risoluzione dei problemi nel tempo.
Scalabilità: gestisci in modo efficiente ambienti complessi e su larga scala, riducendo in modo significativo il lavoro manuale.
Manutenzione predittiva: anticipa i potenziali problemi prima che si presentino, il che può essere estremamente prezioso durante i cicli di picco delle prestazioni.
Integrazione con osservabilità: funziona con altri strumenti di osservabilità per una risoluzione più rapida dei problemi.

Soluzione aziendale

Progettato per scalare, IBM Instana offre visibilità in tempo reale e risoluzione autonoma dei problemi per l'osservabilità aziendale di oggi.

Con un processo in tre fasi, rilevamento, diagnosi basata sull'AI e correzione, Instana offre una risoluzione dei problemi autonoma end-to-end per garantire che i problemi vengano rilevati e risolti prima che influiscano sulle prestazioni.⁸

Per saperne di più su questa funzionalità, iscriviti alla lista d'attesa per l'agentic AI di Instana.

Conclusione

La scalabilità dell'AI generativa comporta una risoluzione autonoma dei problemi con strumentazione intelligente, monitoraggio in tempo reale degli LLM e un'orchestrazione efficace. L'ottimizzazione dei set di dati, dell'output del modello e della risposta degli LLM, oltre a una robusta manutenzione delle prestazioni del modello tramite pipeline ottimizzate e test dell'LLM in tempo reale, è fondamentale per un'esperienza utente fluida in vari casi d'uso come i chatbot. L'uso degli LLM open source e del workflow di machine learning è in crescita e sfrutta le tecniche di embedding, monitorando le chiamate agli LLM utilizzando una serie di strumenti. Strumenti come OpenTelemetry e altri che incorporano sofisticati strumenti di osservabilità degli LLM in piattaforme e dashboard integrate saranno essenziali per costruire sistemi AI scalabili e stabili che offrano prestazioni ottimali del modello.^{9, 10}

Distribuisci il software in modo efficiente

Migliorare l'efficienza della distribuzione del software è fondamentale per le organizzazioni che devono affrontare situazioni economiche sfavorevoli e concentrarsi sull'automazione DevOps è fondamentale.

Risorse

Ottimizza le prestazioni di business con analytics basati sull'AI

Registrati per scoprire come gli analytics AI avanzati possono creare nuove prospettive di crescita e di innovazione per il tuo business. Leggi i pareri degli esperti e scopri come le soluzioni AI possono migliorare l'efficienza operativa, ottimizzare le risorse e apportare risultati di business misurabili.

Modernizza le applicazioni mainframe con modelli di cloud ibrido

Esplora l'ultima pubblicazione di IBM Redbooks sulla modernizzazione dei mainframe per ambienti hybrid cloud. Apprendi strategie attuabili, soluzioni architettoniche e tecniche di integrazione per promuovere agilità, innovazione e successo aziendale.

Migliora il tuo DevOps su z/OS con l'automazione e la modernizzazione

Esplora come IBM Wazi Deploy e le funzioni dei linguaggi moderni possono semplificare il tuo DevOps su z/OS. Scopri come l'automazione e i tool open source migliorano l'efficienza su tutte le piattaforme.

Programma di accelerazione DevOps

Intraprendi il tuo percorso di trasformazione DevOps con il programma di accelerazione DevOps di IBM. Questo programma guida le aziende attraverso fasi critiche quali la valutazione, la formazione, la distribuzione e l'adozione per raggiungere un'implementazione DevOps senza intoppi.

Gartner Magic Quadrant for Data Integration Tools 2024

IBM è stata nominata leader per il diciannovesimo anno consecutivo nel Gartner Magic Quadrant 2024 nella categoria Data Integration Tools

Soluzioni correlate

IBM DevOps Accelerate

Automatizza la distribuzione del software per qualsiasi applicazione on premise, cloud o mainframe.

Esplora DevOps Accelerate

Soluzioni DevOps

Utilizza il software e gli strumenti DevOps per creare, distribuire e gestire app cloud-native su più dispositivi e ambienti.

Esplora le soluzioni DevOps

Servizi di consulenza cloud

Sblocca nuove funzionalità e promuovi l'agilità aziendale con i servizi di consulenza cloud di IBM. Scopri come creare insieme soluzioni, accelerare la trasformazione digitale e ottimizzare le prestazioni attraverso strategie di hybrid cloud e partnership di esperti.

Servizi cloud

Fai il passo successivo

Sblocca il potenziale delle DevOps per costruire, testare e distribuire app cloud-native sicure, con integrazione e distribuzione continua.

Esplora le soluzioni DevOps

Scopri DevOps in azione

Note a piè di pagina:

¹ Kumar, S. e Singh, R. (2024). Don't blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://dl.acm.org/doi/10.1145/3706599.3719914.

² Datadog. (n.d.). What Is LLM Observability & Monitoring?. Estratto il 19 maggio 2025, da https://www.datadoghq.com/knowledge center/llm-observability/.

³ LLM-observability, GitHub. Estratto il 19 maggio 2025, da https://github.com/DataDog/llm-observability, Datadog. (n.d.).

⁴ Dong, L., Lu, Q. e Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

⁵ LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Estratto il 19 maggio 2025, da https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

⁶ Ottimizzazione dell'accuratezza LLM, estratto il 19 maggio 2025 da https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

⁷ IBM Instana Observability. Estratto il 19 maggio 2025 da https://www.ibm.com/it-it/products/instana.

⁸ Monitoraggio di agenti AI. Documentazione IBM. Estratto il 19 maggio 2025 da https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents.

⁹ Zhou, Y., Yang, Y. e Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

¹⁰ Vesely, K. e e Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136.