Cos'è l'osservabilità degli LLM?

Autori

Joshua Noble

Data Scientist

Shalini Harkar

Lead AI Advocate

Osservabilità degli LLM definita

L'osservabilità degli LLM è il processo di raccolta di dati in tempo reale da modelli o applicazioni di LLM riguardanti le sue caratteristiche comportamentali, prestazionali e di output. Poiché gli LLM sono complessi, possiamo osservarli in base ai loro output.1

Una buona soluzione di osservabilità consiste nella raccolta di metriche, tracce e log rilevanti da applicazioni LLM, application programming interface (API) e workflow, permettendo agli sviluppatori di monitorare, debuggare e ottimizzare le applicazioni in modo efficiente, proattivo e su larga scala. 

I modelli linguistici di grandi dimensioni (LLM) e le piattaforme di AI generativa (gen AI) come IBM® watsonx.ai e una crescente varietà di varianti open source stanno prendendo piede in diversi settori. A causa di questo aumento, è diventato più importante che mai mantenere l'affidabilità, la sicurezza e l'efficienza dei modelli e delle applicazioni dopo l'adozione. È in questo spazio che l'osservabilità degli LLM diventa essenziale.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Perché è importante l'osservabilità degli LLM?

  • Monitoraggio della qualità e degli output degli LLM:
    La valutazione continua degli output prodotti dagli LLM può essere classificata in diverse dimensioni di qualità che sono utili e applicabili agli utenti. Queste dimensioni includono correttezza, rilevanza, coerenza e coerenza fattuale rispetto a metriche di valutazione definite. Il controllo periodico di queste dimensioni delle prestazioni aiuta a prevenire ritardi o problemi che potrebbero far perdere agli utenti la fiducia nel programma e rendere difficile l'utilizzo efficiente degli LLM.

  • Analisi rapida della causa principale e risoluzione dei problemi:
    Quando si verifica un guasto significativo o un comportamento imprevisto per un'applicazione, uno strumento di osservabilità può fornire insight utili per identificare rapidamente la causa principale (o le cause) del problema in questione. Questo livello di telemetria a grana fine permetterà generalmente agli stakeholder di isolare i problemi con livelli di fiducia più elevati in molte aree. Ad esempio, dati di formazione corrotti, messa a punto mal progettata, chiamate API esterne non riuscite o interruzioni del back-end di provider di terze parti non funzionanti.

  • Ottimizzazione di applicazioni, coinvolgimento degli utenti ed efficienza del sistema:
    L'osservabilità degli LLM consente di migliorare le prestazioni e il coinvolgimento degli utenti attraverso il monitoraggio continuo dell'intero stack. Metriche chiave come latenza, token utilizzati, tempo di risposta e produttività vengono tracciate per identificare colli di bottiglia e fattori limitanti al fine di consentire un'ulteriore ottimizzazione delle prestazioni e riduzione dei costi, in particolare nei workflow RAG. Il monitoraggio in tempo reale delle interazioni e il feedback degli utenti aiutano a fornire insight su quando vengono generati output di bassa qualità, a risolvere i problemi man mano che sorgono e a scoprire le cause principali. Questo costante adattamento al comportamento degli utenti permette all'LLM di produrre risposte personalizzate, ottimizzare i flussi di lavoro e scalare per soddisfare la domanda senza svantaggi prestazionali.2, 3
IBM DevOps

Cos'è DevOps?

Andrea Crawford spiega cos'è DevOps, il suo valore e in che modo le pratiche e gli strumenti DevOps ti aiutano a spostare le tue app nell'intera delivery pipeline, dall'ideazione alla produzione. Guidato dai principali leader di pensiero IBM, il curriculum è progettato con lo scopo di aiutare i leader aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti nell'AI che possono promuovere la crescita.

Metriche chiave di osservabilità

Le metriche di osservabilità degli LLM possono essere classificate in tre dimensioni principali.

L'osservabilità completa dei modelli linguistici di grandi dimensioni (LLM) può avvenire solo se monitoriamo metriche di osservabilità che monitorano le prestazioni del sistema, il consumo di risorse e il comportamento dei modelli.4

Metriche delle prestazioni del sistema:

  • Latenza: la durata dall'input all'output rappresenta il tempo di risposta del modello.

  • Produttività: numero di richieste che il modello elabora in una durata specifica; una misura del carico del modello.

  • Tasso di errore: il tasso di fallimenti o di risposte non valide; un riflesso dell'affidabilità del modello.

Metriche di utilizzo delle risorse:

  • Utilizzo della CPU/GPU: misurazione delle risorse consumate durante l'inferenza, con rilevanza per il costo e l'efficienza.

  • Uso della memoria: RAM o storage consumato durante l'elaborazione. Sebbene sia importante per le prestazioni e la scalabilità, questo utilizzo è secondario rispetto al compito generale.

  • Utilizzo dei token: traccia i token elaborati. Questo passaggio è particolarmente importante quando i token sono associati al costo nei modelli.

  • Rapporto di latenza della produttività: la produttività descrive il workload di un sistema rispetto alla sua reattività; trovare un buon equilibrio tra questi due aspetti è essenziale per l'efficienza.

Metriche comportamentali del modello:

  • Correttezza: monitora la frequenza con cui il modello produce una risposta corretta.

  • Correttezza fattuale: valuta se il modello fornisce output fattualmente "corretti".

  • Coinvolgimento dell'utente: quantifica la durata dell'interazione, il feedback e la soddisfazione per stimare l'esperienza.

  • Qualità della risposta: misura la coerenza, la chiarezza e la pertinenza degli output.5

Osservabilità autonoma manuale vs. basata su agenti 

Il monitoraggio manuale degli LLM è difficile a causa dell'elevato volume di dati, dell'architettura di sistema complessa e della necessità di monitoraggio in tempo reale. L'abbondanza di registri e metriche rende difficile identificare rapidamente i problemi. Inoltre, l'osservazione manuale è pesante in termini di risorse, è soggetta a errori e non si può scalare efficacemente con l'espansione dei sistemi, portando a un rilevamento dei problemi più lento e a una risoluzione dei problemi inefficiente.

 Queste limitazioni dimostrano la difficoltà di mantenere manualmente l'osservabilità degli LLM, evidenziando la necessità di soluzioni più sofisticate e autonome per gli ambienti aziendali.6

Risoluzione dei problemi autonoma basata su agenti 

La risoluzione autonoma dei problemi si riferisce a sistemi in grado di identificare, diagnosticare e risolvere problemi in modo indipendente senza necessità di intervento umano, utilizzando metodi di monitoraggio avanzati che impiegano sistemi basati su agenti. Gli agenti monitorano le prestazioni, identificano le anomalie ed eseguono diagnosi in tempo reale, consentendo ai sistemi di funzionare senza supervisione e senza alcun intervento umano.7

La risoluzione autonoma dei problemi basata su agenti aiuta con:

  • Rilevamento in tempo reale: identifica i problemi all'istante, senza bisogno di input manuali.

  • Analisi della causa principale: individua la fonte dei problemi utilizzando insight basati sull'AI. 

  • Risoluzione automatica: applica soluzioni predefinite pronte all'uso immediato per risolvere i problemi.

  • Monitoraggio continuo: adatta e apprendi dai dati per migliorare la risoluzione dei problemi nel tempo.

  • Scalabilità: gestisci in modo efficiente ambienti complessi e su larga scala, riducendo in modo significativo il lavoro manuale.

  • Manutenzione predittiva: anticipa i potenziali problemi prima che si presentino, il che può essere estremamente prezioso durante i cicli di picco delle prestazioni. 

  • Integrazione con osservabilità: funziona con altri strumenti di osservabilità per una risoluzione più rapida dei problemi.

Soluzione aziendale 

Progettato per scalare, IBM Instana offre visibilità in tempo reale e risoluzione autonoma dei problemi per l'osservabilità aziendale di oggi.

Con un processo in tre fasi, rilevamento, diagnosi basata sull'AI e correzione, Instana offre una risoluzione dei problemi autonoma end-to-end per garantire che i problemi vengano rilevati e risolti prima che influiscano sulle prestazioni.8

Per saperne di più su questa funzionalità, iscriviti alla lista d'attesa per l'agentic AI di Instana.  

Conclusione

La scalabilità dell'AI generativa comporta una risoluzione autonoma dei problemi con strumentazione intelligente, monitoraggio in tempo reale degli LLM e un'orchestrazione efficace. L'ottimizzazione dei set di dati, dell'output del modello e della risposta degli LLM, oltre a una robusta manutenzione delle prestazioni del modello tramite pipeline ottimizzate e test dell'LLM in tempo reale, è fondamentale per un'esperienza utente fluida in vari casi d'uso come i chatbot. L'uso degli LLM open source e del workflow di machine learning è in crescita e sfrutta le tecniche di embedding, monitorando le chiamate agli LLM utilizzando una serie di strumenti. Strumenti come OpenTelemetry e altri che incorporano sofisticati strumenti di osservabilità degli LLM in piattaforme e dashboard integrate saranno essenziali per costruire sistemi AI scalabili e stabili che offrano prestazioni ottimali del modello.9, 10

Soluzioni correlate
IBM DevOps Accelerate

Automatizza la distribuzione del software per qualsiasi applicazione on premise, cloud o mainframe.

Esplora DevOps Accelerate
Soluzioni DevOps

Utilizza il software e gli strumenti DevOps per creare, distribuire e gestire app cloud-native su più dispositivi e ambienti.

Esplora le soluzioni DevOps
Servizi di consulenza cloud 

Sblocca nuove funzionalità e promuovi l'agilità aziendale con i servizi di consulenza cloud di IBM. Scopri come creare insieme soluzioni, accelerare la trasformazione digitale e ottimizzare le prestazioni attraverso strategie di hybrid cloud e partnership di esperti.

Servizi cloud
Fai il passo successivo

Sblocca il potenziale delle DevOps per costruire, testare e distribuire app cloud-native sicure, con integrazione e distribuzione continua.

Esplora le soluzioni DevOps Scopri DevOps in azione
Note a piè di pagina:

1 Kumar, S. e Singh, R. (2024). Don't blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://dl.acm.org/doi/10.1145/3706599.3719914

2 Datadog. (n.d.). What Is LLM Observability & Monitoring?. Estratto il 19 maggio 2025, da https://www.datadoghq.com/knowledge center/llm-observability/.

3 LLM-observability, GitHub. Estratto il 19 maggio 2025, da https://github.com/DataDog/llm-observability, Datadog. (n.d.).

4 Dong, L., Lu, Q. e Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

5 LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Estratto il 19 maggio 2025, da https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

6 Ottimizzazione dell'accuratezza LLM, estratto il 19 maggio 2025 da https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

7 IBM Instana Observability. Estratto il 19 maggio 2025 da https://www.ibm.com/it-it/products/instana.

8 Monitoraggio di agenti AI. Documentazione IBM. Estratto il 19 maggio 2025 da https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents. 

9 Zhou, Y., Yang, Y. e Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

10 Vesely, K. e e Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136.