AI Optimizer for Z offre un monitoraggio avanzato in tempo reale per i carichi di lavoro di gen AI, utilizzando Prometheus per la raccolta di metriche e Grafana per una visualizzazione intuitiva. Tiene traccia di metriche chiave come il throughput dei token, la latenza per richiesta, il rapporto di hit della cache, il time-to-first-token e l'utilizzo della memoria, oltre a un piano per includere metriche di utilizzo dell'hardware come l'utilizzo di GPU/acceleratori.

AI Optimizer può integrarsi con il collettore OpenTelemetry (OTel) quando è configurato con i ricevitori Prometheus. Ciò consente l'acquisizione e l'interoperabilità senza interruzioni della telemetria per un'osservabilità unificata in ambienti ibridi. Questi insight permettono alle organizzazioni di prendere decisioni informate sulla pianificazione della capacità, l'instradamento dei workload, il monitoraggio delle prestazioni e l'ottimizzazione dell'infrastruttura, aiutando a evitare l'over-provisioning, ridurre i costi e migliorare le prestazioni complessive.