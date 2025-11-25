Scala e ottimizza l'inferenza della gen AI utilizzando IBM® AI Optimizer for Z 2.1
Offre funzionalità che ottimizzano l'inferenza della gen AI su tutte le infrastrutture attraverso funzionalità di caching e monitoraggio dei valori chiave.
AI Optimizer for Z 2.1 è progettato per servire modelli AI ed eseguire l'ottimizzazione dell'inferenza sull'acceleratore IBM® Spyre. Ottimizza l'inferenza della gen AI tra infrastrutture tramite cache e funzionalità di monitoraggio key-value (KV) configurate per i client IBM® Z.
Per le aziende che gestiscono workload su IBM Z, il percorso verso l'operatività dell'AI non riguarda la possibilità di eseguirla, ma l'efficienza e la sicurezza con cui può essere integrata negli ambienti esistenti.
I workload dell'AI stanno diventando più grandi e più intensivi in termini di risorse, in particolare quelli legati all'AI generativa e alle applicazioni basate sugli LLM. Su Z, i clienti devono bilanciare:
AI Optimizer for Z 2.1 è costruito per allinearsi a queste realtà, consentendo alle aziende di decidere meno manualmente e di automatizzare in modo più intelligente quando si tratta di posizionamento e ottimizzazione delle inferenze.
Questa release introduce diversi potenziamenti tecnici che migliorano sia le prestazioni che l'efficienza:
Utilizzando le dashboard di Grafana e Prometheus, AI Optimizer for Z 2.1 fornisce un'osservabilità profonda e insight quasi in tempo reale sulle metriche delle prestazioni di inferenza, sull'utilizzo dell'hardware e di Spyre, sui pattern di utilizzo dei modelli e identifica i colli di bottiglia e le anomalie nella gestione dei modelli. Ad esempio, gli utenti possono interpretare dati complessi in modo intuitivo tramite uno dei dashboard, evitare l'over-provisioning e pianificare le future decisioni su infrastrutture e considerazioni di budget utilizzando queste metriche.
Con un piano di distribuzione a stadi, possono essere abilitati due livelli di cache che riutilizzano calcoli precedentemente calcolati per sequenze di token comuni tra diverse richieste di inferenza. Il Livello 1 è quello in cui la memorizzazione nella cache KV può essere eseguita con un LLM implementato su più unità hardware. Le richieste di inferenza con testo memorizzato nella cache saranno accelerate e l'utilizzo dell'hardware potrà essere ottimizzato. Il Livello 2 è dove la cache può essere condivisa tra più distribuzioni LLM, accelerando l'inferenza, riducendo il time-to-first-token e aumentando la velocità di throughput.
Gli LLM eseguiti su Spyre possono essere rilevati automaticamente da AI Optimizer for Z e registrati per l'ottimizzazione dell'inferenza. Gli utenti possono creare piani di routing personalizzati poiché il router intelligente integrato valuta disponibilità, utilizzo e prestazioni. Gli LLM che servono applicazioni o scopi simili possono essere raggruppati aggiungendo tag a essi. Gli utenti possono anche configurare i propri tag seguendo gli standard delle API OpenAI.
Gli LLM esterni che vengono implementati su altre infrastrutture al di fuori di IBM Z e IBM® LinuxONE possono essere registrati con AI Optimizer for Z. Questi possono essere etichettati e raggruppati con gli LLM locali in esecuzione su Spyre per garantire il raggruppamento e l'ottimizzazione dei casi d'uso. A seconda dell'implementazione, il monitoraggio degli LLM esterni può essere integrato nel cruscotto di monitoraggio multipiattaforma per offrire una panoramica completa della gen AI.
A seconda della necessità aziendale di un caso d'uso di gen AI, possono essere necessari più modelli per raggiungere un certo obiettivo. Pertanto, AI Optimizer for Z consente la registrazione di modelli esterni in esecuzione al di fuori di IBM Z e IBM LinuxONE per unificare gli endpoint di inferenza. Gli LLM esterni e gli LLM locali possono essere raggruppati attraverso tag personalizzati che possono essere utilizzati nelle richieste di inferenza per soddisfare le esigenze aziendali.
Quando AI Optimizer for Z incontra watsonx Assistant for Z sull'acceleratore Spyre di IBM, le aziende ottengono il meglio di entrambi i mondi: intelligence e prestazioni in perfetta armonia.
AI Optimizer garantisce che ogni query, inferenza e chiamata modello venga instradata, memorizzata in cache e scalata per la massima efficienza, mentre watsonx Assistant for Z garantisce un coinvolgimento naturale e conversazionale con clienti e dipendenti.
Funzionando sull'architettura ad alte prestazioni ed efficienza energetica di Spyre, i due permettono risposte più rapide, una minore latenza e visibilità end-to-end, trasformando le interazioni con i clienti in esperienze fluide, basate sull'AI, più intelligenti, veloci e pensate per la scala aziendale.
