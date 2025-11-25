Intelligenza artificiale Automazione IT

Scala e ottimizza l'inferenza della gen AI utilizzando IBM® AI Optimizer for Z 2.1

Offre funzionalità che ottimizzano l'inferenza della gen AI su tutte le infrastrutture attraverso funzionalità di caching e monitoraggio dei valori chiave.

Pubblicato 25 novembre 2025
Illustrazione digitale con sfondo nero e icone di stack di dati e dashboard

AI Optimizer for Z 2.1 è progettato per servire modelli AI ed eseguire l'ottimizzazione dell'inferenza sull'acceleratore IBM® Spyre. Ottimizza l'inferenza della gen AI tra infrastrutture tramite cache e funzionalità di monitoraggio key-value (KV) configurate per i client IBM® Z.

Perché AI Optimizer per Z 2.1

Per le aziende che gestiscono workload su IBM Z, il percorso verso l'operatività dell'AI non riguarda la possibilità di eseguirla, ma l'efficienza e la sicurezza con cui può essere integrata negli ambienti esistenti.

I workload dell'AI stanno diventando più grandi e più intensivi in termini di risorse, in particolare quelli legati all'AI generativa e alle applicazioni basate sugli LLM. Su Z, i clienti devono bilanciare:

  • Workload sensibili alla latenza che non possono uscire dalla piattaforma.
  • Requisiti di conformità e di residenza dei dati che limitano i luoghi di esecuzione dell'inferenza.
  • L'aumento dei costi di calcolo ed energia provocati da un'implementazione inefficiente dei modelli.

AI Optimizer for Z 2.1 è costruito per allinearsi a queste realtà, consentendo alle aziende di decidere meno manualmente e di automatizzare in modo più intelligente quando si tratta di posizionamento e ottimizzazione delle inferenze.

Funzionalità principali di AI Optimizer Z 2.1

Questa release introduce diversi potenziamenti tecnici che migliorano sia le prestazioni che l'efficienza:

1. Monitoraggio e visualizzazione in tempo reale per completa trasparenza operativa

Utilizzando le dashboard di Grafana e Prometheus, AI Optimizer for Z 2.1 fornisce un'osservabilità profonda e insight quasi in tempo reale sulle metriche delle prestazioni di inferenza, sull'utilizzo dell'hardware e di Spyre, sui pattern di utilizzo dei modelli e identifica i colli di bottiglia e le anomalie nella gestione dei modelli. Ad esempio, gli utenti possono interpretare dati complessi in modo intuitivo tramite uno dei dashboard, evitare l'over-provisioning e pianificare le future decisioni su infrastrutture e considerazioni di budget utilizzando queste metriche.

2. Cache multilivello per risposte più veloci, maggiore throughput

Con un piano di distribuzione a stadi, possono essere abilitati due livelli di cache che riutilizzano calcoli precedentemente calcolati per sequenze di token comuni tra diverse richieste di inferenza. Il Livello 1 è quello in cui la memorizzazione nella cache KV può essere eseguita con un LLM implementato su più unità hardware. Le richieste di inferenza con testo memorizzato nella cache saranno accelerate e l'utilizzo dell'hardware potrà essere ottimizzato. Il Livello 2 è dove la cache può essere condivisa tra più distribuzioni LLM, accelerando l'inferenza, riducendo il time-to-first-token e aumentando la velocità di throughput.

3. Ottimizzazione dell'inferenza per i modelli in esecuzione su Spyre, accelerata by design

Gli LLM eseguiti su Spyre possono essere rilevati automaticamente da AI Optimizer for Z e registrati per l'ottimizzazione dell'inferenza. Gli utenti possono creare piani di routing personalizzati poiché il router intelligente integrato valuta disponibilità, utilizzo e prestazioni. Gli LLM che servono applicazioni o scopi simili possono essere raggruppati aggiungendo tag a essi. Gli utenti possono anche configurare i propri tag seguendo gli standard delle API OpenAI.

4. Registra il modello esternamente, unifica le tue operazioni di AI ibrida

Gli LLM esterni che vengono implementati su altre infrastrutture al di fuori di IBM Z e IBM® LinuxONE possono essere registrati con AI Optimizer for Z. Questi possono essere etichettati e raggruppati con gli LLM locali in esecuzione su Spyre per garantire il raggruppamento e l'ottimizzazione dei casi d'uso. A seconda dell'implementazione, il monitoraggio degli LLM esterni può essere integrato nel cruscotto di monitoraggio multipiattaforma per offrire una panoramica completa della gen AI.

A seconda della necessità aziendale di un caso d'uso di gen AI, possono essere necessari più modelli per raggiungere un certo obiettivo. Pertanto, AI Optimizer for Z consente la registrazione di modelli esterni in esecuzione al di fuori di IBM Z e IBM LinuxONE per unificare gli endpoint di inferenza. Gli LLM esterni e gli LLM locali possono essere raggruppati attraverso tag personalizzati che possono essere utilizzati nelle richieste di inferenza per soddisfare le esigenze aziendali.

AI Optimizer on Z e Watsonx Assistant for Z on Spyre

Quando AI Optimizer for Z incontra watsonx Assistant for Z sull'acceleratore Spyre di IBM, le aziende ottengono il meglio di entrambi i mondi: intelligence e prestazioni in perfetta armonia.

AI Optimizer garantisce che ogni query, inferenza e chiamata modello venga instradata, memorizzata in cache e scalata per la massima efficienza, mentre watsonx Assistant for Z garantisce un coinvolgimento naturale e conversazionale con clienti e dipendenti.

Funzionando sull'architettura ad alte prestazioni ed efficienza energetica di Spyre, i due permettono risposte più rapide, una minore latenza e visibilità end-to-end, trasformando le interazioni con i clienti in esperienze fluide, basate sull'AI, più intelligenti, veloci e pensate per la scala aziendale.

Scopri di più su IBM AI Optimizer for Z

Partecipa al nostro prossimo webinar per saperne di più

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM

Scopri di più Esplora IBM AI Optimizer for Z Partecipa al nostro prossimo webinar