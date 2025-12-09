Sbloccare l'inferenza della gen AI su scala aziendale: annuncio della GA di IBM® AI Optimizer for Z 2.1
Accelera la gen AI su IBM Z e ottimizza l'inferenza per ottenere le massime prestazioni, efficienza e sicurezza.
IBM AI Optimizer per Z 2.1 è ora in disponibilità generale, offrendo inferenze di gen AI ad alte prestazioni e bassa latenza su IBM Z alimentato da IBM SpyreTM Accelerator. Questa release rappresenta il primo passo di una roadmap di consegna continua, con ulteriori funzionalità e ottimizzazioni previste per il lancio nei prossimi trimestri.
AI Optimizer for Z sfrutta la potenza di IBM® Spyre Accelerator (Spyre) per offrire inferenze ad alte prestazioni e a bassa latenza per i modelli AI. Combinando Spyre con funzionalità avanzate come KV caching e monitoraggio in tempo reale, consente alle aziende di ottimizzare workload di gen AI su infrastrutture con efficienza, scalabilità e sicurezza senza pari.
Le principali capacità di AI Optimizer per Z 2.1 includono:
AI Optimizer for Z offre un monitoraggio avanzato in tempo reale per i carichi di lavoro di gen AI, utilizzando Prometheus per la raccolta di metriche e Grafana per una visualizzazione intuitiva. Tiene traccia di metriche chiave come il throughput dei token, la latenza per richiesta, il rapporto di hit della cache, il time-to-first-token e l'utilizzo della memoria, oltre a un piano per includere metriche di utilizzo dell'hardware come l'utilizzo di GPU/acceleratori.
AI Optimizer può integrarsi con il collettore OpenTelemetry (OTel) quando è configurato con i ricevitori Prometheus. Ciò consente l'acquisizione e l'interoperabilità senza interruzioni della telemetria per un'osservabilità unificata in ambienti ibridi. Questi insight permettono alle organizzazioni di prendere decisioni informate sulla pianificazione della capacità, l'instradamento dei workload, il monitoraggio delle prestazioni e l'ottimizzazione dell'infrastruttura, aiutando a evitare l'over-provisioning, ridurre i costi e migliorare le prestazioni complessive.
In un piano di consegna a fasi, AI Optimizer for Z introdurrà la cache multilivello per accelerare l'inferenza della gen AI.
Al primo livello, la cache KV riutilizza le sequenze di token calcolate in precedenza all'interno di una singola implementazione di modello linguistico di grandi dimensioni (LLM), riducendo il time-to-first-token e migliorando il throughput.
Al secondo livello, la cache estesa condivide questi calcoli tra più distribuzioni di LLM, consentendo un'efficienza ancora maggiore per workload su larga scala. Questa funzionalità si traduce in un valore aziendale significativo riducendo i costi dell'infrastruttura, migliorando i tempi di risposta delle applicazioni e consentendo alle aziende di scalare i servizi di AI senza sovraccaricare le risorse.
AI Optimizer for Z consente il tagging flessibile degli LLM, consentendo agli utenti di raggruppare i modelli per applicazione, caso d'uso aziendale o requisiti di prestazione. Questi tag possono essere applicati all'inferenza delle richieste, garantendo un instradamento intelligente e un utilizzo ottimizzato delle risorse su più distribuzioni.
Inoltre, la soluzione supporta la registrazione di LLM esterni che girano al di fuori di IBM Z o LinuxONE, integrandoli nello stesso framework di tagging e routing per un'ottimizzazione unificata. Questa funzionalità offre alle aziende maggiore controllo e agilità, consentendo prestazioni costanti ed efficienza dei costi in tutti gli ambienti AI ibridi.
Le organizzazioni che operano su IBM Z affrontano vincoli unici come la residenza dei dati, i mandati di privacy, bassi requisiti di latenza e l'affidabilità mission-critical. AI Optimizer per Z 2.1 consente l'adozione della genAI senza richiedere movimenti di workload o rischi architettonici, offrendo valore immediato in settori come banche, assicurazioni, manifatturiera e il settore pubblico. Con un approccio di distribuzione continua, le aziende possono aspettarsi miglioramenti continui che rafforzano ulteriormente le prestazioni, la scalabilità e la sicurezza
La GA di AI Optimizer for Z 2.1 segna l'inizio di una roadmap più ampia. Le funzionalità di inferenza e osservabilità di base sono disponibili ora, e ulteriori ottimizzazioni saranno fornite tramite release incrementali nei prossimi trimestri, garantendo che i clienti possano trarre continuamente beneficio dall'innovazione senza interruzioni.