Escale y optimice la inferencia de la IA generativa con IBM AI Optimizer para Z 2.1

Ofrece capacidades que optimizan la inferencia de IA generativa a través de las infraestructuras mediante capacidades de monitoreo y almacenamiento en caché de valor clave.

Ilustración digital con fondo negro e íconos de pilas de datos y paneles de control

AI Optimizer for Z 2.1 está diseñado para servir modelos de IA y realizar optimización de inferencias en el acelerador IBM Spyre. Optimiza la inferencia de IA generativa en infraestructuras mediante caché clave-valor (KV) y capacidades de monitorización configuradas para clientes IBM Z.

Por qué AI Optimizer for Z 2.1

Para las empresas que ejecutan cargas de trabajo en IBM Z, el camino hacia la puesta en marcha de la IA no consiste en si pueden ejecutarla, sino en cómo integrarla de manera eficiente y segura en los entornos existentes.

Las cargas de trabajo de IA son cada vez más grandes y requieren más recursos, especialmente con aplicaciones basadas en IA generativa y LLM. En Z, los clientes deben equilibrar:

  • Cargas de trabajo sensibles a la latencia que no pueden salir de la plataforma.
  • Requisitos de cumplimiento y residencia de datos que restringen dónde se realiza la inferencia.
  • Aumento de los costos de computación y energía impulsados por un despliegue ineficiente de modelos.

AI Optimizer for Z 2.1 está diseñado para alinearse con estas realidades, lo que permite a las empresas decidir menos manualmente y automatizar de manera más inteligente cuando se trata de la colocación y optimización de inferencias.

Capacidades principales de AI Optimizer Z 2.1

Esta versión presenta varias mejoras técnicas que aumentan tanto el rendimiento como la eficiencia:

1. Monitoreo y visualización en tiempo real para una transparencia operativa completa

Mediante los paneles de Grafana y Prometheus, AI Optimizer for Z 2.1 proporciona observabilidad profunda e insights casi en tiempo real sobre las métricas de rendimiento de inferencia, la utilización de hardware y Spyre, los patrones de uso de modelos e identifica cuellos de botella y anomalías en el servicio de modelos. Por ejemplo, los usuarios pueden interpretar datos complejos de manera intuitiva a través de uno de los paneles, evitar el aprovisionamiento excesivo y planificar decisiones futuras sobre la infraestructura y las consideraciones presupuestarias utilizando estas métricas.

2. Almacenamiento en caché multinivel para respuestas más rápidas y mayor rendimiento

Con un plan de entrega por etapas, se pueden habilitar dos niveles de almacenamiento en caché que reutilizan cálculos previamente calculados para secuencias de token comunes en diferentes solicitudes de inferencia. El nivel 1 es donde el almacenamiento en caché de KV se puede realizar con un LLM desplegado en varias unidades de hardware. Las solicitudes de inferencia que tengan texto almacenado en caché se acelerarán y se podrá optimizar la utilización del hardware. Y el nivel 2 es donde el almacenamiento en caché se puede compartir entre múltiples despliegues de LLM, acelerando la inferencia, reduciendo el tiempo hasta el primer token y aumentando el rendimiento.

3. Optimización de inferencias para modelos que se ejecutan en Spyre, acelerada por diseño

IA Optimizer for Z puede detectar automáticamente los LLM que se ejecutan en Spyre y registrarlos para la optimización de inferencias. Los usuarios pueden crear planes de enrutamiento personalizados a medida que el router inteligente integrado considera la disponibilidad, el uso y el rendimiento. Los LLM que sirven aplicaciones o propósitos similares se pueden agrupar agregándoles etiquetas. Los usuarios también pueden configurar sus propias etiquetas siguiendo los estándares de las API de OpenAI.

4. Registro de modelos externos, unifique sus operaciones de IA híbrida

Los LLM externos que se despliegan en otras infraestructuras fuera de IBM Z y IBM LinuxONE se pueden registrar en AI Optimizer for Z. Estos se pueden etiquetar y agrupar con LLM locales que se ejecutan en Spyre para garantizar la agrupación y optimización de casos de uso. Dependiendo del despliegue de LLM, el monitoreo externo de LLM se puede integrar en el panel de control para brindar una visión general completa de IA generativa.

Dependiendo de la necesidad empresarial de un caso de uso de IA generativa, pueden ser necesarios varios modelos para alcanzar un objetivo determinado. Por lo tanto, AI Optimizer for Z permite registrar modelos externos que se ejecutan fuera de IBM Z e IBM LinuxONE para unificar los endpoints de inferencia. Los LLM externos y los LLM locales se pueden agrupar a través de etiquetas personalizadas que se pueden usar en solicitudes de inferencia para satisfacer las necesidades comerciales.

AI Optimizer en Z y watsonx Assistant for Z en Spyre

Cuando AI Optimizer for Z se encuentra con watsonx Assistant for Z en el acelerador Spyre de IBM, las empresas obtienen lo mejor de ambos mundos: inteligencia y rendimiento en perfecta armonía.

AI Optimizer garantiza que cada consulta, inferencia y llamada de modelo se enrute, almacene en caché y escale para lograr la máxima eficiencia, mientras que watsonx Assistant for Z ofrece una interacción natural y conversacional con clientes y empleados.

Funcionando con la arquitectura de alto rendimiento y eficiente energéticamente de Spyre, juntos permiten respuestas más rápidas, menor latencia y visibilidad de extremo a extremo, transformando las interacciones con los clientes en experiencias fluidas, impulsadas por IA, más inteligentes, rápidas y diseñadas para la escala empresarial.

Aprenda más sobre IBM AI Optimizer for Z

Únase a nuestro próximo seminario web para aprender más

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM