Inteligencia artificial Automatización de TI

Escalar y optimizar la inferencia de IA generativa usando el IBM® AI Optimizer for Z 2.1

Ofrece capacidades que optimizan la inferencia de IA generativa en todas las infraestructuras mediante capacidades de almacenamiento en caché y monitorización de valores clave.

Publicado el 25 de noviembre de 2025
AI Optimizer for Z 2.1 está diseñado para servir modelos de IA y realizar optimización de inferencia en el acelerador IBM Spyre. Optimiza la inferencia de IA generativa en infraestructuras mediante caché clave-valor (KV) y capacidades de monitorización configuradas para clientes IBM Z.

¿Por qué el AI Optimizer for Z 2.1

Para las empresas que ejecutan cargas de trabajo en IBM Z, el camino hacia la operacionalización de la IA no consiste en si pueden ejecutarla, sino en la eficacia y la seguridad con las que puede integrarse en los entornos existentes.

Las cargas de trabajo de la IA son cada vez mayores y consumen más recursos, en particular con la IA generativa y las aplicaciones basadas en LLM. En Z, los clientes deben equilibrar:

  • Cargas de trabajo sensibles a la latencia que no pueden salir de la plataforma.
  • Requisitos de conformidad y residencia de datos que restringen dónde se ejecuta la inferencia.
  • Aumento de los costes informáticos y energéticos debido a una implementación ineficaz de los modelos.

AI Optimizer for Z 2.1 está diseñado para alinearse con estas realidades, lo que permite a las empresas decidir menos manualmente y automatizar de forma más inteligente cuando se trata de la colocación y optimización de inferencias.

Capacidades principales de AI Optimizer for Z 2.1

Esta versión introduce varias mejoras técnicas que aumentan tanto el rendimiento como la eficacia:

1. Monitorización y visualización en tiempo real para una transparencia operativa total

Mediante los paneles de control de Grafana y Prometheus, AI Optimizer for Z 2.1 proporciona una observabilidad profunda y una visión casi en tiempo real de las métricas de rendimiento de inferencia, la utilización de hardware y Spyre, los patrones de uso de modelos e identifica cuellos de botella y anomalías en el servicio de modelos. Por ejemplo, los usuarios pueden interpretar datos complejos de forma intuitiva a través de uno de los paneles de control, evitar el sobreaprovisionamiento y planificar decisiones futuras sobre infraestructuras y consideraciones presupuestarias utilizando estas métricas.

2. Almacenamiento en caché de varios niveles para respuestas más rápidas y mayor rendimiento

Con un plan de entrega por etapas, se pueden habilitar dos niveles de almacenamiento en caché que reutilicen los cálculos previamente computados para secuencias de tokens comunes a través de diferentes solicitudes de inferencia. El nivel 1 es donde el almacenamiento en caché de KV se puede realizar con un LLM implementado en varias unidades de hardware. Las solicitudes de inferencias que tengan texto almacenado en caché se acelerarán y se podrá optimizar la utilización del hardware. Y el nivel 2 es donde la caché puede compartirse entre múltiples implementaciones de LLM, acelerando la inferencia, reduciendo el tiempo hasta el primer token y aumentando el rendimiento.

3. Optimización de inferencias para modelos que se ejecutan en Spyre, acelerada por diseño

Los LLM que se ejecutan en Spyre pueden ser detectados automáticamente por AI Optimizer for Z y registrados para la optimización de inferencias. Los usuarios pueden crear planes de enrutamiento personalizados, ya que el enrutador inteligente integrado tiene en cuenta la disponibilidad, el uso y el rendimiento. Los LLM que sirven aplicaciones o propósitos similares se pueden agrupar añadiéndoles etiquetas. Los usuarios también pueden configurar sus propias etiquetas siguiendo los estándares de las API de OpenAI.

4. Registro de modelos externos, unifique sus operaciones de IA híbrida

Los LLM externos que se implementan en otras infraestructuras fuera de IBM Z e IBM LinuxONE se pueden registrar con AI Optimizer for Z. Estos pueden etiquetarse y agruparse con LLM locales que se ejecutan en Spyre para garantizar la agrupación y optimización de casos de uso. Dependiendo de la implementación de LLM, la monitorización externa de LLM se puede integrar en el panel de control de monitorización multiplataforma para ofrecer una visión general completa de la IA generativa.

Dependiendo de la necesidad empresarial de un caso de uso de IA generativa, pueden ser necesarios varios modelos para alcanzar un objetivo determinado. Por lo tanto, AI Optimizer for Z permite registrar modelos externos que se ejecutan fuera de IBM Z e IBM LinuxONE para unificar los endpoints de inferencia. Los LLM externos y los LLM locales pueden agruparse mediante etiquetas personalizadas que pueden usarse para inferir solicitudes que sirvan a las necesidades del negocio.

AI Optimizer en Z y watsonx Assistant for Z en Spyre

Cuando AI Optimizer for Z se encuentra con watsonx Assistant for Z en el Spyre Accelerator de IBM, las empresas obtienen lo mejor de ambos mundos: inteligencia y rendimiento en perfecta armonía.

AI Optimizer garantiza que cada consulta, inferencia y llamada al modelo se enrute, almacene en caché y escale para lograr la máxima eficiencia, mientras que watsonx Assistant for Z ofrece un compromiso natural y conversacional con clientes y empleados.

Funcionando con la arquitectura de alto rendimiento y eficiente energéticamente de Spyre, ambos juntos permiten respuestas más rápidas, menor latencia y visibilidad de extremo a extremo, transformando las interacciones con los clientes en experiencias con IA, más inteligentes, rápidas y diseñadas para la escala empresarial.

