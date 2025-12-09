Desbloquear la inferencia de IA generativa a escala empresarial: anuncio de GA de IBM® AI Optimizer for Z 2.1
Acelere la IA generativa en IBM Z y optimice la inferencia para obtener el máximo rendimiento, eficacia y seguridad.
Acelere la IA generativa en IBM Z y optimice la inferencia para obtener el máximo rendimiento, eficacia y seguridad.
IBM AI Optimizer for Z 2.1 ya está disponible para el público en general, y ofrece inferencia de IA generativa de alto rendimiento y baja latencia en IBM Z impulsado por IBM Spyre Accelerator. Esta versión representa el primer paso en una hoja de ruta de entrega continua, con capacidades adicionales y optimizaciones planificadas para su implementación en los próximos trimestres.
AI Optimizer for Z aprovecha la potencia de IBM Spyre Accelerator (Spyre) para ofrecer inferencias de alto rendimiento y baja latencia para modelos de IA. Al combinar Spyre con capacidades avanzadas como el caché KV y la monitorización en tiempo real, permite a las empresas optimizar las cargas de trabajo de IA generativa en infraestructuras con una eficiencia, escalabilidad y seguridad inigualables.
Las capacidades clave de AI Optimizer for Z 2.1 incluyen:
AI Optimizer for Z proporciona monitorización avanzada en tiempo real para cargas de trabajo de IA generativa utilizando Prometheus para la recopilación de métricas y Grafana para una visualización intuitiva. Rastrea métricas clave como el rendimiento del token, la latencia por solicitud, la relación de impacto de la caché, el tiempo hasta el primer token y la utilización de la memoria, junto con un plan para incluir métricas de uso de hardware como la utilización de GPU/acelerador.
AI Optimizer puede integrarse con el recopilador OpenTelemetry (OTel) cuando se configura con receptores Prometheus. Esto permite una ingesta y una interoperabilidad de telemetría fluidas para una observabilidad unificada en entornos híbridos. Estos conocimientos permiten a las organizaciones tomar decisiones informadas sobre la planificación de la capacidad, el enrutamiento de las cargas de trabajo, la supervisión del rendimiento y la optimización de la infraestructura, lo que ayuda a evitar el exceso de aprovisionamiento, reducir los costes y mejorar el rendimiento general.
En un plan de entrega por etapas, AI Optimizer for Z introducirá el almacenamiento en caché multinivel para acelerar la inferencia de la IA generativa.
En el primer nivel, el almacenamiento en caché KV reutiliza secuencias de tokens previamente calculadas dentro de una única implementación de modelos de lenguaje de gran tamaño (LLM), lo que reduce el tiempo hasta el primer token y mejora el rendimiento.
En el segundo nivel, el almacenamiento en caché ampliado comparte estos cálculos en múltiples implementaciones de LLM, lo que permite una mayor eficiencia para cargas de trabajo a gran escala. Esta capacidad se traduce en un valor empresarial significativo al reducir los costes de infraestructura, mejorar los tiempos de respuesta para aplicaciones orientadas al cliente y permitir que las empresas escalen los servicios de IA sin sobreaprovisionar recursos.
AI Optimizer for Z habilita el etiquetado flexible de los LLM, lo que permite a los usuarios agrupar los modelos por aplicación, caso de uso empresarial o requisitos de rendimiento. Estas etiquetas se pueden aplicar a las solicitudes de inferencia, lo que garantiza un enrutamiento inteligente y una utilización optimizada de los recursos en múltiples implementaciones.
Además, la solución admite el registro de LLM externos que se ejecutan fuera de IBM Z o LinuxONE, integrándolos en el mismo marco de etiquetado y enrutamiento para una optimización unificada. Esta capacidad proporciona a las empresas un mayor control y agilidad, lo que permite un rendimiento y una rentabilidad consistentes en los entornos de IA híbridos.
Las organizaciones que operan en IBM Z se enfrentan a limitaciones únicas, como la residencia de datos, los mandatos de privacidad, los requisitos de baja latencia y la fiabilidad de misión crítica. AI Optimizer for Z 2.1 permite la adopción de IA generativa sin necesidad de desplazar la carga de trabajo ni arriesgar la arquitectura, lo que aporta un valor inmediato en sectores como la banca, los seguros, la fabricación y el sector público. Con un enfoque de entrega continua, las empresas pueden esperar mejoras continuas que fortalezcan aún más el rendimiento, la escalabilidad y la seguridad
La GA de AI Optimizer for Z 2.1 marca el comienzo de una hoja de ruta más amplia. Ya están disponibles capacidades centrales de inferencia y observabilidad, y se realizarán optimizaciones adicionales mediante lanzamientos incrementales en los próximos trimestres, asegurando que los clientes puedan beneficiarse continuamente de la innovación sin interrupciones.