Desbloquear la inferencia de la IA generativa a escala empresarial: anuncio de GA de IBM Optimizer for Z 2.1
Acelere la IA generativa en IBM Z y optimice la inferencia para obtener el máximo rendimiento, eficiencia y seguridad.
Acelere la IA generativa en IBM Z y optimice la inferencia para obtener el máximo rendimiento, eficiencia y seguridad.
IBM AI Optimizer for Z 2.1 ya está disponible de forma general, ofreciendo inferencia de IA generativa de rendimiento y baja latencia en IBM Z con tecnología IBM SpyreTM Accelerator. Esta versión representa el primer paso en una hoja de ruta de entrega continua, con capacidades adicionales y optimizaciones planificadas para su implementación en los próximos trimestres.
AI Optimizer for Z aprovecha la potencia de IBM Spyre Accelerator (Spyre) para ofrecer inferencias de rendimiento, baja latencia para modelos de IA. Al combinar Spyre con capacidades avanzadas como el caché KV y la monitorización en tiempo real, permite a las compañías optimizar las cargas de trabajo de IA generativa en infraestructuras con una eficiencia, escalabilidad y seguridad inigualables.
Las capacidades clave de AI Optimizer for Z 2.1 incluyen:
AI Optimizer for Z proporciona monitoreo avanzado en tiempo real para cargas de trabajo de IA generativa utilizando Prometheus para la recopilación de métricas y Grafana para visualización intuitiva. Realiza un seguimiento de métricas clave, como el rendimiento del token, la latencia por solicitud, la proporción de aciertos de caché, el tiempo hasta el primer token y la utilización de la memoria, junto con un plan para incluir métricas de uso de hardware, como la utilización de GPU/acelerador.
IA Optimizer puede integrarse con el recopilador OpenTelemetry (OTel) cuando se configura con receptores Prometheus. Esto permite una ingesta e interoperabilidad de telemetría perfectas para una observabilidad unificada en entornos híbridos. Estos insights permiten a las organizaciones tomar decisiones informadas sobre la planificación de la capacidad, el enrutamiento de la carga de trabajo, la supervisión del rendimiento y la optimización de la infraestructura, lo que ayuda a evitar el aprovisionamiento excesivo, reducir los costos y mejorar el rendimiento general.
En un plan de entrega por etapas, AI Optimizer for Z introducirá el almacenamiento en caché multinivel para acelerar la inferencia de IA generativa.
En el primer nivel, el almacenamiento en caché de KV reutiliza secuencias de tokens previamente calculadas dentro de un único despliegue de modelos de lenguaje extensos (LLM), lo que reduce el tiempo hasta el primer token y mejora el rendimiento.
En el segundo nivel, el almacenamiento en caché ampliado comparte estos cálculos entre múltiples despliegues de LLM, lo que permite una mayor eficiencia para cargas de trabajo a gran escala. Esta capacidad se traduce en un valor comercial significativo al reducir los costos de infraestructura, mejorar los tiempos de respuesta de las aplicaciones orientadas al cliente y permitir a las empresas escalar los servicios de IA sin aprovisionar recursos en exceso.
AI Optimizer for Z permite el etiquetado flexible de LLM, lo que permite a los usuarios agrupar modelos por aplicación, caso de uso empresarial o requisitos de rendimiento. Estas etiquetas se pueden aplicar a las solicitudes de inferencia, lo que garantiza un enrutamiento inteligente y una utilización optimizada de los recursos en múltiples despliegues.
Además, la solución admite el registro de LLM externos que se ejecutan fuera de IBM Z o LinuxONE, integrándolos en el mismo marco de etiquetado y enrutamiento para una optimización unificada. Esta capacidad proporciona a las empresas un mayor control y agilidad, lo que permite un rendimiento consistente y una rentabilidad en entornos híbridos de IA.
Las organizaciones que operan en IBM Z se enfrentan a limitaciones únicas, como la residencia de datos, los mandatos de privacidad, los requisitos de baja latencia y la confiabilidad de misión crítica. IA Optimizer for Z 2.1 permite la adopción de IA generativa sin requerir movimiento de carga de trabajo o riesgo arquitectónico, brindando valor inmediato en industrias como banca, seguros, fabricación y el sector público. Con un enfoque de entrega continua, las empresas pueden esperar mejoras continuas que fortalezcan aún más el rendimiento, la escalabilidad y la seguridad
La GA de IA Optimizer for Z 2.1 marca el inicio de una hoja de ruta más amplia. Ya están disponibles las capacidades de inferencia y observabilidad, y se realizarán optimizaciones adicionales mediante lanzamientos incrementales en los próximos trimestres, asegurando que los clientes puedan obtener un beneficio continuo de la innovación sin interrupciones.