Acelere la IA de código abierto en IBM Z y LinuxONE con un rendimiento optimizado y un soporte fiable
El kit de herramientas de IA para IBM Z y LinuxONE es una familia de marcos de IA de código abierto compatibles optimizados para el procesador Telum. Adopte la IA con contenedores certificados, aceleradores integrados y soporte experto. Estos marcos utilizan aceleración de IA en chip en z16, LinuxONE 4, z17 y LinuxONE 5.
Implemente la IA de código abierto con IBM Elite Support y contenedores aprobados por IBM para garantizar el cumplimiento, la seguridad y la confianza no garantizada en el software.
El acelerador de IA en chip Telum II de IBM z17 ofrece un rendimiento de inferencia comparable al de un servidor x86 de 13 núcleos dentro del mismo sistema que gestiona las cargas de trabajo de procesamiento de transacciones en línea (OLTP).1
IBM z17 y LinuxONE 5 habilitan la IA2 optimizada para INT8, impulsando la puntuación predictiva de múltiples modelos, a la vez que ofrece hasta 450 mil millones de inferencias diarias con menos de 1 ms de tiempo de respuesta. Estas herramientas gestionan dichos resultados porque utilizan un modelo de deep learning para la detección del fraude con tarjetas de crédito.3
Implemente ML, DL y modelos de lenguaje de gran tamaño (LLM) con una inferencia hasta 3,5 veces más rápida para las predicciones.4 Integre de manera fluida con PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) y más.
Desarrolle e implemente de manera fluida modelos de machine learning (ML) con marcos optimizados de TensorFlow y PyTorch adaptados a IBM Z. Utilice la aceleración integrada para mejorar el rendimiento de la inferencia de redes neuronales.
El kit de herramientas de IA está compuesto por IBM Elite Support (dentro de IBM Selected Support) e IBM Secure Engineering. Estas herramientas examinan y escanean los marcos de servicio de IA de código abierto y los contenedores certificados por IBM en busca de vulnerabilidades de seguridad y validan el cumplimiento de la normativa del sector.
Utilice la inferencia de IA en chip para analizar grandes volúmenes de datos no estructurados en IBM Z y LinuxONE. Ofrezca predicciones más rápidas y precisas para chatbots, clasificación de contenidos y comprensión del lenguaje.
Con hasta 450 000 millones de inferencias al día y una respuesta del percentil 99,9 por debajo de 1 ms, detecte y actúa al instante ante la actividad fraudulenta mediante el uso de modelos de IA y la aceleración de Telum.5
Identifique patrones sospechosos en transacciones financieras utilizando Snap ML y Scikit-learn. Con la compresión de datos, el cifrado y la IA en la plataforma, mejore la respuesta AML sin sacrificar el rendimiento ni la seguridad.
1 El uso de un único acelerador integrado para la IA en una carga de trabajo de OLTP en el IBM® z17 coincide con el rendimiento de la ejecución de inferencias en un servidor x86 remoto comparado con 13 núcleos.
DESCARGO DE RESPONSABILIDAD: Los resultados de rendimiento se basan en pruebas internas de IBM ejecutadas en hardware de sistemas IBM del tipo de máquina 9175. La aplicación OLTP y PostgreSQL se implementaron en hardware de sistemas IBM. La configuración de IA del conjunto de detección del fraude con tarjetas de crédito (CCFD) consta de dos modelos (LSTM, TabFormer). En hardware de sistemas IBM, ejecutando la aplicación OLTP con IBM® Z Deep Learning Compiler (zDLC) compilado en jar e IBM® Z Accelerated for NVIDIA Triton Inference Server localmente, procesando las operaciones de inferencia de IA en IFL y el Integrated Accelerator for AI, en comparación con ejecutar la aplicación OLTP localmente y procesar las operaciones de inferencia de IA remotas en un servidor x86 que ejecuta NVIDIA Triton Inference Server con el backend de tiempo de ejecución OpenVINO en la CPU (con AMX). Cada escenario se ejecutó desde Apache JMeter 5.6.3 con 64 usuarios paralelos. Configuración del hardware de sistemas IBM: 1 LPAR con Ubuntu 24.04 con 7 IFL dedicadas (SMT), 256 GB de memoria y almacenamiento IBM® FlashSystem 9500. Los adaptadores de red estaban dedicados a NETH en Linux. Configuración del servidor x86: 1 servidor x86 con Ubuntu 24.04 con 28 CPU Emerald Rapids Intel Xeon Gold a 2,20 GHz con Hyper-Threading activado, 1 TB de memoria, SSD locales, UEFI con perfil de rendimiento máximo habilitado, control de estado P de la CPU y estados C deshabilitados. Los resultados pueden variar.
2 El procesador IBM z17 Telum II admite la cuantificación INT8, diseñada para reducir la latencia de inferencia en comparación con los modelos no cuantificados.
DESCARGO DE RESPONSABILIDAD: La compatibilidad con la cuantificación INT8 en el procesador IBM z17 Telum II reduce y almacena los pesos y activaciones de números de punto flotante de 32 bits a enteros de 8 bits. Esta reducción de la precisión permite cálculos más rápidos, lo que puede reducir los tiempos de inferencia en comparación con los modelos no cuantificados
3,5 Con IBM z17, procese hasta 450 mil millones de operaciones de inferencia al día utilizando múltiples modelos de IA para la detección del fraude con tarjetas de crédito.
DESCARGO DE RESPONSABILIDAD: Los resultados de rendimiento se han extrapolado a partir de pruebas internas de IBM realizadas en hardware de sistemas IBM de máquina tipo 9175. La referencia se ejecutó con 64 subprocesos que realizaban operaciones de inferencia local utilizando un modelo sintético de detección del fraude con tarjetas de crédito (CCFD) basado en un modelo LSTM y un modelo TabFormer. La referencia aprovechó el acelerador integrado para IA utilizando IBM Z Deep Learning Compiler (zDLC) e IBM Z Accelerated for PyTorch. La configuración consta de 64 subprocesos agrupados en grupos de 8 en cada chip (1 para zDLC y 7 para PyTorch). El modelo TabFormer (transformador tabular) evaluó el 0,035 % o de las solicitudes de inferencia. Se utilizó un tamaño de lote de 160 para el modelo basado en LSTM. Configuración del hardware de sistemas IBM: 1 LPAR con Ubuntu 24.04 con 45 IFL (SMT) y 128 GB de memoria. Los resultados pueden variar.
4 DESCARGO DE RESPONSABILIDAD: Resultados de rendimiento basados en pruebas internas de IBM realizando inferencias utilizando un modelo Random Forest con el backend Snap ML v1.12.0 que utiliza el Integrated Accelerator for AI en IBM Machine Type 3931 frente al backend NVIDIA Forest Inference Library en el servidor x86 comparado. El modelo se entrenó en el siguiente conjunto de datos públicos y se utilizó NVIDIA Triton en ambas plataformas como marco de servicio del modelo. La carga de trabajo se impulsó a través de la herramienta de evaluación comparativa http Hey. Configuración de IBM Machine Type 3931: Ubuntu 22.04 en una LPAR con 6 IFL dedicados, 256 GB de memoria. Configuración x86: Ubuntu 22.04 en 6 CPU Ice Lake Intel Xeon Gold a 2,80 GHz con Hyper-Threading activado, 1 TB de memoria.