Kit de herramientas de IA para IBM Z y LinuxONE

Acelere la IA de código abierto en IBM Z y LinuxONE con un rendimiento optimizado y un soporte fiable

Una ilustración que muestra el flujo de trabajo del kit de herramientas de IA para IBM Z e IBM LinuxONE

Implemente la IA con rapidez y confianza

El kit de herramientas de IA para IBM Z y LinuxONE es una familia de marcos de IA de código abierto compatibles optimizados para el procesador Telum. Adopte la IA con contenedores certificados, aceleradores integrados y soporte experto. Estos marcos utilizan aceleración de IA en chip en z16LinuxONE 4z17 y LinuxONE 5.

Implementación segura de IA a escala

Implemente la IA de código abierto con IBM Elite Support y contenedores aprobados por IBM para garantizar el cumplimiento, la seguridad y la confianza no garantizada en el software.

IA acelerada en tiempo real

El acelerador de IA en chip Telum II de IBM z17 ofrece un rendimiento de inferencia comparable al de un servidor x86 de 13 núcleos dentro del mismo sistema que gestiona las cargas de trabajo de procesamiento de transacciones en línea (OLTP).1

Inferencia a escala

IBM z17 y LinuxONE 5 habilitan la IA2 optimizada para INT8, impulsando la puntuación predictiva de múltiples modelos, a la vez que ofrece hasta 450 mil millones de inferencias diarias con menos de 1 ms de tiempo de respuesta. Estas herramientas gestionan dichos resultados porque utilizan un modelo de deep learning para la detección del fraude con tarjetas de crédito.3

Compatibilidad con varios modelos de IA

Implemente ML, DL y modelos de lenguaje de gran tamaño (LLM) con una inferencia hasta 3,5 veces más rápida para las predicciones.4 Integre de manera fluida con PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) y más.

Características

Desarrolle e implemente de manera fluida modelos de machine learning (ML) con marcos optimizados de TensorFlow y PyTorch adaptados a IBM Z. Utilice la aceleración integrada para mejorar el rendimiento de la inferencia de redes neuronales.

Una persona con un ordenador portátil que muestra la interacción con la IA
Compatible con PyTorch

Acelere la integración de PyTorch con IBM Z Accelerated for PyTorch para desarrollar e implementar modelos de ML en redes neuronales.

Explore la inferencia de PyTorch
Una persona interactuando con una pantalla que muestra redes.
Compatible con TensorFlow

Acelere la integración fluida de TensorFlow con IBM Z Accelerated for TensorFlow para desarrollar e implementar modelos de ML en redes neuronales.

Explore la inferencia de TensorFlow
Una persona en una sala de servidores con un ordenador portátil.
Modelos de machine learning con TensorFlow Serving

Aproveche los beneficios de TensorFlow Serving, un sistema de servicio flexible y de alto rendimiento, con IBM Z Accelerated for TensorFlow Serving para ayudar a la implementación de modelos de ML en producción.

Explore TensorFlow Serving
Dos personas mirando una pantalla interactiva
Servidor de inferencia NVIDIA Triton

Optimizado para procesadores IBM Telum y Linux en Z, IBM Z Accelerated for NVIDIA Triton Inference Server permite una inferencia de IA de alto rendimiento. La herramienta ofrece soporte para procesamiento por lotes dinámico, múltiples marcos y backends personalizados en CPU y GPU.

Descubra el servidor de inferencia Triton
Una persona mirando la pantalla de un ordenador de sobremesa con un portátil abierto.
Ejecute Snap ML

Utilice IBM Z Accelerated for Snap ML para crear e implementar modelos de ML con Snap ML, un programa de IBM sin garantía que optimiza el entrenamiento y la puntuación de los modelos de ML más populares.

Explore IBM Snap Machine Learning
Una persona mirando tres pantallas de escritorio.
Compile modelos ML ONNX con IBM zDLC

Utilice las capacidades de inferencia acelerada en chip de Telum y Telum II con modelos ONNX que utilizan IBM Z Deep Learning Compiler (IBM zDLC) en IBM z/OS, zCX y LinuxONE. IBM zDLC, un compilador de modelos de IA, proporciona capacidades como la cuantificación automática para modelos de ML con latencia reducida y consumo de energía reducido.

Explore IBM Deep Learning Compiler Uso de IBM zDLC Container Images
Una persona con un ordenador portátil que muestra la interacción con la IA
Compatible con PyTorch

Acelere la integración de PyTorch con IBM Z Accelerated for PyTorch para desarrollar e implementar modelos de ML en redes neuronales.

Explore la inferencia de PyTorch
Una persona interactuando con una pantalla que muestra redes.
Compatible con TensorFlow

Acelere la integración fluida de TensorFlow con IBM Z Accelerated for TensorFlow para desarrollar e implementar modelos de ML en redes neuronales.

Explore la inferencia de TensorFlow
Una persona en una sala de servidores con un ordenador portátil.
Modelos de machine learning con TensorFlow Serving

Aproveche los beneficios de TensorFlow Serving, un sistema de servicio flexible y de alto rendimiento, con IBM Z Accelerated for TensorFlow Serving para ayudar a la implementación de modelos de ML en producción.

Explore TensorFlow Serving
Dos personas mirando una pantalla interactiva
Servidor de inferencia NVIDIA Triton

Optimizado para procesadores IBM Telum y Linux en Z, IBM Z Accelerated for NVIDIA Triton Inference Server permite una inferencia de IA de alto rendimiento. La herramienta ofrece soporte para procesamiento por lotes dinámico, múltiples marcos y backends personalizados en CPU y GPU.

Descubra el servidor de inferencia Triton
Una persona mirando la pantalla de un ordenador de sobremesa con un portátil abierto.
Ejecute Snap ML

Utilice IBM Z Accelerated for Snap ML para crear e implementar modelos de ML con Snap ML, un programa de IBM sin garantía que optimiza el entrenamiento y la puntuación de los modelos de ML más populares.

Explore IBM Snap Machine Learning
Una persona mirando tres pantallas de escritorio.
Compile modelos ML ONNX con IBM zDLC

Utilice las capacidades de inferencia acelerada en chip de Telum y Telum II con modelos ONNX que utilizan IBM Z Deep Learning Compiler (IBM zDLC) en IBM z/OS, zCX y LinuxONE. IBM zDLC, un compilador de modelos de IA, proporciona capacidades como la cuantificación automática para modelos de ML con latencia reducida y consumo de energía reducido.

Explore IBM Deep Learning Compiler Uso de IBM zDLC Container Images

Contenedores seguros y conformes de IBM

Contenedores que se encuentran en el kit de herramientas de IA para IBM Z y LinuxONE

El kit de herramientas de IA está compuesto por IBM Elite Support (dentro de IBM Selected Support) e IBM Secure Engineering. Estas herramientas examinan y escanean los marcos de servicio de IA de código abierto y los contenedores certificados por IBM en busca de vulnerabilidades de seguridad y validan el cumplimiento de la normativa del sector.

Acceso a través de IBM® Container Registry
Casos prácticos
Una persona que sostiene un chip tecnológico
Procesamiento del lenguaje natural en tiempo real

Utilice la inferencia de IA en chip para analizar grandes volúmenes de datos no estructurados en IBM Z y LinuxONE. Ofrezca predicciones más rápidas y precisas para chatbots, clasificación de contenidos y comprensión del lenguaje.

Una persona con una tarjeta de crédito
Detección del fraude con tarjetas de crédito en milisegundos

Con hasta 450 000 millones de inferencias al día y una respuesta del percentil 99,9 por debajo de 1 ms, detecte y actúa al instante ante la actividad fraudulenta mediante el uso de modelos de IA y la aceleración de Telum.5

Una persona tocando una tarjeta de crédito
Lucha contra el blanqueo de capitales a escala

Identifique patrones sospechosos en transacciones financieras utilizando Snap ML y Scikit-learn. Con la compresión de datos, el cifrado y la IA en la plataforma, mejore la respuesta AML sin sacrificar el rendimiento ni la seguridad.

Dé el siguiente paso

Descubra cómo el kit de herramientas de IA para IBM Z y LinuxONE aceleran el código abierto de IA con rendimiento optimizado y soporte técnico de confianza.

Acceso a través de IBM® Container Registry
Más formas de explorar Documentación Soporte Servicios y asistencia durante todo el ciclo de vida Comunidad
Notas a pie de página

El uso de un único acelerador integrado para la IA en una carga de trabajo de OLTP en el IBM® z17 coincide con el rendimiento de la ejecución de inferencias en un servidor x86 remoto comparado con 13 núcleos.

DESCARGO DE RESPONSABILIDAD: Los resultados de rendimiento se basan en pruebas internas de IBM ejecutadas en hardware de sistemas IBM del tipo de máquina 9175. La aplicación OLTP y PostgreSQL se implementaron en hardware de sistemas IBM. La configuración de IA del conjunto de detección del fraude con tarjetas de crédito (CCFD) consta de dos modelos (LSTM, TabFormer). En hardware de sistemas IBM, ejecutando la aplicación OLTP con IBM® Z Deep Learning Compiler (zDLC) compilado en jar e IBM® Z Accelerated for NVIDIA Triton Inference Server localmente, procesando las operaciones de inferencia de IA en IFL y el Integrated Accelerator for AI, en comparación con ejecutar la aplicación OLTP localmente y procesar las operaciones de inferencia de IA remotas en un servidor x86 que ejecuta NVIDIA Triton Inference Server con el backend de tiempo de ejecución OpenVINO en la CPU (con AMX). Cada escenario se ejecutó desde Apache JMeter 5.6.3 con 64 usuarios paralelos. Configuración del hardware de sistemas IBM: 1 LPAR con Ubuntu 24.04 con 7 IFL dedicadas (SMT), 256 GB de memoria y almacenamiento IBM® FlashSystem 9500. Los adaptadores de red estaban dedicados a NETH en Linux. Configuración del servidor x86: 1 servidor x86 con Ubuntu 24.04 con 28 CPU Emerald Rapids Intel Xeon Gold a 2,20 GHz con Hyper-Threading activado, 1 TB de memoria, SSD locales, UEFI con perfil de rendimiento máximo habilitado, control de estado P de la CPU y estados C deshabilitados. Los resultados pueden variar.

El procesador IBM z17 Telum II admite la cuantificación INT8, diseñada para reducir la latencia de inferencia en comparación con los modelos no cuantificados.

DESCARGO DE RESPONSABILIDAD: La compatibilidad con la cuantificación INT8 en el procesador IBM z17 Telum II reduce y almacena los pesos y activaciones de números de punto flotante de 32 bits a enteros de 8 bits. Esta reducción de la precisión permite cálculos más rápidos, lo que puede reducir los tiempos de inferencia en comparación con los modelos no cuantificados

3,5 Con IBM z17, procese hasta 450 mil millones de operaciones de inferencia al día utilizando múltiples modelos de IA para la detección del fraude con tarjetas de crédito.

DESCARGO DE RESPONSABILIDAD: Los resultados de rendimiento se han extrapolado a partir de pruebas internas de IBM realizadas en hardware de sistemas IBM de máquina tipo 9175. La referencia se ejecutó con 64 subprocesos que realizaban operaciones de inferencia local utilizando un modelo sintético de detección del fraude con tarjetas de crédito (CCFD) basado en un modelo LSTM y un modelo TabFormer. La referencia aprovechó el acelerador integrado para IA utilizando IBM Z Deep Learning Compiler (zDLC) e IBM Z Accelerated for PyTorch. La configuración consta de 64 subprocesos agrupados en grupos de 8 en cada chip (1 para zDLC y 7 para PyTorch). El modelo TabFormer (transformador tabular) evaluó el 0,035 % o de las solicitudes de inferencia. Se utilizó un tamaño de lote de 160 para el modelo basado en LSTM. Configuración del hardware de sistemas IBM: 1 LPAR con Ubuntu 24.04 con 45 IFL (SMT) y 128 GB de memoria. Los resultados pueden variar.

4 DESCARGO DE RESPONSABILIDAD: Resultados de rendimiento basados en pruebas internas de IBM realizando inferencias utilizando un modelo Random Forest con el backend Snap ML v1.12.0 que utiliza el Integrated Accelerator for AI en IBM Machine Type 3931 frente al backend NVIDIA Forest Inference Library en el servidor x86 comparado. El modelo se entrenó en el siguiente conjunto de datos públicos y se utilizó NVIDIA Triton en ambas plataformas como marco de servicio del modelo. La carga de trabajo se impulsó a través de la herramienta de evaluación comparativa http Hey. Configuración de IBM Machine Type 3931: Ubuntu 22.04 en una LPAR con 6 IFL dedicados, 256 GB de memoria. Configuración x86: Ubuntu 22.04 en 6 CPU Ice Lake Intel Xeon Gold a 2,80 GHz con Hyper-Threading activado, 1 TB de memoria.