Acelere a IA de código aberto no IBM Z e LinuxONE com desempenho otimizado e suporte confiável
O toolkit de IA para IBM® Z e LinuxONE é uma família de frameworks de IA de código aberto com suporte, otimizados para o processador Telum. Adote IA com contêineres certificados, aceleradores integrados e suporte especializado. Esses frameworks usam aceleração de IA no chip no z16, LinuxONE 4, z17 e LinuxONE 5.
Implemente IA de código aberto com o IBM Elite Support e contêineres verificados pela IBM para conformidade, segurança e confiança em software não garantido.
O acelerador de IA no chip Telum II do IBM z17 oferece desempenho de inferência comparável ao de um servidor x86 de 13 núcleos no mesmo sistema que gerencia cargas de trabalho de processamento de transações on-line (OLTP).1
O IBM z17 e o LinuxONE 5 possibilitam IA otimizada para INT82, executando pontuação preditiva de múltiplos modelos, enquanto entregam até 450 bilhões de inferências diárias com menos de 1 ms de tempo de resposta. Essas ferramentas alcançam esses resultados porque usam um modelo de deep learning para detecção de fraude em cartão de crédito.3
Implemente modelos de aprendizado de máquina (ML), deep learning (DL) e grandes modelos de linguagem (LLMs) com até 3,5x mais rapidez na inferência para previsões.4Integre sem dificuldades com PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) e mais.
Desenvolva e implemente, sem dificuldades, modelos de aprendizado de máquina (ML) com frameworks TensorFlow e PyTorch otimizados para o IBM Z. Use a aceleração integrada para melhorar o desempenho da inferência de redes neurais.
O toolkit de IA é composto por IBM Elite Support (dentro do IBM Selected Support) e IBM Secure Engineering. Essas ferramentas inspecionam e analisam frameworks de atendimento de IA de código aberto e contêineres certificados pela IBM em busca de vulnerabilidades de segurança e validam a conformidade com regulamentações do setor.
Use a inferência de IA no chip para analisar grandes volumes de dados não estruturados no IBM Z e LinuxONE. Entregue previsões mais rápidas e precisas para chatbots, classificação de conteúdo e compreensão de linguagem.
Com até 450 bilhões de inferências por dia e resposta de percentil 99,9 abaixo de 1 ms, detecte e aja sobre atividades fraudulentas instantaneamente usando modelos de IA compostos e aceleração Telum.5
Identifique padrões suspeitos em transações financeiras usando Snap ML e Scikit-learn. Com compressão de dados, criptografia e IA na própria plataforma, melhore a resposta AML sem comprometer o desempenho ou a segurança.
1 O uso de um único acelerador integrado para IA em uma carga de trabalho OLTP no IBM z17 iguala a taxa de transferência de execução de inferência em um servidor x86 remoto comparado, com 13 núcleos.
AVISO: Os resultados são baseados em testes internos da IBM executados em hardware IBM Systems do tipo de máquina 9175. A aplicação OLTP e o PostgreSQL foram implementados no IBM Systems Hardware. A configuração de IA em conjunto para detecção de fraudes de cartão de crédito (CCFD) consiste em dois modelos (LSTM eTabFormer). No IBM Systems Hardware, a execução da aplicação OLTP com o arquivo jar compilado pelo IBM Z Deep Learning Compiler (zDLC) e o IBM Z Accelerated for NVIDIA Triton Inference Server localmente, processando as operações de inferência de IA nos IFLs e no acelerador integrado para IA, foi comparada à execução da aplicação OLTP localmente e processamento remoto das operações de inferência de IA em um servidor x86 executando o NVIDIA Triton Inference Server com o backend de runtime OpenVINO na CPU (com AMX). Cada cenário foi conduzido no Apache JMeter 5.6.3 com 64 usuários paralelos. Configuração do IBM Systems Hardware: 1 LPAR executando Ubuntu 24.04 com 7 IFLs dedicados (SMT), 256 GB de memória e armazenamento IBM FlashSystem 9500. Os adaptadores de rede foram dedicados ao NETH no Linux. Configuração do servidor x86: 1 servidor x86 executando Ubuntu 24.04 com 28 CPUs Emerald Rapids Intel Xeon Gold @ 2,20 GHz, hyper-threading ativado, 1 TB de memória, SSDs locais, UEFI com perfil de desempenho máximo ativado, controle P-State da CPU e C-States desativados. Os resultados podem variar.
2 O processador Telum II do IBM z17 oferece suporte à quantização INT8, projetada para reduzir a latência de inferência em comparação com modelos não quantizados.
ISENÇÃO DE RESPONSABILIDADE: O suporte à quantização INT8 no processador IBM z17 Telum II reduz e armazena os pesos e ativações de números de ponto flutuante de 32 bits para inteiros de 8 bits. Essa redução na precisão permite cálculos mais rápidos, o que pode levar a tempos de inferência menores em comparação com modelos não quantizados.
3,5 Com o IBM z17, é possível processar até 450 bilhões de operações de inferência por dia usando vários modelos de IA para detecção de fraude em cartão de crédito.
AVISO LEGAL: O resultado de desempenho é extrapolado de testes internos da IBM executados em um sistema de hardware IBM do tipo de máquina 9175. O benchmark foi executado com 64 threads realizando operações de inferência localmente usando um modelo sintético de detecção de fraude em cartão de crédito (CCFD) baseado em um modelo LSTM e um modelo TabFormer. O benchmark explorou o acelerador integrado para IA usando o IBM Z Deep Learning Compiler (zDLC) e o IBM Z Accelerated for PyTorch. A configuração consistiu em 64 threads fixadas em grupos de 8 para cada chip (1 para zDLC, 7 para PyTorch). O modelo TabFormer (transformador tabular) avaliou 0,035% das solicitações de inferência. Foi usado um tamanho de lote de 160 para o modelo baseado em LSTM. Configuração de hardware do IBM Systems: 1 LPAR executando Ubuntu 24.04 com 45 IFLs (SMT), 128 GB de memória. Os resultados podem variar.
4 AVISO LEGAL: Resultados de desempenho baseados em testes internos da IBM que realizam inferências usando um modelo Random Forest com backend Snap ML v1.12.0, utilizando o acelerador integrado para IA na IBM Machine Type 3931, em comparação com o backend da NVIDIA Forest Inference Library no servidor x86 comparado. O modelo foi treinado no seguinte conjunto de dados público e o NVIDIA Triton foi usado em ambas as plataformas como framework de serviço de modelos. A carga de trabalho foi conduzida usando a ferramenta de benchmarking http Hey. Configuração da IBM Machine Type 3931: Ubuntu 22.04 em um LPAR com 6 IFLs dedicados, 256 GB de memória. Configuração x86: Ubuntu 22.04 em 6 CPUs Ice Lake Intel Xeon Gold @ 2,80 GHz com hyper-threading ativado, 1 TB de memória.