IA Toolkit para IBM Z e LinuxONE

Acelere a IA de código aberto no IBM Z e LinuxONE com desempenho otimizado e suporte confiável

Uma ilustração mostrando o fluxo de trabalho do toolkit de IA para IBM Z e IBM LinuxONE

Implemente IA com rapidez e confiança

O toolkit de IA para IBM® Z e LinuxONE é uma família de frameworks de IA de código aberto com suporte, otimizados para o processador Telum. Adote IA com contêineres certificados, aceleradores integrados e suporte especializado. Esses frameworks usam aceleração de IA no chip no z16, LinuxONE 4, z17 e LinuxONE 5.

Implementação segura de IA em escala

Implemente IA de código aberto com o IBM Elite Support e contêineres verificados pela IBM para conformidade, segurança e confiança em software não garantido.

IA acelerada em tempo real

O acelerador de IA no chip Telum II do IBM z17 oferece desempenho de inferência comparável ao de um servidor x86 de 13 núcleos no mesmo sistema que gerencia cargas de trabalho de processamento de transações on-line (OLTP).1

Inferência em escala

O IBM z17 e o LinuxONE 5 possibilitam IA otimizada para INT82, executando pontuação preditiva de múltiplos modelos, enquanto entregam até 450 bilhões de inferências diárias com menos de 1 ms de tempo de resposta. Essas ferramentas alcançam esses resultados porque usam um modelo de deep learning para detecção de fraude em cartão de crédito.3

Suporte a vários modelos de IA

Implemente modelos de aprendizado de máquina (ML), deep learning (DL) e grandes modelos de linguagem (LLMs) com até 3,5x mais rapidez na inferência para previsões.4Integre sem dificuldades com PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) e mais.

Recursos

Desenvolva e implemente, sem dificuldades, modelos de aprendizado de máquina (ML) com frameworks TensorFlow e PyTorch otimizados para o IBM Z. Use a aceleração integrada para melhorar o desempenho da inferência de redes neurais.

Pessoa em um notebook mostrando interação com IA
Compatível com PyTorch

Acelere a integração sem dificuldades do PyTorch com o IBM Z Accelerated for PyTorch para desenvolver e implementar modelos de ML em redes neurais.

Explorar inferência em PyTorch
Pessoa interagindo com uma tela mostrando redes.
Compatível com TensorFlow

Acelere a integração sem dificuldades do TensorFlow com o IBM Z Accelerated for TensorFlow para desenvolver e implementar modelos de ML em redes neurais.

Explorar inferência em TensorFlow
Uma pessoa em uma sala de servidores em um notebook.
Modelos de ML com TensorFlow Serving

Aproveite os benefícios do TensorFlow Serving, um sistema de serviço flexível e de alto desempenho, com o IBM Z Accelerated for TensorFlow Serving para ajudar na implementação de modelos de ML em produção.

Explore o TensorFlow Serving
Duas pessoas olhando para uma tela interativa
NVIDIA Triton Inference Server

Otimizado para os processadores IBM Telum e Linux on Z, o IBM Z Accelerated for NVIDIA Triton Inference Server permite inferência de IA de alto desempenho. A ferramenta oferece suporte para processamento em lotes dinâmico, múltiplas estruturas e back-ends personalizados em CPUs e GPUs.

Descubra o Triton Inference Server
Uma pessoa olhando para uma tela de desktop com um notebook aberto.
Execute o Snap ML

Use o IBM Z Accelerated for Snap ML para criar e implementar modelos de ML com o Snap ML, um programa não garantido da IBM que otimiza o treinamento e a pontuação de modelos populares de ML.

Explore o IBM Snap Machine Learning
Uma pessoa olhando para três telas de computador.
Compile modelos de ML ONNX com o IBM zDLC

Use os recursos de inferência acelerada no chip Telum e Telum II com modelos ONNX que utilizam o IBM Z® Deep Learning Compiler (IBM zDLC) no IBM® z/OS, zCX e LinuxONE. O IBM zDLC, um compilador de modelos de IA, oferece recursos como quantização automática para modelos de ML, com latência reduzida e menor consumo de energia.

Explore o IBM Deep Learning Compiler Uso das imagens de contêiner do IBM zDLC
Pessoa em um notebook mostrando interação com IA
Compatível com PyTorch

Acelere a integração sem dificuldades do PyTorch com o IBM Z Accelerated for PyTorch para desenvolver e implementar modelos de ML em redes neurais.

Explorar inferência em PyTorch
Pessoa interagindo com uma tela mostrando redes.
Compatível com TensorFlow

Acelere a integração sem dificuldades do TensorFlow com o IBM Z Accelerated for TensorFlow para desenvolver e implementar modelos de ML em redes neurais.

Explorar inferência em TensorFlow
Uma pessoa em uma sala de servidores em um notebook.
Modelos de ML com TensorFlow Serving

Aproveite os benefícios do TensorFlow Serving, um sistema de serviço flexível e de alto desempenho, com o IBM Z Accelerated for TensorFlow Serving para ajudar na implementação de modelos de ML em produção.

Explore o TensorFlow Serving
Duas pessoas olhando para uma tela interativa
NVIDIA Triton Inference Server

Otimizado para os processadores IBM Telum e Linux on Z, o IBM Z Accelerated for NVIDIA Triton Inference Server permite inferência de IA de alto desempenho. A ferramenta oferece suporte para processamento em lotes dinâmico, múltiplas estruturas e back-ends personalizados em CPUs e GPUs.

Descubra o Triton Inference Server
Uma pessoa olhando para uma tela de desktop com um notebook aberto.
Execute o Snap ML

Use o IBM Z Accelerated for Snap ML para criar e implementar modelos de ML com o Snap ML, um programa não garantido da IBM que otimiza o treinamento e a pontuação de modelos populares de ML.

Explore o IBM Snap Machine Learning
Uma pessoa olhando para três telas de computador.
Compile modelos de ML ONNX com o IBM zDLC

Use os recursos de inferência acelerada no chip Telum e Telum II com modelos ONNX que utilizam o IBM Z® Deep Learning Compiler (IBM zDLC) no IBM® z/OS, zCX e LinuxONE. O IBM zDLC, um compilador de modelos de IA, oferece recursos como quantização automática para modelos de ML, com latência reduzida e menor consumo de energia.

Explore o IBM Deep Learning Compiler Uso das imagens de contêiner do IBM zDLC

Contêineres seguros e compatíveis da IBM

Contêineres incluídos no toolkit de IA para IBM Z e LinuxONE

O toolkit de IA é composto por IBM Elite Support (dentro do IBM Selected Support) e IBM Secure Engineering. Essas ferramentas inspecionam e analisam frameworks de atendimento de IA de código aberto e contêineres certificados pela IBM em busca de vulnerabilidades de segurança e validam a conformidade com regulamentações do setor.

Acesse pelo IBM Container Registry
Casos de uso
Uma pessoa segurando um chip de tecnologia
Processamento de linguagem natural em tempo real

Use a inferência de IA no chip para analisar grandes volumes de dados não estruturados no IBM Z e LinuxONE. Entregue previsões mais rápidas e precisas para chatbots, classificação de conteúdo e compreensão de linguagem.

Uma pessoa segurando um cartão de crédito
Detecção de fraude em cartões de crédito em milissegundos

Com até 450 bilhões de inferências por dia e resposta de percentil 99,9 abaixo de 1 ms, detecte e aja sobre atividades fraudulentas instantaneamente usando modelos de IA compostos e aceleração Telum.5

Uma pessoa tocando em um cartão de crédito
Combate à lavagem de dinheiro em escala

Identifique padrões suspeitos em transações financeiras usando Snap ML e Scikit-learn. Com compressão de dados, criptografia e IA na própria plataforma, melhore a resposta AML sem comprometer o desempenho ou a segurança.

Dê o próximo passo

Descubra como o toolkit de IA para IBM Z e LinuxONE acelera a IA de código aberto com desempenho otimizado e suporte confiável.

Acesse pelo IBM Container Registry
Outras maneiras de explorar Documentação Suporte Serviços e suporte para o ciclo de vida Comunidade
Notas de rodapé

1 O uso de um único acelerador integrado para IA em uma carga de trabalho OLTP no IBM z17 iguala a taxa de transferência de execução de inferência em um servidor x86 remoto comparado, com 13 núcleos.

AVISO: Os resultados são baseados em testes internos da IBM executados em hardware IBM Systems do tipo de máquina 9175. A aplicação OLTP e o PostgreSQL foram implementados no IBM Systems Hardware. A configuração de IA em conjunto para detecção de fraudes de cartão de crédito (CCFD) consiste em dois modelos (LSTM eTabFormer). No IBM Systems Hardware, a execução da aplicação OLTP com o arquivo jar compilado pelo IBM Z Deep Learning Compiler (zDLC) e o IBM Z Accelerated for NVIDIA Triton Inference Server localmente, processando as operações de inferência de IA nos IFLs e no acelerador integrado para IA, foi comparada à execução da aplicação OLTP localmente e processamento remoto das operações de inferência de IA em um servidor x86 executando o NVIDIA Triton Inference Server com o backend de runtime OpenVINO na CPU (com AMX). Cada cenário foi conduzido no Apache JMeter 5.6.3 com 64 usuários paralelos. Configuração do IBM Systems Hardware: 1 LPAR executando Ubuntu 24.04 com 7 IFLs dedicados (SMT), 256 GB de memória e armazenamento IBM FlashSystem 9500. Os adaptadores de rede foram dedicados ao NETH no Linux. Configuração do servidor x86: 1 servidor x86 executando Ubuntu 24.04 com 28 CPUs Emerald Rapids Intel Xeon Gold @ 2,20 GHz, hyper-threading ativado, 1 TB de memória, SSDs locais, UEFI com perfil de desempenho máximo ativado, controle P-State da CPU e C-States desativados. Os resultados podem variar.

2 O processador Telum II do IBM z17 oferece suporte à quantização INT8, projetada para reduzir a latência de inferência em comparação com modelos não quantizados.

ISENÇÃO DE RESPONSABILIDADE: O suporte à quantização INT8 no processador IBM z17 Telum II reduz e armazena os pesos e ativações de números de ponto flutuante de 32 bits para inteiros de 8 bits. Essa redução na precisão permite cálculos mais rápidos, o que pode levar a tempos de inferência menores em comparação com modelos não quantizados.

3,5 Com o IBM z17, é possível processar até 450 bilhões de operações de inferência por dia usando vários modelos de IA para detecção de fraude em cartão de crédito.

AVISO LEGAL: O resultado de desempenho é extrapolado de testes internos da IBM executados em um sistema de hardware IBM do tipo de máquina 9175. O benchmark foi executado com 64 threads realizando operações de inferência localmente usando um modelo sintético de detecção de fraude em cartão de crédito (CCFD) baseado em um modelo LSTM e um modelo TabFormer. O benchmark explorou o acelerador integrado para IA usando o IBM Z Deep Learning Compiler (zDLC) e o IBM Z Accelerated for PyTorch. A configuração consistiu em 64 threads fixadas em grupos de 8 para cada chip (1 para zDLC, 7 para PyTorch). O modelo TabFormer (transformador tabular) avaliou 0,035% das solicitações de inferência. Foi usado um tamanho de lote de 160 para o modelo baseado em LSTM. Configuração de hardware do IBM Systems: 1 LPAR executando Ubuntu 24.04 com 45 IFLs (SMT), 128 GB de memória. Os resultados podem variar.

4 AVISO LEGAL: Resultados de desempenho baseados em testes internos da IBM que realizam inferências usando um modelo Random Forest com backend Snap ML v1.12.0, utilizando o acelerador integrado para IA na IBM Machine Type 3931, em comparação com o backend da NVIDIA Forest Inference Library no servidor x86 comparado. O modelo foi treinado no seguinte conjunto de dados público e o NVIDIA Triton foi usado em ambas as plataformas como framework de serviço de modelos. A carga de trabalho foi conduzida usando a ferramenta de benchmarking http Hey. Configuração da IBM Machine Type 3931: Ubuntu 22.04 em um LPAR com 6 IFLs dedicados, 256 GB de memória. Configuração x86: Ubuntu 22.04 em 6 CPUs Ice Lake Intel Xeon Gold @ 2,80 GHz com hyper-threading ativado, 1 TB de memória.