A inteligência artificial (IA) está transformando os setores, e as empresas precisam de uma infraestrutura que possa lidar com as cargas de trabalho de IA de forma eficiente e segura.
O IBM LinuxONE, com tecnologia do processador IBM® Telum, integra a aceleração de IA diretamente no chip, permitindo a inferência em tempo real de múltiplos modelos de IA com latência mínima. Esse recurso avançado — combinado com IA preditiva e modelos de linguagem de larga escala — permite que as empresas analisem dados onde eles estão, fornecendo insights mais rápidos e profundos para aplicações críticas, como detecção avançada de fraudes, análise de riscos e diagnóstico por imagem médica.
A placa aceleradora IBM Spyre™ é uma unidade de aceleração de IA com consumo de 75 W, compatível com PCIe Gen 5x com 128 GB de memória LPDDR5, otimizada para IA generativa e LLMs multimodais.8 Com 32 (+2) núcleos com um scratchpad de 2 MB por núcleo e uso dos núcleos superior a 55%, o Spyre é escalável por placa e compartimento, para que as empresas lidem com eficiência com inferências complexas da IA em aplicações corporativas.
Adicionando-se as placas IBM Spyre Accelerator ao IBM LinuxONE 5, tornam-se possíveis outros casos de uso, incluindo a IA generativa.
A IBM está trabalhando com o ecossistema IBM LinuxONE para ajudar os ISVs a oferecer soluções para os atuais desafios de IA, sustentabilidade e cibersegurança.
Explore duas soluções inovadoras personalizadas para instituições financeiras e de saúde: Clari5 Enterprise Fraud Management on IBM LinuxONE 4 Express para prevenção de fraudes em tempo real e Enso Decision Intelligence Platform on LinuxONE da Exponential AI para soluções avançadas de IA em escala.
1 Aviso legal: os resultados de desempenho são baseados em testes internos da IBM executados no IBM Systems Hardware do tipo de máquina 9175. A aplicação OLTP e o PostgreSQL foram implementados no IBM Systems Hardware. A configuração de IA em conjunto para detecção de fraudes de cartão de crédito (CCFD) consiste em dois modelos (LSTM e TabFormer). Em IBM Systems Hardware, execução da aplicação OLTP com o arquivo JAR compilado pelo IBM Z Deep Learning Compiler (zDLC) e o IBM Z Accelerated for NVIDIA Triton Inference Server localmente, processando as operações de inferência de IA em núcleos e no Integrated Accelerator for IA, em comparação com a execução da aplicação OLTP localmente e processamento de operações de inferência de IA remotas em um X86 Server executando o NVIDIA Triton Inference Server com backend de tempo de execução OpenVino™ em CPU (com AMX). Cada cenário foi conduzido pelo Apache JMeter™ 5.6.3 com 64 usuários paralelos. Configuração do IBM Systems Hardware: um LPAR executando Ubuntu 24.04 com sete núcleos dedicados (SMT), 256 GB de memória e armazenamento IBM® FlashSystem 9500. Os adaptadores de rede foram dedicados para NETH no Linux. Configuração do X86 Server: um X86 Server executando Ubuntu 24.04 com 28 CPUs Emerald Rapids Intel® Xeon® Gold a 2,20 GHz com Hyper-Threading ativado, 1 TB de memória, SSDs locais, UEFI com perfil de desempenho máximo ativado, CPU P-State Control e C-States desabilitados. Os resultados podem variar.
2, 3 AVISO LEGAL: o resultado de desempenho foi extrapolado a partir de testes internos da IBM, executados em IBM Systems Hardware do tipo de máquina 9175. O benchmark foi executado com um thread realizando operações de inferência local usando um modelo sintético de detecção de fraudes de cartão de crédito baseado em LSTM para explorar o Integrated Accelerator for AI. Foi utilizado um tamanho de lote de 160. Configuração do IBM Systems Hardware: um LPAR executando o Red Hat® Enterprise Linux® 9.4 com seis núcleos (SMT), 128 GB de memória. Os resultados podem variar.