Accelera l'AI open source su IBM Z e LinuxONE con prestazioni ottimizzate e supporto affidabile
L'AI Toolkit for IBM Z and LinuxONE è una famiglia di framework AI open source supportati e ottimizzati per il processore Telum. Adotta l'AI con container certificati, acceleratori integrati e il supporto degli esperti. Questi framework utilizzano l'accelerazione AI su chip in z16, LinuxONE 4, z17 e LinuxONE 5.
Implementa l'AI open source con IBM Elite Support e con i container approvati da IBM per la conformità, la sicurezza e l'affidabilità del software non garantito.
L'acceleratore AI on-chip Telum II di IBM z17 offre prestazioni di inferenza paragonabili a quelle di un x86 Server a 13 core all'interno dello stesso sistema che gestisce i workload di OLTP (Online Transaction Processing).1
IBM z17 e LinuxONE 5 abilitano l'AI2 ottimizzata per INT8, alimentando il punteggio predittivo di più modelli, mentre forniscono fino a 450 miliardi di inferenze giornaliere con un tempo di risposta inferiore a 1 ms. Questi strumenti gestiscono tali risultati perché utilizzano un modello di deep learning per il rilevamento delle frodi con carta di credito.3
Implementa ML, DL e modelli linguistici di grandi dimensioni (LLM) con inferenza fino a 3,5 volte più veloce per le previsioni.4 Si integra perfettamente con PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) e molto altro.
Sviluppa e implementa in modo ottimale modelli di machine learning (ML) con framework TensorFlow e PyTorch ottimizzati e su misura per IBM Z. Usa l'accelerazione integrata per migliorare le prestazioni di inferenza delle reti neurali.
L'AI Toolkit è composto da IBM Elite Support (all'interno di IBM Selected Support) e IBM Secure Engineering. Questi strumenti analizzano e scansionano i framework che servono l'AI open source e i container certificati IBM per individuare le vulnerabilità della sicurezza e verificare la conformità alle normative di settore.
Utilizza l'inferenza AI su chip per analizzare grandi volumi di dati non strutturati su IBM Z e LinuxONE. Fornisci previsioni più rapide e accurate per chatbot, content classification e comprensione del linguaggio.
Con una quantità di inferenze fino a 450 miliardi al giorno e una risposta del 99,9 percentile inferiore a 1 ms, rileva e agisci sulle attività fraudolente istantaneamente grazie ai modelli AI e all'accelerazione di Telum.5
Identifica i pattern sospetti nelle transazioni finanziarie utilizzando Snap ML e Scikit-learn. Grazie alla compressione dei dati, alla crittografia e all'AI integrata nella piattaforma, è possibile migliorare la risposta AML senza compromettere le prestazioni o la sicurezza.
1 L'utilizzo di un singolo Integrated Accelerator for AI su un workload OLTP su IBM z17 corrisponde al throughput dell'esecuzione dell'inferenza su un x86 Server remoto comparato con 13 core.
DICHIARAZIONE DI NON RESPONSABILITÀ: i risultati delle prestazioni si basano su test interni di IBM® eseguiti su una macchina hardware IBM Systems tipo 9175. L'applicazione OLTP e PostgreSQL erano implementati sull'hardware IBM Systems. La configurazione AI di Credit Card Fraud Detection (CCFD) è costituita da due modelli (LSTM, TabFormer). Sull'hardware IBM Systems che eseguiva l'applicazione OLTP con il compiled jar IBM Z Deep Learning Compiler (zDLC) e con IBM Z Accelerated for NVIDIA Triton Inference Server in locale ed elaborava le operazioni di inferenza AI su IFL e sull'Integrated Accelerator for AI rispetto all'esecuzione locale dell'applicazione OLTP e all'elaborazione delle operazioni di inferenza AI remote su un x86 Server che eseguiva NVIDIA Triton Inference Server con runtime OpenVINO backend su CPU (con AMX). Ogni scenario è stato progettato da Apache JMeter 5.6.3 con 64 utenti paralleli. Configurazione hardware di IBM Systems: 1 LPAR che eseguiva Ubuntu 24.04 con 7 IFL dedicati (SMT), 256 GB di memoria e storage IBM FlashSystem 9500. Gli adattatori di rete erano dedicati per NETH su Linux. Configurazione x86 Server: 1 x86 Server che eseguiva Ubuntu 24.04 con 28 CPU Emerald Rapids Intel Xeon Gold a 2,20 GHz con hyper-threading attivato, 1 TB di memoria, SSD locali, UEFI con profilo di prestazioni massimo abilitato, controllo CPU P-State e C-State disabilitati. I risultati sono soggetti a variazioni.
2 Il processore IBM z17 Telum II supporta la quantizzazione INT8, progettata per ridurre la latenza di inferenza rispetto ai modelli non quantizzati.
DICHIARAZIONE DI NON RESPONSABILITÀ: il supporto per la quantizzazione INT8 nel processore IBM z17 Telum II riduce e memorizza i pesi e le attivazioni da numeri in virgola mobile a 32 bit a numeri interi a 8 bit. Questa riduzione della precisione consente calcoli più rapidi che possono portare a tempi di inferenza inferiori rispetto ai modelli non quantizzati
3,5 Con IBM z17 è possibile elaborare fino a 450 miliardi di operazioni di inferenza al giorno utilizzando più modelli AI per il rilevamento delle frodi sulle carte di credito.
DICHIARAZIONE DI NON RESPONSABILITÀ: il risultato delle prestazioni è estrapolato dai test interni di IBM eseguiti su una macchina hardware IBM Systems tipo 9175. Il benchmark è stato eseguito con 64 thread che eseguono operazioni di inferenza locale utilizzando un modello sintetico di rilevamento delle frodi con carta di credito (CCFD) basato su un LSTM e un modello TabFormer. Il benchmark ha utilizzato l'Integrated Accelerator for AI tramite IBM Z Deep Learning Compiler (zDLC) e IBM Z Accelerated for PyTorch. La configurazione è composta da 64 thread presenti in gruppi di 8 su ciascun chip (1 per zDLC, 7 per PyTorch). Il modello TabFormer (trasformatore tabulare) ha valutato lo 0,035% delle richieste di inferenza. Per il modello basato su LSTM è stata utilizzata una dimensione del lotto di 160. Configurazione hardware di IBM Systems: 1 LPAR che eseguiva Ubuntu 24.04 con 45 IFL (SMT), 128 GB di memoria. I risultati sono soggetti a variazioni.
4 DICHIARAZIONE DI NON RESPONSABILITÀ: risultati delle prestazioni basati su test interni di IBM che eseguono inferenze utilizzando un modello Random Forest con backend Snap ML v1.12.0 che utilizza l'acceleratore integrato per AI su macchina IBM tipo 3931 rispetto al backend NVIDIA Forest Inference Library sul server x86 comparato. Il modello è stato addestrato sul seguente set di dati pubblici e su entrambe le piattaforme è stato utilizzato NVIDIA Triton come framework di servizio del modello. Il workload è stato gestito tramite lo strumento di benchmarking http Hey. Configurazione della macchina IBM tipo 3931: Ubuntu 22.04 in un LPAR con 6 IFL dedicati, 256 GB di memoria. Configurazione x86: Ubuntu 22.04 su 6 CPU Ice Lake Intel Xeon Gold a 2,80 GHz con hyper-threading attivato, 1 TB di memoria.