Toolkit AI per IBM Z e LinuxONE

Accelera l'AI open source su IBM Z e LinuxONE con prestazioni ottimizzate e supporto affidabile

Un'illustrazione che mostra il toolkit AI per il workflow IBM Z e IBM LinuxONE

Implementa l'AI in modo sicuro e veloce

L'AI Toolkit for IBM Z and LinuxONE è una famiglia di framework AI open source supportati e ottimizzati per il processore Telum. Adotta l'AI con container certificati, acceleratori integrati e il supporto degli esperti. Questi framework utilizzano l'accelerazione AI su chip in z16, LinuxONE 4, z17 e LinuxONE 5.

Implementazione sicura dell'AI su larga scala

Implementa l'AI open source con IBM Elite Support e con i container approvati da IBM per la conformità, la sicurezza e l'affidabilità del software non garantito.

AI accelerata in tempo reale

L'acceleratore AI on-chip Telum II di IBM z17 offre prestazioni di inferenza paragonabili a quelle di un x86 Server a 13 core all'interno dello stesso sistema che gestisce i workload di OLTP (Online Transaction Processing).1

Inferenza su larga scala

IBM z17 e LinuxONE 5 abilitano l'AI2 ottimizzata per INT8, alimentando il punteggio predittivo di più modelli, mentre forniscono fino a 450 miliardi di inferenze giornaliere con un tempo di risposta inferiore a 1 ms. Questi strumenti gestiscono tali risultati perché utilizzano un modello di deep learning per il rilevamento delle frodi con carta di credito.3

Supporto per più modelli AI

Implementa ML, DL e modelli linguistici di grandi dimensioni (LLM) con inferenza fino a 3,5 volte più veloce per le previsioni.4 Si integra perfettamente con PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) e molto altro.

Funzionalità

Sviluppa e implementa in modo ottimale modelli di machine learning (ML) con framework TensorFlow e PyTorch ottimizzati e su misura per IBM Z. Usa l'accelerazione integrata per migliorare le prestazioni di inferenza delle reti neurali.

Una persona su un laptop che mostra l'interazione con l'AI
Compatibile con PyTorch

Accelera la perfetta integrazione di PyTorch con IBM Z Accelerated for PyTorch per sviluppare e implementare modelli di ML su reti neurali.

Esplora l'inferenza PyTorch
Una persona che interagisce con una schermata che mostra delle reti.
Compatibilità con TensorFlow

Consenti la perfetta integrazione di TensorFlow con IBM Z Accelerated for TensorFlow per sviluppare e implementare modelli ML su reti neurali.

Esplora l'inferenza di TensorFlow
Una persona in una sala server su un laptop.
Modelli di apprendimento automatico con TensorFlow Serving

Utilizza i benefici di TensorFlow Serving, un sistema di servizi flessibile e ad alte prestazioni, con IBM Z Accelerated for TensorFlow Serving per facilitare la distribuzione dei modelli di ML in produzione.

Esplora TensorFlow Serving
Due persone che guardano uno schermo interattivo
NVIDIA Triton Inference Server

Ottimizzato per i processori IBM Telum e Linux su Z, IBM Z Accelerated for NVIDIA Triton Inference Server supporta l'inferenza AI ad alte prestazioni. Lo strumento offre supporto per l'elaborazione dinamica in batch, framework multipli e backend personalizzati su CPU e GPU.

Scopri Triton Inference Server
Una persona che guarda lo schermo di un desktop con un laptop aperto.
Esegui Snap ML

Utilizza IBM Z Accelerated for Snap ML per costruire e implementare modelli di ML con Snap ML, un programma IBM non garantito che ottimizza l'addestramento e la valutazione dei più diffusi modelli di ML.

Esplora il machine learning IBM Snap
Una persona che guarda tre schermi di computer.
Compila modelli ML ONNX con IBM zDLC

Usa le funzionalità di inferenza accelerata su chip Telum e Telum II con modelli ONNX che utilizzano l'IBM Z Deep Learning Compiler (IBM zDLC) su IBM z/OS, zCx e LinuxONE. IBM zDLC, un compilatore di modelli AI, fornisce funzionalità come la quantizzazione automatica per i modelli di ML con latenza e consumi energetici ridotti.

Esplora IBM Deep Learning Compiler Utilizzo delle immagini del contenitore IBM zDLC
Una persona su un laptop che mostra l'interazione con l'AI
Compatibile con PyTorch

Accelera la perfetta integrazione di PyTorch con IBM Z Accelerated for PyTorch per sviluppare e implementare modelli di ML su reti neurali.

Esplora l'inferenza PyTorch
Una persona che interagisce con una schermata che mostra delle reti.
Compatibilità con TensorFlow

Consenti la perfetta integrazione di TensorFlow con IBM Z Accelerated for TensorFlow per sviluppare e implementare modelli ML su reti neurali.

Esplora l'inferenza di TensorFlow
Una persona in una sala server su un laptop.
Modelli di apprendimento automatico con TensorFlow Serving

Utilizza i benefici di TensorFlow Serving, un sistema di servizi flessibile e ad alte prestazioni, con IBM Z Accelerated for TensorFlow Serving per facilitare la distribuzione dei modelli di ML in produzione.

Esplora TensorFlow Serving
Due persone che guardano uno schermo interattivo
NVIDIA Triton Inference Server

Ottimizzato per i processori IBM Telum e Linux su Z, IBM Z Accelerated for NVIDIA Triton Inference Server supporta l'inferenza AI ad alte prestazioni. Lo strumento offre supporto per l'elaborazione dinamica in batch, framework multipli e backend personalizzati su CPU e GPU.

Scopri Triton Inference Server
Una persona che guarda lo schermo di un desktop con un laptop aperto.
Esegui Snap ML

Utilizza IBM Z Accelerated for Snap ML per costruire e implementare modelli di ML con Snap ML, un programma IBM non garantito che ottimizza l'addestramento e la valutazione dei più diffusi modelli di ML.

Esplora il machine learning IBM Snap
Una persona che guarda tre schermi di computer.
Compila modelli ML ONNX con IBM zDLC

Usa le funzionalità di inferenza accelerata su chip Telum e Telum II con modelli ONNX che utilizzano l'IBM Z Deep Learning Compiler (IBM zDLC) su IBM z/OS, zCx e LinuxONE. IBM zDLC, un compilatore di modelli AI, fornisce funzionalità come la quantizzazione automatica per i modelli di ML con latenza e consumi energetici ridotti.

Esplora IBM Deep Learning Compiler Utilizzo delle immagini del contenitore IBM zDLC

Contenitori sicuri e conformi di IBM

Contenitori disponibili nell'AI Toolkit for IBM Z and LinuxONE

L'AI Toolkit è composto da IBM Elite Support (all'interno di IBM Selected Support) e IBM Secure Engineering. Questi strumenti analizzano e scansionano i framework che servono l'AI open source e i container certificati IBM per individuare le vulnerabilità della sicurezza e verificare la conformità alle normative di settore.

Accesso tramite IBM Container Registry
Casi d’uso
Una persona che tiene in mano un chip tecnologico
Elaborazione del linguaggio naturale in tempo reale

Utilizza l'inferenza AI su chip per analizzare grandi volumi di dati non strutturati su IBM Z e LinuxONE. Fornisci previsioni più rapide e accurate per chatbot, content classification e comprensione del linguaggio.

Una persona che tiene in mano una carta di credito
Rilevamento delle frodi con carta di credito in millisecondi

Con una quantità di inferenze fino a 450 miliardi al giorno e una risposta del 99,9 percentile inferiore a 1 ms, rileva e agisci sulle attività fraudolente istantaneamente grazie ai modelli AI e all'accelerazione di Telum.5

Una persona che appoggia una carta di credito
Antiriciclaggio su larga scala

Identifica i pattern sospetti nelle transazioni finanziarie utilizzando Snap ML e Scikit-learn. Grazie alla compressione dei dati, alla crittografia e all'AI integrata nella piattaforma, è possibile migliorare la risposta AML senza compromettere le prestazioni o la sicurezza.

Prossimi passi

Scopri come l'AI Toolkit for IBM Z and LinuxONE accelera l'AI open source con prestazioni ottimizzate e supporto affidabile.

Accesso tramite IBM Container Registry
Approfondisci Documentazione Supporto Supporto e servizi per il ciclo di vita Community
Note a piè di pagina

L'utilizzo di un singolo Integrated Accelerator for AI su un workload OLTP su IBM z17 corrisponde al throughput dell'esecuzione dell'inferenza su un x86 Server remoto comparato con 13 core.

DICHIARAZIONE DI NON RESPONSABILITÀ: i risultati delle prestazioni si basano su test interni di IBM® eseguiti su una macchina hardware IBM Systems tipo 9175. L'applicazione OLTP e PostgreSQL erano implementati sull'hardware IBM Systems. La configurazione AI di Credit Card Fraud Detection (CCFD) è costituita da due modelli (LSTM, TabFormer). Sull'hardware IBM Systems che eseguiva l'applicazione OLTP con il compiled jar IBM Z Deep Learning Compiler (zDLC) e con IBM Z Accelerated for NVIDIA Triton Inference Server in locale ed elaborava le operazioni di inferenza AI su IFL e sull'Integrated Accelerator for AI rispetto all'esecuzione locale dell'applicazione OLTP e all'elaborazione delle operazioni di inferenza AI remote su un x86 Server che eseguiva NVIDIA Triton Inference Server con runtime OpenVINO backend su CPU (con AMX). Ogni scenario è stato progettato da Apache JMeter 5.6.3 con 64 utenti paralleli. Configurazione hardware di IBM Systems: 1 LPAR che eseguiva Ubuntu 24.04 con 7 IFL dedicati (SMT), 256 GB di memoria e storage IBM FlashSystem 9500. Gli adattatori di rete erano dedicati per NETH su Linux. Configurazione x86 Server: 1 x86 Server che eseguiva Ubuntu 24.04 con 28 CPU Emerald Rapids Intel Xeon Gold a 2,20 GHz con hyper-threading attivato, 1 TB di memoria, SSD locali, UEFI con profilo di prestazioni massimo abilitato, controllo CPU P-State e C-State disabilitati. I risultati sono soggetti a variazioni.

Il processore IBM z17 Telum II supporta la quantizzazione INT8, progettata per ridurre la latenza di inferenza rispetto ai modelli non quantizzati.

DICHIARAZIONE DI NON RESPONSABILITÀ: il supporto per la quantizzazione INT8 nel processore IBM z17 Telum II riduce e memorizza i pesi e le attivazioni da numeri in virgola mobile a 32 bit a numeri interi a 8 bit. Questa riduzione della precisione consente calcoli più rapidi che possono portare a tempi di inferenza inferiori rispetto ai modelli non quantizzati

3,5 Con IBM z17 è possibile elaborare fino a 450 miliardi di operazioni di inferenza al giorno utilizzando più modelli AI per il rilevamento delle frodi sulle carte di credito.

DICHIARAZIONE DI NON RESPONSABILITÀ: il risultato delle prestazioni è estrapolato dai test interni di IBM eseguiti su una macchina hardware IBM Systems tipo 9175. Il benchmark è stato eseguito con 64 thread che eseguono operazioni di inferenza locale utilizzando un modello sintetico di rilevamento delle frodi con carta di credito (CCFD) basato su un LSTM e un modello TabFormer. Il benchmark ha utilizzato l'Integrated Accelerator for AI tramite IBM Z Deep Learning Compiler (zDLC) e IBM Z Accelerated for PyTorch. La configurazione è composta da 64 thread presenti in gruppi di 8 su ciascun chip (1 per zDLC, 7 per PyTorch). Il modello TabFormer (trasformatore tabulare) ha valutato lo 0,035% delle richieste di inferenza. Per il modello basato su LSTM è stata utilizzata una dimensione del lotto di 160. Configurazione hardware di IBM Systems: 1 LPAR che eseguiva Ubuntu 24.04 con 45 IFL (SMT), 128 GB di memoria. I risultati sono soggetti a variazioni.

4 DICHIARAZIONE DI NON RESPONSABILITÀ: risultati delle prestazioni basati su test interni di IBM che eseguono inferenze utilizzando un modello Random Forest con backend Snap ML v1.12.0 che utilizza l'acceleratore integrato per AI su macchina IBM tipo 3931 rispetto al backend NVIDIA Forest Inference Library sul server x86 comparato. Il modello è stato addestrato sul seguente set di dati pubblici e su entrambe le piattaforme è stato utilizzato NVIDIA Triton come framework di servizio del modello. Il workload è stato gestito tramite lo strumento di benchmarking http Hey. Configurazione della macchina IBM tipo 3931: Ubuntu 22.04 in un LPAR con 6 IFL dedicati, 256 GB di memoria. Configurazione x86: Ubuntu 22.04 su 6 CPU Ice Lake Intel Xeon Gold a 2,80 GHz con hyper-threading attivato, 1 TB di memoria.