Série d’outils d’IA pour IBM Z et LinuxONE

Accélérez l’IA open source sur IBM® Z et LinuxONE avec des performances optimisées et une prise en charge fiable

Illustration montrant le workflow d’AI toolkit for IBM Z and IBM LinuxONE

Déployez l’IA rapidement et en toute confiance

AI Toolkit for IBM® Z and LinuxONE est une famille de frameworks d’IA open source pris en charge et optimisés pour le processeur Telum. Adoptez l’IA grâce à des conteneurs certifiés, à des accélérateurs intégrés et à l’assistance d’experts. Ces frameworks utilisent l’accélération d’IA sur puce dans z16LinuxONE 4z17 et LinuxONE 5.

Déploiement fiable de l’IA à grande échelle

Déployez l’IA open source avec IBM® Elite Support et des conteneurs approuvés par IBM pour la conformité, la sécurité et la fiabilité des logiciels non garantis.

IA accélérée en temps réel

L’accélérateur IA Telum II intégré à la puce IBM® z17 offre des performances d’inférence comparables à celles d’un serveur x86 doté de 13 cœurs dans le même système gérant des workloads de traitement des transactions en ligne (OLTP).1

Inférence à l’échelle

IBM® z17 et LinuxONE 5 permettent l’IA optimisée INT82, alimentant plusieurs modèles de notation prédictive, tout en fournissant jusqu’à 450 milliards d’opérations d’inférence quotidiennes avec un temps de réponse inférieur à 1 ms. Pour gérer ce type de résultats, ces outils utilisent un modèle de deep learning pour la détection des fraudes par carte de crédit.3

Prise en charge de plusieurs modèles d’IA

Déployez des modèles de ML, de DL et des grands modèles de langage (LLM) avec une inférence jusqu’à 3,5 fois plus rapide pour les prédictions.4 Intégrez de façon fluide PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX), et bien plus encore.

Fonctionnalités

Développez et déployez de façon fluide des modèles de machine learning (ML) avec des frameworks TensorFlow et PyTorch optimisés et adaptés à IBM® Z. Utilisez l’accélération intégrée pour améliorer les performances d’inférence des réseaux neuronaux.

Personne montrant une interaction avec l’IA sur un ordinateur portable
Compatible PyTorch

Accélérez l’intégration transparente de PyTorch avec IBM® Z Accelerated for PyTorch afin de développer et de déployer des modèles de ML sur des réseaux neuronaux.

Découvrir l’inférence PyTorch
Personne interagissant avec un écran montrant des réseaux
Compatible avec TensorFlow

Accélérez l’intégration transparente de TensorFlow à IBM® Z Accelerated for TensorFlow pour développer et déployer des modèles de ML sur des réseaux neuronaux.

Découvrez l’inférence TensorFlow
Personne dans une salle de serveurs devant un ordinateur portable
Modèles de ML avec TensorFlow Serving

Exploitez les avantages de TensorFlow Serving, un système de service flexible et haute performance, avec IBM® Z Accelerated for TensorFlow Serving pour aider le déploiement de modèles de ML en production.

Découvrir TensorFlow Serving
Deux personnes regardant un écran interactif
Serveur d’inférence NVIDIA Triton

Optimisé pour les processeurs IBM® Telum et Linux on Z, IBM® Z Accelerated pour le serveur d’inférence NVIDIA Triton permet une inférence d’IA hautes performances. L’outil offre une prise en charge du traitement par lots dynamique, de plusieurs frameworks et de backends personnalisés sur les CPU et les GPU.

Découvrir le serveur d’inférence Triton
Personne regardant un écran de bureau avec un ordinateur portable ouvert
Exécutez Snap ML

Utilisez IBM® Z Accelerated for Snap ML pour créer et déployer des modèles de ML avec Snap ML, un programme IBM non garanti qui optimise l’entraînement et la notation des modèles de ML populaires.

Découvrir IBM® Snap Machine Learning
Personne regardant trois écrans de bureau
Compilez des modèles de ML ONNX avec IBM® zDLC

Exploitez les capacités d’inférence accélérées sur puce Telum et Telum II avec les modèles ONNX qui utilisent le compilateur IBM® Z Deep Learning (IBM® zDLC) sur IBM® z/OS, zCX et LinuxONE. IBM® zDLC, un compilateur de modèles d’IA, est doté de fonctionnalités telles que l’auto-quantification pour les modèles de ML avec une latence réduite et une faible consommation d’énergie.

Découvrir IBM Deep Learning Compiler Utilisation des images de conteneur IBM® zDLC
Personne montrant une interaction avec l’IA sur un ordinateur portable
Compatible PyTorch

Accélérez l’intégration transparente de PyTorch avec IBM® Z Accelerated for PyTorch afin de développer et de déployer des modèles de ML sur des réseaux neuronaux.

Découvrir l’inférence PyTorch
Personne interagissant avec un écran montrant des réseaux
Compatible avec TensorFlow

Accélérez l’intégration transparente de TensorFlow à IBM® Z Accelerated for TensorFlow pour développer et déployer des modèles de ML sur des réseaux neuronaux.

Découvrez l’inférence TensorFlow
Personne dans une salle de serveurs devant un ordinateur portable
Modèles de ML avec TensorFlow Serving

Exploitez les avantages de TensorFlow Serving, un système de service flexible et haute performance, avec IBM® Z Accelerated for TensorFlow Serving pour aider le déploiement de modèles de ML en production.

Découvrir TensorFlow Serving
Deux personnes regardant un écran interactif
Serveur d’inférence NVIDIA Triton

Optimisé pour les processeurs IBM® Telum et Linux on Z, IBM® Z Accelerated pour le serveur d’inférence NVIDIA Triton permet une inférence d’IA hautes performances. L’outil offre une prise en charge du traitement par lots dynamique, de plusieurs frameworks et de backends personnalisés sur les CPU et les GPU.

Découvrir le serveur d’inférence Triton
Personne regardant un écran de bureau avec un ordinateur portable ouvert
Exécutez Snap ML

Utilisez IBM® Z Accelerated for Snap ML pour créer et déployer des modèles de ML avec Snap ML, un programme IBM non garanti qui optimise l’entraînement et la notation des modèles de ML populaires.

Découvrir IBM® Snap Machine Learning
Personne regardant trois écrans de bureau
Compilez des modèles de ML ONNX avec IBM® zDLC

Exploitez les capacités d’inférence accélérées sur puce Telum et Telum II avec les modèles ONNX qui utilisent le compilateur IBM® Z Deep Learning (IBM® zDLC) sur IBM® z/OS, zCX et LinuxONE. IBM® zDLC, un compilateur de modèles d’IA, est doté de fonctionnalités telles que l’auto-quantification pour les modèles de ML avec une latence réduite et une faible consommation d’énergie.

Découvrir IBM Deep Learning Compiler Utilisation des images de conteneur IBM® zDLC

Conteneurs sécurisés et conformes conçus par IBM

Conteneurs trouvés dans AI Toolkit for IBM® Z and LinuxONE

AI Toolkit comprend IBM® Elite Support (dans IBM® Selected Support) et  IBM® Secure Engineering. Ces outils vérifient et analysent les frameworks open source de service d’IA et les conteneurs certifiés IBM pour détecter les vulnérabilités de sécurité et valident la conformité avec réglementations du secteur.

Accès via IBM® Container Registry
Cas d’utilisation
Personne tenant une puce technologique
Traitement automatique du langage naturel en temps réel

Utilisez l’inférence d’IA sur puce pour analyser de grands volumes de données non structurées sur IBM® Z et LinuxONE. Fournissez des prédictions plus rapides et plus précises pour les chatbots, la classification de contenu et la compréhension du langage.

Personne tenant une carte de crédit
Détection des fraudes à la carte bancaire en quelques millisecondes

Avec jusqu’à 450 milliards d’opérations d’inférence par jour et un temps de réponse au 99,9e percentile en moins de 1 ms, détectez et contrez instantanément les activités frauduleuses à l’aide de modèles d’IA composites et de l’accélération Telum.5

Personne tapant sur une carte de crédit
Lutte contre le blanchiment d’argent à l’échelle

Identifiez les modèles suspects dans les transactions financières à l’aide de Snap ML et de Scikit-learn. Grâce à la compression des données, au chiffrement et à l’IA on-platform, améliorez la conformité AML sans sacrifier les performances ou la sécurité.

Passez à l’étape suivante

Découvrez comment AI Toolkit for IBM® Z and LinuxONE accélère l’IA open source grâce à des performances optimisées et à un support fiable.

Accès via IBM® Container Registry
Autres moyens d’information Documentation Support Services et assistance tout au long du cycle de vie Communauté
Notes de bas de page

L’utilisation d’un seul accélérateur intégré pour l’IA sur un workload OLTP sur IBM® z17 correspond au débit d’exécution de l’inférence sur un serveur x86 distant doté de 13 cœurs.

AVIS DE NON-RESPONSABILITÉ : Les résultats de performances sont basés sur des tests internes effectués par IBM sur du matériel IBM Systems de type machine 9175. L’application OLTP et PostgreSQL ont été déployés sur du matériel IBM Systems. La configuration d’IA de l’ensemble de détection de fraude par carte de crédit (CCFD) se compose de deux modèles (LSTM, TabFormer). Sur matériel IBM Systems, exécution de l’application OLTP avec le fichier jar compilé par IBM® Z Deep Learning Compiler (zDLC) et IBM® Z Accelerated for NVIDIA Triton Inference Server localement et traitement des opérations d’inférence IA sur les IFL et l’accélérateur intégré pour l’IA par rapport à l’exécution de l’application OLTP localement et au traitement des opérations d’inférence d’IA à distance sur un serveur x86 exécutant NVIDIA Triton Inference Server avec le backend d’exécution OpenVINO sur le processeur (avec AMX). Chaque scénario a été piloté par Apache JMeter 5.6.3 avec 64 utilisateurs en parallèle. Configuration matérielle IBM Systems : 1 LPAR exécutant Ubuntu 24.04 avec 7 IFL dédiés (SMT), 256 Go de mémoire et stockage IBM® FlashSystem 9500. Les adaptateurs réseau ont été dédiés à NETH sous Linux. Configuration du serveur x86 : 1 serveur x86 exécutant Ubuntu 24.04 avec 28 processeurs Emerald Rapids Intel Xeon Gold à 2,20 GHz avec hyperthreading activé, 1 To de mémoire, SSD locaux, UEFI avec profil de performances maximales activé, contrôle P-State du processeur et C-States désactivés. Les résultats peuvent varier.

Le processeur IBM® z17 Telum II prend en charge la quantification INT8, conçue pour réduire la latence d’inférence par rapport aux modèles non quantifiés.

AVIS DE NON-RESPONSABILITÉ : La prise en charge de la quantification INT8 dans le processeur IBM® z17 Telum II réduit et consigne les poids et les valeurs d’activation en nombres à virgules flottantes de 32 bits sous forme d’entiers de 8 bits. Cette réduction de la précision accélère les calculs et permet d’obtenir des temps d’inférence plus courts par rapport aux modèles non quantifiés

3,5 Avec IBM® z17, traitez jusqu’à 450 milliards d’opérations d’inférence par jour en utilisant plusieurs modèles d’IA pour la détection des fraudes à la carte de crédit.

AVIS DE NON-RESPONSABILITÉ : Les résultats de performance sont extrapolés à partir de tests internes IBM exécutés sur du matériel IBM Systems de type machine 9175. L’analyse comparative a été exécutée avec 64 threads effectuant des opérations d’inférence locales à l’aide d’un modèle synthétique de détection des fraudes par carte de crédit (CCFD) basé sur un LSTM et un modèle TabFormer. L’analyse comparative a exploité l’accélérateur intégré pour l’IA à l’aide d’IBM® Z Deep Learning Compiler (zDLC) et d’IBM® Z Accelerated for PyTorch. La configuration comprend 64 threads épinglés en groupes de 8 sur chaque puce (1 pour zDLC, 7 pour PyTorch). Le modèle TabFormer (transformateur tabulaire) a évalué 0,035 % des requêtes d’inférence. Une taille de lot de 160 a été utilisée pour le modèle basé sur LSTM. Configuration matérielle IBM Systems : 1 LPAR exécutant Ubuntu 24.04 avec 45 IFL (SMT), 128 Go de mémoire. Les résultats peuvent varier.

4 CLAUSE DE NON-RESPONSABILITÉ : Les résultats de performances sont basés sur des tests d’inférence internes réalisés par IBM à partir d’un modèle Random Forest avec un backend Snap ML v1.12.0 utilisant l’accélérateur intégré pour l’IA sur IBM Machine Type 3931, par rapport au backend  NVIDIA Forest Inference Library sur un serveur x86. Le modèle a été entraîné sur le jeu de données publiques suivant et NVIDIA Triton a été utilisé comme framework pour les deux plateformes. Le workload a été piloté via l’outil d’analyse comparative http Hey. Configuration IBM Machine Type 3931 : Ubuntu 22.04 dans une LPAR avec 6 IFL dédiées, 256 Go de mémoire. Configuration x86 : Ubuntu 22.04 sur 6 processeurs Ice Lake Intel Xeon Gold à 2,80 GHz avec hyperthreading activé, 1 To de mémoire.