Accélérez l’IA open source sur IBM® Z et LinuxONE avec des performances optimisées et une prise en charge fiable
AI Toolkit for IBM® Z and LinuxONE est une famille de frameworks d’IA open source pris en charge et optimisés pour le processeur Telum. Adoptez l’IA grâce à des conteneurs certifiés, à des accélérateurs intégrés et à l’assistance d’experts. Ces frameworks utilisent l’accélération d’IA sur puce dans z16, LinuxONE 4, z17 et LinuxONE 5.
Déployez l’IA open source avec IBM® Elite Support et des conteneurs approuvés par IBM pour la conformité, la sécurité et la fiabilité des logiciels non garantis.
L’accélérateur IA Telum II intégré à la puce IBM® z17 offre des performances d’inférence comparables à celles d’un serveur x86 doté de 13 cœurs dans le même système gérant des workloads de traitement des transactions en ligne (OLTP).1
IBM® z17 et LinuxONE 5 permettent l’IA optimisée INT82, alimentant plusieurs modèles de notation prédictive, tout en fournissant jusqu’à 450 milliards d’opérations d’inférence quotidiennes avec un temps de réponse inférieur à 1 ms. Pour gérer ce type de résultats, ces outils utilisent un modèle de deep learning pour la détection des fraudes par carte de crédit.3
Déployez des modèles de ML, de DL et des grands modèles de langage (LLM) avec une inférence jusqu’à 3,5 fois plus rapide pour les prédictions.4 Intégrez de façon fluide PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX), et bien plus encore.
Développez et déployez de façon fluide des modèles de machine learning (ML) avec des frameworks TensorFlow et PyTorch optimisés et adaptés à IBM® Z. Utilisez l’accélération intégrée pour améliorer les performances d’inférence des réseaux neuronaux.
AI Toolkit comprend IBM® Elite Support (dans IBM® Selected Support) et IBM® Secure Engineering. Ces outils vérifient et analysent les frameworks open source de service d’IA et les conteneurs certifiés IBM pour détecter les vulnérabilités de sécurité et valident la conformité avec réglementations du secteur.
Utilisez l’inférence d’IA sur puce pour analyser de grands volumes de données non structurées sur IBM® Z et LinuxONE. Fournissez des prédictions plus rapides et plus précises pour les chatbots, la classification de contenu et la compréhension du langage.
Avec jusqu’à 450 milliards d’opérations d’inférence par jour et un temps de réponse au 99,9e percentile en moins de 1 ms, détectez et contrez instantanément les activités frauduleuses à l’aide de modèles d’IA composites et de l’accélération Telum.5
Identifiez les modèles suspects dans les transactions financières à l’aide de Snap ML et de Scikit-learn. Grâce à la compression des données, au chiffrement et à l’IA on-platform, améliorez la conformité AML sans sacrifier les performances ou la sécurité.
1 L’utilisation d’un seul accélérateur intégré pour l’IA sur un workload OLTP sur IBM® z17 correspond au débit d’exécution de l’inférence sur un serveur x86 distant doté de 13 cœurs.
AVIS DE NON-RESPONSABILITÉ : Les résultats de performances sont basés sur des tests internes effectués par IBM sur du matériel IBM Systems de type machine 9175. L’application OLTP et PostgreSQL ont été déployés sur du matériel IBM Systems. La configuration d’IA de l’ensemble de détection de fraude par carte de crédit (CCFD) se compose de deux modèles (LSTM, TabFormer). Sur matériel IBM Systems, exécution de l’application OLTP avec le fichier jar compilé par IBM® Z Deep Learning Compiler (zDLC) et IBM® Z Accelerated for NVIDIA Triton Inference Server localement et traitement des opérations d’inférence IA sur les IFL et l’accélérateur intégré pour l’IA par rapport à l’exécution de l’application OLTP localement et au traitement des opérations d’inférence d’IA à distance sur un serveur x86 exécutant NVIDIA Triton Inference Server avec le backend d’exécution OpenVINO sur le processeur (avec AMX). Chaque scénario a été piloté par Apache JMeter 5.6.3 avec 64 utilisateurs en parallèle. Configuration matérielle IBM Systems : 1 LPAR exécutant Ubuntu 24.04 avec 7 IFL dédiés (SMT), 256 Go de mémoire et stockage IBM® FlashSystem 9500. Les adaptateurs réseau ont été dédiés à NETH sous Linux. Configuration du serveur x86 : 1 serveur x86 exécutant Ubuntu 24.04 avec 28 processeurs Emerald Rapids Intel Xeon Gold à 2,20 GHz avec hyperthreading activé, 1 To de mémoire, SSD locaux, UEFI avec profil de performances maximales activé, contrôle P-State du processeur et C-States désactivés. Les résultats peuvent varier.
2 Le processeur IBM® z17 Telum II prend en charge la quantification INT8, conçue pour réduire la latence d’inférence par rapport aux modèles non quantifiés.
AVIS DE NON-RESPONSABILITÉ : La prise en charge de la quantification INT8 dans le processeur IBM® z17 Telum II réduit et consigne les poids et les valeurs d’activation en nombres à virgules flottantes de 32 bits sous forme d’entiers de 8 bits. Cette réduction de la précision accélère les calculs et permet d’obtenir des temps d’inférence plus courts par rapport aux modèles non quantifiés
3,5 Avec IBM® z17, traitez jusqu’à 450 milliards d’opérations d’inférence par jour en utilisant plusieurs modèles d’IA pour la détection des fraudes à la carte de crédit.
AVIS DE NON-RESPONSABILITÉ : Les résultats de performance sont extrapolés à partir de tests internes IBM exécutés sur du matériel IBM Systems de type machine 9175. L’analyse comparative a été exécutée avec 64 threads effectuant des opérations d’inférence locales à l’aide d’un modèle synthétique de détection des fraudes par carte de crédit (CCFD) basé sur un LSTM et un modèle TabFormer. L’analyse comparative a exploité l’accélérateur intégré pour l’IA à l’aide d’IBM® Z Deep Learning Compiler (zDLC) et d’IBM® Z Accelerated for PyTorch. La configuration comprend 64 threads épinglés en groupes de 8 sur chaque puce (1 pour zDLC, 7 pour PyTorch). Le modèle TabFormer (transformateur tabulaire) a évalué 0,035 % des requêtes d’inférence. Une taille de lot de 160 a été utilisée pour le modèle basé sur LSTM. Configuration matérielle IBM Systems : 1 LPAR exécutant Ubuntu 24.04 avec 45 IFL (SMT), 128 Go de mémoire. Les résultats peuvent varier.
4 CLAUSE DE NON-RESPONSABILITÉ : Les résultats de performances sont basés sur des tests d’inférence internes réalisés par IBM à partir d’un modèle Random Forest avec un backend Snap ML v1.12.0 utilisant l’accélérateur intégré pour l’IA sur IBM Machine Type 3931, par rapport au backend NVIDIA Forest Inference Library sur un serveur x86. Le modèle a été entraîné sur le jeu de données publiques suivant et NVIDIA Triton a été utilisé comme framework pour les deux plateformes. Le workload a été piloté via l’outil d’analyse comparative http Hey. Configuration IBM Machine Type 3931 : Ubuntu 22.04 dans une LPAR avec 6 IFL dédiées, 256 Go de mémoire. Configuration x86 : Ubuntu 22.04 sur 6 processeurs Ice Lake Intel Xeon Gold à 2,80 GHz avec hyperthreading activé, 1 To de mémoire.