Beschleunigen Sie Open-Source-KI auf IBM Z und LinuxONE mit optimierter Leistung und vertrauenswürdigem Support
AI Toolkit für IBM Z und LinuxONE ist eine Familie unterstützter Open-Source-KI-Frameworks, die für den Telum-Prozessor optimiert sind. Führen Sie KI mit zertifizierten Containern, integrierten Beschleunigern und Experten-Support ein. Diese Frameworks verwenden On-Chip-KI-Beschleunigung in z16, LinuxONE 4, z17 und LinuxONE 5.
Stellen Sie Open-Source-KI mit IBM Elite Support und von IBM geprüften Containern bereit, um Konformität, Sicherheit und unnötiges Software-Vertrauen zu gewährleisten.
Der On-Chip-KI-Beschleuniger Telum II von IBM z17 bietet eine Leistung, die mit der eines 13-Kern-x86-Servers innerhalb desselben Systems vergleichbar ist, das OLTP-Arbeitslasten (Online-Transaktionsverarbeitung) verwaltet.1
IBM z17 und LinuxONE 5 ermöglichen INT8-optimierte KI2, die mehrere Modelle zur Vorhersagebewertung ermöglicht und gleichzeitig bis zu 450 Milliarden tägliche Inferenzen mit einer Reaktionszeit von weniger als 1 ms liefert. Diese Tools verwalten solche Ergebnisse, da sie ein Deep-Learning-Modell zur Betrugserkennung verwenden.3
Bereitstellen Sie ML, DL und große Sprachmodelle (LLMs) mit bis zu 3,5-mal schnellerer Inferenz für Vorhersagen.4 Integrieren Sie nahtlos mit PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) und mehr.
Entwickeln und stellen Sie nahtlose auf maschinelles Lernen (ML) basierende Modelle mit optimierten TensorFlow- und PyTorch-Frameworks bereit, die speziell auf IBM Z zugeschnitten sind. Nutzen Sie integrierte Beschleunigung für eine verbesserte Leistung von Neural Networks.
Das KI Toolkit besteht aus IBM Elite Support (innerhalb von IBM Selected Support) und IBM Secure Engineering. Diese Tools überprüfen und scannen Open-Source-KI-Server-Frameworks und IBM-zertifizierte Container auf Sicherheitslücken und überprüfen die Einhaltung von Branchenvorschriften.
Nutzen Sie On-Chip-KI-Inferencing, um große Mengen unstrukturierter Daten auf IBM Z und LinuxONE zu analysieren. Liefern Sie schnellere und genauere Vorhersagen für Chatbot, Content Classification und Sprachverständnis.
Mit bis zu 450 Milliarden Schlussfolgerungen pro Tag und einer Reaktionszeit von unter 1 ms in 99,9 % der Fälle können Sie mithilfe von zusammengesetzten KI-Modellen und Telum-Beschleunigung betrügerische Aktivitäten sofort erkennen und darauf reagieren.5
Identifizieren Sie verdächtige Muster in Finanztransaktionen mit Snap ML und Scikit-Learn. Mit Datenkomprimierung, Verschlüsselung und plattforminterner KI verbessern Sie die AML-Reaktion ohne Abstriche bei der Leistung oder Sicherheit.
1 Die Verwendung eines einzelnen Integrated Accelerator for AI bei einer OLTP-Workload auf IBM z17 entspricht dem Durchsatz der Ausführung von Inferenzen auf einem vergleichbaren X86-Remote-Server mit 13 Kernen.
HAFTUNGSAUSSCHLUSS: Die Leistungsergebnisse basieren auf internen Tests von IBM, die auf IBM Systems Hardware Machine Type 9175 ausgeführt wurden. Die OLTP-Anwendung und PostgreSQL wurden auf der IBM Systems Hardware bereitgestellt. Das KI-Setup des Credit Card Fraud Detection (CCFD) Ensembles besteht aus zwei Modellen (LSTM, TabFormer). Auf IBM Systems Hardware wurde die OLTP-Anwendung mit dem IBM Z Deep Learning Compiler (zDLC) kompiliertem JAR und IBM Z Accelerated for NVIDIA Triton Inference Server lokal ausgeführt, die KI-Inferenzoperationen auf IFLs und dem Integrated Accelerator for AI im Gegensatz zur Ausführung der OLTP Anwendung lokal und die Remote KI-Inferenzvorgänge auf einem x86 Server verarbeitet, auf dem NVIDIA Triton Inference Server mit OpenVino Laufzeit-Backend auf CPU (mit AMX) ausgeführt wird. Jedes Szenario wurde von Apache JMeter 5.6.3 mit 64 parallelen Benutzern gesteuert. Konfiguration von IBM Systems Hardware: 1 LPAR mit Ubuntu 24.04 mit 7 dedizierten IFLs (SMT), 256 GB Arbeitsspeicher und IBM FlashSystem 9500 Speicher. Die Netzwerkadapter waren für NETH unter Linux dediziert. x86-Server-Konfiguration: 1 x86-Server mit Ubuntu 24.04 mit 28 Emerald Rapids Intel Xeon Gold CPUs @ 2,20 GHz mit aktiviertem Hyper-Threading, 1 TB Arbeitsspeicher, lokalen SSDs, UEFI mit aktiviertem maximalen Leistungsprofil, CPU-P-Statussteuerung und C-Status deaktiviert. Die Ergebnisse können abweichen.
2 Der IBM z17 Telum II-Prozessor unterstützt die INT8-Quantifizierung, die die Latenz im Vergleich zu den nicht quantifizierten Modellen reduzieren soll.
HAFTUNGSAUSSCHLUSS: Die Unterstützung der INT8-Quantifizierung im IBM z17 Telum II-Prozessor reduziert und speichert die Gewichtungen und Aktivierungen von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen. Diese geringere Präzision ermöglicht schnellere Berechnungen, was zu kürzeren Inferenzzeiten im Vergleich zu den nicht quantifizierten Modellen führen kann.
3,5 Verarbeiten Sie mit IBM z17 bis zu 450 Milliarden Inferenzoperationen pro Tag unter Verwendung mehrerer KI-Modelle zur Erkennung von Kreditkartenbetrug.
HAFTUNGSAUSSCHLUSS: Das Ergebnis der Leistung wurde aus internen Tests von IBM extrapoliert, die auf IBM Systems Hardware des Maschinentyps 9175 durchgeführt wurden. Die Benchmark wurde mit 64 Threads ausgeführt, die lokale Inferenzoperationen unter Verwendung eines synthetischen Kreditkarten-Betrugserkennungsmodells (CCFD) auf der Grundlage eines LSTM- und eines TabFormer-Modells durchführten. Der Benchmark nutzte den Integrated Accelerator für KI mit IBM Z Deep Learning Compiler (zDLC) und IBM Z Accelerated for PyTorch. Der Aufbau besteht aus 64 Threads, die in Gruppen von 8 an jeden Chip gepinnt sind (1 für zDLC, 7 für PyTorch). Das TabFormer-Modell (Tabular Transformer) hat 0,035 % der Inferenzanfragen ausgewertet. Für das LSTM-basierte Modell wurde eine Batch-Größe von 160 verwendet. IBM Systems Hardwarekonfiguration: 1 LPAR mit Ubuntu 24.04 mit 45 IFLs (SMT), 128 GB Arbeitsspeicher. Die Ergebnisse können abweichen.
4 HAFTUNGSAUSSCHLUSS: Die Leistungsergebnisse basieren auf internen IBM-Tests, bei denen Inferenzen mit einem Random Forest-Modell mit Snap ML v1.12.0-Backend durchgeführt wurden, das den Integrated Accelerator für KI auf IBM Machine Type 3931 im Vergleich zum NVIDIA Forest Inference Library-Backend auf einem verglichenen x86-Server verwendet. Das Modell wurde anhand des folgenden öffentlichen Datensatzes trainiert und NVIDIA Triton™ auf beiden Plattformen als Model Serving Framework verwendet. Das Workload wurde über das http-Benchmarking-Tool Hey gesteuert. IBM Machine Typ 3931 Konfiguration: Ubuntu 22.04 in einer LPAR mit 6 dedizierten IFLs, 256 GB Speicher. x86-Konfiguration: Ubuntu 22.04 auf 6 Ice Lake Intel Xeon Gold CPU @ 2.80GHz mit aktiviertem Hyper-Threading, 1 TB Speicher.