AI Toolkit for IBM Z und LinuxONE

Beschleunigen Sie Open-Source-KI auf IBM Z und LinuxONE mit optimierter Leistung und vertrauenswürdigem Support

Eine Abbildung, die das KI-Toolkit für IBM Z und IBM LinuxONE Workflow zeigt

KI schnell und zuverlässig bereitstellen

AI Toolkit für IBM Z und LinuxONE ist eine Familie unterstützter Open-Source-KI-Frameworks, die für den Telum-Prozessor optimiert sind. Führen Sie KI mit zertifizierten Containern, integrierten Beschleunigern und Experten-Support ein. Diese Frameworks verwenden On-Chip-KI-Beschleunigung in z16LinuxONE 4z17 und LinuxONE 5.

Zuverlässige KI-Bereitstellung in großem Maßstab

Stellen Sie Open-Source-KI mit IBM Elite Support und von IBM geprüften Containern bereit, um Konformität, Sicherheit und unnötiges Software-Vertrauen zu gewährleisten.

Beschleunigte KI in Echtzeit

Der On-Chip-KI-Beschleuniger Telum II von IBM z17 bietet eine Leistung, die mit der eines 13-Kern-x86-Servers innerhalb desselben Systems vergleichbar ist, das OLTP-Arbeitslasten (Online-Transaktionsverarbeitung) verwaltet.1

Umfangreiche Rückschlüsse

IBM z17 und LinuxONE 5 ermöglichen INT8-optimierte KI2, die mehrere Modelle zur Vorhersagebewertung ermöglicht und gleichzeitig bis zu 450 Milliarden tägliche Inferenzen mit einer Reaktionszeit von weniger als 1 ms liefert. Diese Tools verwalten solche Ergebnisse, da sie ein Deep-Learning-Modell zur Betrugserkennung verwenden.3

Unterstützung für mehrere KI-Modelle

Bereitstellen Sie ML, DL und große Sprachmodelle (LLMs) mit bis zu 3,5-mal schnellerer Inferenz für Vorhersagen.4 Integrieren Sie nahtlos mit PyTorch, TensorFlow, Snap ML, Open Neural Network Exchange (ONNX) und mehr.

Funktionen

Entwickeln und stellen Sie nahtlose auf maschinelles Lernen (ML) basierende Modelle mit optimierten TensorFlow- und PyTorch-Frameworks bereit, die speziell auf IBM Z zugeschnitten sind. Nutzen Sie integrierte Beschleunigung für eine verbesserte Leistung von Neural Networks.

Eine Person an einem Laptop, die Interaktion mit KI zeigt
PyTorch-kompatibel

Beschleunigen Sie die nahtlose Integration von PyTorch mit IBM Z Accelerated for PyTorch, um ML-Modelle auf neuronalen Netzen zu entwickeln und bereitzustellen.

Erkunden Sie die PyTorch-Inferenz
Eine Person, die mit einem Bildschirm interagiert, auf dem Netzwerke angezeigt werden.
Kompatibel mit TensorFlow

Beschleunigen Sie die nahtlose Integration von TensorFlow mit IBM Z Accelerated for TensorFlow, um ML-Modelle auf neuralen Netzwerken zu entwickeln und bereitzustellen.

Erkunden Sie die TensorFlow-Inferenz
Eine Person in einem Serverraum an einem Laptop.
ML-Modelle mit TensorFlow Serving

Nutzen Sie den Nutzen von TensorFlow Serving, einem flexiblen und leistungsstarken Service-System, mit IBM Z Accelerated for TensorFlow Serving, um die Bereitstellung von ML-Modellen in der Produktion zu unterstützen.

Erkunden Sie TensorFlow Serving
Zwei Personen, die auf einen interaktiven Bildschirm schauen
NVIDIA Triton Inference Server

Optimiert für IBM Telum-Prozessoren und Linux auf Z, IBM Z Accelerated for NVIDIA Triton Inference Server ermöglicht hohe Leistung KI-Inferenz. Das Tool bietet Unterstützung für dynamisches Batching, mehrere Frameworks und benutzerdefinierte Backends für CPUs und GPUs.

Entdecken Sie Triton Inference Server
Eine Person, die mit geöffnetem Laptop auf einen Desktop-Bildschirm schaut.
Snap ML ausführen

Verwenden Sie IBM Z Accelerated for Snap ML,um ML-Modelle mit Snap ML zu erstellen und einzusetzen. Snap ML ist ein nicht garantiertes Programm von IBM, das das Training und Scoring gängiger ML-Modelle optimiert.

Erkunden Sie IBM Snap Machine Learning
Eine Person, die auf drei Desktop-Bildschirme schaut.
ML-ONNX-Modelle mit IBM zDLC kompilieren

Nutzen Sie die beschleunigten Inferenzfunktionen von Telum und Telum II auf dem Chip mit ONNX-Modellen, die den IBM Z Deep Learning Compiler (IBM zDLC) auf IBM z/OS, zCX und LinuxONE verwenden. IBM zDLC, ein KI-Modell-Compiler, bietet Funktionen wie die automatische Quantisierung für ML-Modelle mit reduzierter Latenz und reduziertem Energieverbrauch.

Erkunden Sie IBM Deep Learning Compiler Verwendung der IBM zDLC Container Images
Eine Person an einem Laptop, die Interaktion mit KI zeigt
PyTorch-kompatibel

Beschleunigen Sie die nahtlose Integration von PyTorch mit IBM Z Accelerated for PyTorch, um ML-Modelle auf neuronalen Netzen zu entwickeln und bereitzustellen.

Erkunden Sie die PyTorch-Inferenz
Eine Person, die mit einem Bildschirm interagiert, auf dem Netzwerke angezeigt werden.
Kompatibel mit TensorFlow

Beschleunigen Sie die nahtlose Integration von TensorFlow mit IBM Z Accelerated for TensorFlow, um ML-Modelle auf neuralen Netzwerken zu entwickeln und bereitzustellen.

Erkunden Sie die TensorFlow-Inferenz
Eine Person in einem Serverraum an einem Laptop.
ML-Modelle mit TensorFlow Serving

Nutzen Sie den Nutzen von TensorFlow Serving, einem flexiblen und leistungsstarken Service-System, mit IBM Z Accelerated for TensorFlow Serving, um die Bereitstellung von ML-Modellen in der Produktion zu unterstützen.

Erkunden Sie TensorFlow Serving
Zwei Personen, die auf einen interaktiven Bildschirm schauen
NVIDIA Triton Inference Server

Optimiert für IBM Telum-Prozessoren und Linux auf Z, IBM Z Accelerated for NVIDIA Triton Inference Server ermöglicht hohe Leistung KI-Inferenz. Das Tool bietet Unterstützung für dynamisches Batching, mehrere Frameworks und benutzerdefinierte Backends für CPUs und GPUs.

Entdecken Sie Triton Inference Server
Eine Person, die mit geöffnetem Laptop auf einen Desktop-Bildschirm schaut.
Snap ML ausführen

Verwenden Sie IBM Z Accelerated for Snap ML,um ML-Modelle mit Snap ML zu erstellen und einzusetzen. Snap ML ist ein nicht garantiertes Programm von IBM, das das Training und Scoring gängiger ML-Modelle optimiert.

Erkunden Sie IBM Snap Machine Learning
Eine Person, die auf drei Desktop-Bildschirme schaut.
ML-ONNX-Modelle mit IBM zDLC kompilieren

Nutzen Sie die beschleunigten Inferenzfunktionen von Telum und Telum II auf dem Chip mit ONNX-Modellen, die den IBM Z Deep Learning Compiler (IBM zDLC) auf IBM z/OS, zCX und LinuxONE verwenden. IBM zDLC, ein KI-Modell-Compiler, bietet Funktionen wie die automatische Quantisierung für ML-Modelle mit reduzierter Latenz und reduziertem Energieverbrauch.

Erkunden Sie IBM Deep Learning Compiler Verwendung der IBM zDLC Container Images

Sichere, konforme Container von IBM

Container gefunden im Toolkit für IBM Z und LinuxONE

Das KI Toolkit besteht aus IBM Elite Support (innerhalb von IBM Selected Support) und IBM Secure Engineering. Diese Tools überprüfen und scannen Open-Source-KI-Server-Frameworks und IBM-zertifizierte Container auf Sicherheitslücken und überprüfen die Einhaltung von Branchenvorschriften.

Zugriff über IBM Container Registry
Anwendungsfälle
Eine Person mit einem Tech-Chip
Echtzeit-Verarbeitung natürlicher Sprache

Nutzen Sie On-Chip-KI-Inferencing, um große Mengen unstrukturierter Daten auf IBM Z und LinuxONE zu analysieren. Liefern Sie schnellere und genauere Vorhersagen für Chatbot, Content Classification und Sprachverständnis.

Eine Person mit einer Kreditkarte
Betrugserkennung auf Kreditkarten in Millisekunden

Mit bis zu 450 Milliarden Schlussfolgerungen pro Tag und einer Reaktionszeit von unter 1 ms in 99,9 % der Fälle können Sie mithilfe von zusammengesetzten KI-Modellen und Telum-Beschleunigung betrügerische Aktivitäten sofort erkennen und darauf reagieren.5

Eine Person, die mit einer Kreditkarte bezahlt
Bekämpfung von Geldwäsche in großem Maßstab

Identifizieren Sie verdächtige Muster in Finanztransaktionen mit Snap ML und Scikit-Learn. Mit Datenkomprimierung, Verschlüsselung und plattforminterner KI verbessern Sie die AML-Reaktion ohne Abstriche bei der Leistung oder Sicherheit.

Machen Sie den nächsten Schritt

Entdecken Sie, wie das AI Toolkit für IBM Z und LinuxONE Open-Source-KI mit optimierter Leistung und zuverlässigem Support beschleunigt.

  1. Zugriff über IBM Container Registry
Fußnoten

Die Verwendung eines einzelnen Integrated Accelerator for AI bei einer OLTP-Workload auf IBM z17 entspricht dem Durchsatz der Ausführung von Inferenzen auf einem vergleichbaren X86-Remote-Server mit 13 Kernen.

HAFTUNGSAUSSCHLUSS: Die Leistungsergebnisse basieren auf internen Tests von IBM, die auf IBM Systems Hardware Machine Type 9175 ausgeführt wurden. Die OLTP-Anwendung und PostgreSQL wurden auf der IBM Systems Hardware bereitgestellt. Das KI-Setup des Credit Card Fraud Detection (CCFD) Ensembles besteht aus zwei Modellen (LSTM, TabFormer). Auf IBM Systems Hardware wurde die OLTP-Anwendung mit dem IBM Z Deep Learning Compiler (zDLC) kompiliertem JAR und IBM Z Accelerated for NVIDIA Triton Inference Server lokal ausgeführt, die KI-Inferenzoperationen auf IFLs und dem Integrated Accelerator for AI im Gegensatz zur Ausführung der OLTP Anwendung lokal und die Remote KI-Inferenzvorgänge auf einem x86 Server verarbeitet, auf dem NVIDIA Triton Inference Server mit OpenVino Laufzeit-Backend auf CPU (mit AMX) ausgeführt wird. Jedes Szenario wurde von Apache JMeter 5.6.3 mit 64 parallelen Benutzern gesteuert. Konfiguration von IBM Systems Hardware: 1 LPAR mit Ubuntu 24.04 mit 7 dedizierten IFLs (SMT), 256 GB Arbeitsspeicher und IBM FlashSystem 9500 Speicher. Die Netzwerkadapter waren für NETH unter Linux dediziert. x86-Server-Konfiguration: 1 x86-Server mit Ubuntu 24.04 mit 28 Emerald Rapids Intel Xeon Gold CPUs @ 2,20 GHz mit aktiviertem Hyper-Threading, 1 TB Arbeitsspeicher, lokalen SSDs, UEFI mit aktiviertem maximalen Leistungsprofil, CPU-P-Statussteuerung und C-Status deaktiviert. Die Ergebnisse können abweichen.

Der IBM z17 Telum II-Prozessor unterstützt die INT8-Quantifizierung, die die Latenz im Vergleich zu den nicht quantifizierten Modellen reduzieren soll.

HAFTUNGSAUSSCHLUSS: Die Unterstützung der INT8-Quantifizierung im IBM z17 Telum II-Prozessor reduziert und speichert die Gewichtungen und Aktivierungen von 32-Bit-Gleitkommazahlen auf 8-Bit-Ganzzahlen. Diese geringere Präzision ermöglicht schnellere Berechnungen, was zu kürzeren Inferenzzeiten im Vergleich zu den nicht quantifizierten Modellen führen kann.

3,5 Verarbeiten Sie mit IBM z17 bis zu 450 Milliarden Inferenzoperationen pro Tag unter Verwendung mehrerer KI-Modelle zur Erkennung von Kreditkartenbetrug.

HAFTUNGSAUSSCHLUSS: Das Ergebnis der Leistung wurde aus internen Tests von IBM extrapoliert, die auf IBM Systems Hardware des Maschinentyps 9175 durchgeführt wurden. Die Benchmark wurde mit 64 Threads ausgeführt, die lokale Inferenzoperationen unter Verwendung eines synthetischen Kreditkarten-Betrugserkennungsmodells (CCFD) auf der Grundlage eines LSTM- und eines TabFormer-Modells durchführten. Der Benchmark nutzte den Integrated Accelerator für KI mit IBM Z Deep Learning Compiler (zDLC) und IBM Z Accelerated for PyTorch. Der Aufbau besteht aus 64 Threads, die in Gruppen von 8 an jeden Chip gepinnt sind (1 für zDLC, 7 für PyTorch). Das TabFormer-Modell (Tabular Transformer) hat 0,035 % der Inferenzanfragen ausgewertet. Für das LSTM-basierte Modell wurde eine Batch-Größe von 160 verwendet. IBM Systems Hardwarekonfiguration: 1 LPAR mit Ubuntu 24.04 mit 45 IFLs (SMT), 128 GB Arbeitsspeicher. Die Ergebnisse können abweichen.

4 HAFTUNGSAUSSCHLUSS: Die Leistungsergebnisse basieren auf internen IBM-Tests, bei denen Inferenzen mit einem Random Forest-Modell mit Snap ML v1.12.0-Backend durchgeführt wurden, das den Integrated Accelerator für KI auf IBM Machine Type 3931 im Vergleich zum NVIDIA Forest Inference Library-Backend auf einem verglichenen x86-Server verwendet. Das Modell wurde anhand des folgenden öffentlichen Datensatzes trainiert und NVIDIA Triton™ auf beiden Plattformen als Model Serving Framework verwendet. Das Workload wurde über das http-Benchmarking-Tool Hey gesteuert. IBM Machine Typ 3931 Konfiguration: Ubuntu 22.04 in einer LPAR mit 6 dedizierten IFLs, 256 GB Speicher. x86-Konfiguration: Ubuntu 22.04 auf 6 Ice Lake Intel Xeon Gold CPU @ 2.80GHz mit aktiviertem Hyper-Threading, 1 TB Speicher.