IBM Z および LinuxONEのAI ツールキット

最適化されたパフォーマンスと信頼性の高いサポートにより、IBM ZおよびLinuxONE上でオープンソースAIを加速。

IBM Z および IBM LinuxONE ワークフロー用の AI ツールキットを示す図

自信を持ってAIを迅速にデプロイ

IBM® ZおよびLinuxONE向けAIツールキットは、Telumプロセッサー向けに最適化されたサポート付きオープンソースAIフレームワーク群である。認定コンテナ、統合アクセラレーター、専門家サポートを活用してAIを導入する。これらのフレームワークは、z16LinuxONE 4z17LinuxONE 5 のオンチップAIアクセラレーションを活用する。

自信を持ってAIを大規模にデプロイ

オープンソースAIをコンプライアンス、セキュリティー、ソフトウェアの信頼性を保証されたIBM審査済みコンテナとIBM® Elite Supportとともにデプロイする。

リアルタイムAIの加速

IBM z17のTelum IIオンチップAIアクセラレーターは、同じシステムでオンライン・トランザクション処理(OLTP)ワークロードを管理しながら、13コアのx86サーバーと同等の推論パフォーマンスを提供する。1

大規模な推論

IBM z17とLinuxONE 5はINT8最適化AI2を可能にし、複数モデルの予測スコアリングを実行しながら、1 ms未満の応答時間で1日最大4500億回の推論を提供します。これらのツールは、クレジットカード不正検知のためのディープラーニングモデルを使用しているため、こうした結果を管理できます3

複数のAIモデルをサポート

機械学習(ML)、深層学習(DL)、および大規模言語モデル(LLM)をデプロイし、予測において最大3.5倍高速な推論を実現できます4。PyTorch、TensorFlow、Snap ML、Open Neural Network Exchange(ONNX)などとシームレスに統合します。

機能

IBM Z向けに最適化されたTensorFlowおよびPyTorchフレームワークを活用し、機械学習(ML)モデルをスムーズに開発、デプロイできます。統合アクセラレーションを使用することで、ニューラルネットワークの推論性能を向上させます。

AIとのやり取りを示すノートPC上の人
PyTorch対応

IBM® Z Accelerated for PyTorchを活用してPyTorchのシームレスな統合を加速し、ニューラルネットワーク上で機械学習モデルを開発、デプロイできます。

PyTorch推論の詳細はこちら
画面上のネットワークを確認しながら操作する人。
Tensorflow 互換性

IBM® Z Accelerated for TensorFlowを活用してTensorFlowのシームレスな統合を加速し、ニューラルネットワーク上で機械学習モデルを開発、デプロイできます。

TensorFlowの詳細はこちら
サーバールームでノートPCを使って作業する人。
TensorFlow Serving を使用した ML モデル

柔軟で高性能なサービスシステムであるTensorFlow Servingのメリットを活用し、IBM Z Accelerated for TensorFlow ServingでMLモデルの本番環境へのデプロイを支援します。

TensorFlow Servingの詳細はこちら
2人がインタラクティブ画面を見ている
NVIDIA Triton Inference Server

IBM® TelumプロセッサーおよびLinux on Zに最適化されたIBM® Z Accelerated for NVIDIA Triton Inference Serverにより、高性能なAI推論を実現します。このツールは、CPUおよびGPU上での動的バッチ処理、複数フレームワーク、カスタム・バックエンドに対応しています。

Triton Inference Serverの詳細はこちら
ノートPCを開いた状態でデスクトップ画面を見ている人。
Snap ML を実行

IBM® Z Accelerated for Snap MLを使用して、一般的なMLモデルのトレーニングとスコアリングを最適化する非保証プログラムであるSnap MLを使用して ML モデルを構築およびデプロイします。

IBM Snap Machine Learningの詳細はこちら
3つのデスクトップ画面を見ている人。
IBM zDLCを使ってML ONNXモデルをコンパイル

IBM® z/OS、zCX、LinuxONEでIBM® Z Deep Learning Compiler(IBM zDLC)を使用するONNXモデルに対して、TelumおよびTelum IIのチップ内アクセラレーション推論機能を活用します。IBM zDLCはAIモデル用のコンパイラであり、MLモデルの自動量子化によるレイテンシー低減や消費電力削減などの機能を提供します。

IBM Deep Learning Compilerの詳細はこちら IBM® zDLC Container Imagesの使用
AIとのやり取りを示すノートPC上の人
PyTorch対応

IBM® Z Accelerated for PyTorchを活用してPyTorchのシームレスな統合を加速し、ニューラルネットワーク上で機械学習モデルを開発、デプロイできます。

PyTorch推論の詳細はこちら
画面上のネットワークを確認しながら操作する人。
Tensorflow 互換性

IBM® Z Accelerated for TensorFlowを活用してTensorFlowのシームレスな統合を加速し、ニューラルネットワーク上で機械学習モデルを開発、デプロイできます。

TensorFlowの詳細はこちら
サーバールームでノートPCを使って作業する人。
TensorFlow Serving を使用した ML モデル

柔軟で高性能なサービスシステムであるTensorFlow Servingのメリットを活用し、IBM Z Accelerated for TensorFlow ServingでMLモデルの本番環境へのデプロイを支援します。

TensorFlow Servingの詳細はこちら
2人がインタラクティブ画面を見ている
NVIDIA Triton Inference Server

IBM® TelumプロセッサーおよびLinux on Zに最適化されたIBM® Z Accelerated for NVIDIA Triton Inference Serverにより、高性能なAI推論を実現します。このツールは、CPUおよびGPU上での動的バッチ処理、複数フレームワーク、カスタム・バックエンドに対応しています。

Triton Inference Serverの詳細はこちら
ノートPCを開いた状態でデスクトップ画面を見ている人。
Snap ML を実行

IBM® Z Accelerated for Snap MLを使用して、一般的なMLモデルのトレーニングとスコアリングを最適化する非保証プログラムであるSnap MLを使用して ML モデルを構築およびデプロイします。

IBM Snap Machine Learningの詳細はこちら
3つのデスクトップ画面を見ている人。
IBM zDLCを使ってML ONNXモデルをコンパイル

IBM® z/OS、zCX、LinuxONEでIBM® Z Deep Learning Compiler(IBM zDLC)を使用するONNXモデルに対して、TelumおよびTelum IIのチップ内アクセラレーション推論機能を活用します。IBM zDLCはAIモデル用のコンパイラであり、MLモデルの自動量子化によるレイテンシー低減や消費電力削減などの機能を提供します。

IBM Deep Learning Compilerの詳細はこちら IBM® zDLC Container Imagesの使用

IBM製品を使って安全で規制に準拠したコンテナ

AI Toolkit for IBM Z and LinuxONEに含まれるコンテナ

AI Toolkitは、IBM® Elite Support(IBM® Selected Support内)およびIBM® Secure Engineeringで構成されています。これらのツールは、オープンソースAIを精査してスキャンし、セキュリティーの脆弱性がないか、フレームワークとIBM認定コンテナを提供し、業種・業務規制への検証します。

IBM® Container Registry を介したアクセス
ユースケース
技術チップを持っている人
リアルタイムの自然言語処理

IBM ZおよびLinuxONEで、オンチップAI推論を活用して大量の非構造化データを分析できます。チャットボット、コンテンツ分類、言語理解において、より高速で正確な予測を提供できます。

クレジットカードを持っている人
クレジットカード不正アクセスをミリ秒単位で検知

1日最大4,500億件の推論を行い、応答時間の99.9パーセンタイルが1 ms未満であるため、複合AIモデルとTelumアクセラレーションを活用して、不正行為を即座に検知・対応できます。5

クレジットカードをタップする人
大規模なマネー・ロンダリング防止対策

Snap MLやScikit-learnを活用して、金融取引における疑わしいパターンを特定できます。データ圧縮、暗号化、オンプラットフォームAIを活用することで、性能やセキュリティを損なうことなくAML対応を改善できます。

次のステップ

IBM ZおよびLinuxONE向けAI Toolkitが、最適化されたパフォーマンスと信頼できるサポートでオープンソースAIの高速化を実現する仕組みをご確認ください。

IBM® Container Registry を介したアクセス
その他の参考情報 資料 サポート ライフサイクル・サービスとサポート コミュニティー
脚注

IBM® z17上のOLTPワークロードに対して、単一の統合型AIアクセラレーターを使用すると、比較対象の13コアのリモートx86サーバーで推論を実行した場合と同等のスループットを達成できます。

免責事項:性能結果は、機種番号9175のIBMシステム・ハードウェア上で実施したIBM®社内テストに基づくものです。OLTPアプリケーション およびPostgreSQLはIBM® Systems Hardware上にデプロイされています。クレジットカード不正アクセス検知(CCFD)向けのアンサンブルAI構成は、2つのモデル(LSTMTabFormer)で構成されています。IBM Systems Hardware上では、OLTPアプリケーションをIBM® Z Deep Learning Compiler(zDLC)でコンパイルしたJARファイルと、IBM® Z Accelerated for NVIDIA Triton Inference Serverをローカルで実行し、AI推論処理をIFLおよび統合型AIアクセラレーターで処理しました。一方、比較対象では、OLTPアプリケーションをローカルで実行しつつ、NVIDIA Triton Inference ServerとOpenVINO™ランタイム(AMX対応CPU使用)を搭載したX86 ServerでリモートAI推論を行いました。すべてのシナリオは、Apache JMeter™ 5.6.3を使用し、64の並列ユーザーによってドライブされました。IBM Systems Hardwareの構成:Ubuntu 24.04を実行する1つのLPAR(論理パーティション)で、7つの専用IFL(SMT)、256 GBのメモリー、IBM® FlashSystem 9500ストレージを搭載。ネットワーク・アダプターはLinux上のNETHに専用設定。x86サーバーの構成:Ubuntu 24.04を実行するx86サーバー1台で、28コアのEmerald Rapids Intel Xeon Gold CPU(2.20 GHz、ハイパースレッディング有効)、1 TBのメモリー、ローカルSSD、最大性能プロファイルを有効にしたUEFI、CPU P-State ControlおよびC-Statesは無効化。結果は異なる場合があります。

IBM® z17 Telum IIプロセッサーはINT8量子化に対応しており、非量子化モデルと比較して推論レイテンシーを低減するよう設計されています。

免責事項:IBM z17 Telum IIプロセッサーのINT8量子化サポートでは、重みとアクティベーションを32ビット浮動小数点数から8ビット整数に縮小して格納します。この精度の低下により計算が高速化され、非量子化モデルと比較して推論時間を短縮できる可能性があります。

3,5 IBM z17では、複数のAIモデルを使用してクレジットカード不正検知を行い、1日に最大4,500億回の推論処理を実行できます。

免責事項: 本パフォーマンス結果は、IBM Systems Hardware(機種 9175)上での IBM社内テストのデータを基に推定したものです。ベンチマークは、64 スレッドを使用して、LSTM および TabFormer モデルに基づく合成クレジットカード不正検知(CCFD)モデルでローカル推論操作を実行して行われました。ベンチマークでは、IBM® Z Deep Learning Compiler(zDLC)およびIBM® Z Accelerated for PyTorchを使用してIntegrated Accelerator for AIを活用しました。セットアップは、各チップに8スレッドずつ割り当てられた64スレッドで構成されます(zDLC用に1スレッド、PyTorch用に7スレッド)。TabFormer (表形式トランスフォーマー) モデルは、推論リクエストの0.035%を評価しました。LSTMベースのモデルには、バッチサイズ160が使用されました。IBM Systems Hardwareの構成:Ubuntu 24.04を実行する1つのLPAR、45 IFL(SMT)、メモリー128GB。結果は異なる場合があります。

4 免責事項:性能結果は、IBM内部テストに基づくもので、IBMマシン型番3931上のIntegrated Accelerator for AIを使用したSnap ML v1.12.0バックエンドでのランダムフォレストモデル推論と、比較対象のx86サーバー上のNVIDIA Forest Inference Libraryバックエンドとの比較に基づきます。モデルは以下の公開データセットで学習され、両プラットフォームでモデル提供フレームワークとしてNVIDIA Tritonが使用されました。ワークロードはHTTPベンチマークツールHeyを使用して実行されました。IBM® Machine Type 3931 構成: 6 つの専任(人の場合)、専用(ものの場合) IFL、128 GB メモリーを備えた LPAR 内の Ubuntu 22.04。x86構成: ハイパースレッディングをオンにしたUbuntu 20.04 IceLake Intel Xeon Gold 6342 CPU @ 2.80GHz、1 TBメモリー