最適化されたパフォーマンスと信頼性の高いサポートにより、IBM ZおよびLinuxONE上でオープンソースAIを加速。
IBM® ZおよびLinuxONE向けAIツールキットは、Telumプロセッサー向けに最適化されたサポート付きオープンソースAIフレームワーク群である。認定コンテナ、統合アクセラレーター、専門家サポートを活用してAIを導入する。これらのフレームワークは、z16、LinuxONE 4、z17、LinuxONE 5 のオンチップAIアクセラレーションを活用する。
オープンソースAIをコンプライアンス、セキュリティー、ソフトウェアの信頼性を保証されたIBM審査済みコンテナとIBM® Elite Supportとともにデプロイする。
IBM z17のTelum IIオンチップAIアクセラレーターは、同じシステムでオンライン・トランザクション処理(OLTP)ワークロードを管理しながら、13コアのx86サーバーと同等の推論パフォーマンスを提供する。1
機械学習(ML)、深層学習(DL)、および大規模言語モデル(LLM)をデプロイし、予測において最大3.5倍高速な推論を実現できます4。PyTorch、TensorFlow、Snap ML、Open Neural Network Exchange(ONNX)などとシームレスに統合します。
IBM Z向けに最適化されたTensorFlowおよびPyTorchフレームワークを活用し、機械学習(ML)モデルをスムーズに開発、デプロイできます。統合アクセラレーションを使用することで、ニューラルネットワークの推論性能を向上させます。
AI Toolkitは、IBM® Elite Support(IBM® Selected Support内)およびIBM® Secure Engineeringで構成されています。これらのツールは、オープンソースAIを精査してスキャンし、セキュリティーの脆弱性がないか、フレームワークとIBM認定コンテナを提供し、業種・業務規制への検証します。
IBM ZおよびLinuxONEで、オンチップAI推論を活用して大量の非構造化データを分析できます。チャットボット、コンテンツ分類、言語理解において、より高速で正確な予測を提供できます。
1日最大4,500億件の推論を行い、応答時間の99.9パーセンタイルが1 ms未満であるため、複合AIモデルとTelumアクセラレーションを活用して、不正行為を即座に検知・対応できます。5
Snap MLやScikit-learnを活用して、金融取引における疑わしいパターンを特定できます。データ圧縮、暗号化、オンプラットフォームAIを活用することで、性能やセキュリティを損なうことなくAML対応を改善できます。
1 IBM® z17上のOLTPワークロードに対して、単一の統合型AIアクセラレーターを使用すると、比較対象の13コアのリモートx86サーバーで推論を実行した場合と同等のスループットを達成できます。
免責事項:性能結果は、機種番号9175のIBMシステム・ハードウェア上で実施したIBM®社内テストに基づくものです。OLTPアプリケーション およびPostgreSQLはIBM® Systems Hardware上にデプロイされています。クレジットカード不正アクセス検知(CCFD)向けのアンサンブルAI構成は、2つのモデル(LSTM、TabFormer)で構成されています。IBM Systems Hardware上では、OLTPアプリケーションをIBM® Z Deep Learning Compiler(zDLC)でコンパイルしたJARファイルと、IBM® Z Accelerated for NVIDIA Triton Inference Serverをローカルで実行し、AI推論処理をIFLおよび統合型AIアクセラレーターで処理しました。一方、比較対象では、OLTPアプリケーションをローカルで実行しつつ、NVIDIA Triton Inference ServerとOpenVINO™ランタイム(AMX対応CPU使用)を搭載したX86 ServerでリモートAI推論を行いました。すべてのシナリオは、Apache JMeter™ 5.6.3を使用し、64の並列ユーザーによってドライブされました。IBM Systems Hardwareの構成:Ubuntu 24.04を実行する1つのLPAR(論理パーティション)で、7つの専用IFL(SMT)、256 GBのメモリー、IBM® FlashSystem 9500ストレージを搭載。ネットワーク・アダプターはLinux上のNETHに専用設定。x86サーバーの構成:Ubuntu 24.04を実行するx86サーバー1台で、28コアのEmerald Rapids Intel Xeon Gold CPU(2.20 GHz、ハイパースレッディング有効)、1 TBのメモリー、ローカルSSD、最大性能プロファイルを有効にしたUEFI、CPU P-State ControlおよびC-Statesは無効化。結果は異なる場合があります。
2 IBM® z17 Telum IIプロセッサーはINT8量子化に対応しており、非量子化モデルと比較して推論レイテンシーを低減するよう設計されています。
免責事項:IBM z17 Telum IIプロセッサーのINT8量子化サポートでは、重みとアクティベーションを32ビット浮動小数点数から8ビット整数に縮小して格納します。この精度の低下により計算が高速化され、非量子化モデルと比較して推論時間を短縮できる可能性があります。
3,5 IBM z17では、複数のAIモデルを使用してクレジットカード不正検知を行い、1日に最大4,500億回の推論処理を実行できます。
免責事項: 本パフォーマンス結果は、IBM Systems Hardware(機種 9175)上での IBM社内テストのデータを基に推定したものです。ベンチマークは、64 スレッドを使用して、LSTM および TabFormer モデルに基づく合成クレジットカード不正検知(CCFD)モデルでローカル推論操作を実行して行われました。ベンチマークでは、IBM® Z Deep Learning Compiler(zDLC)およびIBM® Z Accelerated for PyTorchを使用してIntegrated Accelerator for AIを活用しました。セットアップは、各チップに8スレッドずつ割り当てられた64スレッドで構成されます(zDLC用に1スレッド、PyTorch用に7スレッド)。TabFormer (表形式トランスフォーマー) モデルは、推論リクエストの0.035%を評価しました。LSTMベースのモデルには、バッチサイズ160が使用されました。IBM Systems Hardwareの構成:Ubuntu 24.04を実行する1つのLPAR、45 IFL(SMT)、メモリー128GB。結果は異なる場合があります。
4 免責事項:性能結果は、IBM内部テストに基づくもので、IBMマシン型番3931上のIntegrated Accelerator for AIを使用したSnap ML v1.12.0バックエンドでのランダムフォレストモデル推論と、比較対象のx86サーバー上のNVIDIA Forest Inference Libraryバックエンドとの比較に基づきます。モデルは以下の公開データセットで学習され、両プラットフォームでモデル提供フレームワークとしてNVIDIA Tritonが使用されました。ワークロードはHTTPベンチマークツールHeyを使用して実行されました。IBM® Machine Type 3931 構成: 6 つの専任(人の場合)、専用(ものの場合) IFL、128 GB メモリーを備えた LPAR 内の Ubuntu 22.04。x86構成: ハイパースレッディングをオンにしたUbuntu 20.04 IceLake Intel Xeon Gold 6342 CPU @ 2.80GHz、1 TBメモリー