AI Toolkit for IBM Z and LinuxONE

借助优化的性能和值得信赖的支持,加速 IBM Z 和 LinuxONE 上的开源 AI

显示适用于 IBM® Z 和 IBM® LinuxONE 工作流程的 AI 工具包的插图

快速且充满信心地部署 AI

AI Toolkit for IBM Z and LinuxONE 是针对 Telum 处理器优化的一系列受支持的开源 AI 框架。采用具有认证容器、集成加速器和专家支持的 AI。这些框架在 z16LinuxONE 4z17LinuxONE 5 中使用片上 AI 加速。

自信地大规模部署 AI

借助 IBM® Elite Support 和经过 IBM 审查的容器部署开源 AI,以确保合规性、安全性和无保证软件的信心。

加速的实时 AI

IBM z17 的 Telum II 片上 AI 加速器提供的性能可与管理在线事务处理 (OLTP) 工作负载的同一系统内的 13 核 X86 Server 相媲美1

大规模推理

IBM z17 和 LinuxONE 5 支持 INT8 优化的 AI2,支持多个模型的预测评分,同时以不到 1 毫秒的响应时间提供多达 4500 亿次每日推理。这些工具管理此类结果是因为它们使用深度学习模型进行信用卡欺诈检测。3

支持多个 AI 模型

部署 ML、DL 和大型语言模型 (LLM),预测推理速度最高可提高 3.5 倍。4与 PyTorch、TensorFlow、Snap ML、开放神经网络交换 (ONNX) 等无缝集成。

功能

使用专为 IBM Z 定制的优化 TensorFlow 和 PyTorch 框架无缝开发和部署机器学习 (ML) 模型。使用集成加速提高神经网络推理性能。

使用笔记本电脑与 AI 交互的人
兼容 PyTorch

加快 PyTorch 与 IBM® Z Accelerated for PyTorch 的无缝集成,以便在神经网络上开发和部署 ML 模型。

深入了解 PyTorch 推理
一个人正在与显示网络的屏幕进行交互。
与 TensorFlow 兼容

加快 TensorFlow 与 IBM® Z Accelerated for TensorFlow 的无缝集成,以便在神经网络上开发和部署 ML 模型。

深入了解 TensorFlow 推理
服务器机房中的一个人使用笔记本电脑。
附带 TensorFlow Serving 的 ML 模型

利用 TensorFlow Serving(一种灵活、高性能的服务系统)的优势并借助 IBM Z Accelerated for TensorFlow Serving,在生产环境中帮助部署 ML 模型。

深入了解 TensorFlow Serving
两个人看着交互式屏幕
NVIDIA Triton Inference Server

IBM® Z Accelerated for NVIDIA Triton Inference Server 针对 IBM Telum 处理器和 Linux on Z 进行了优化,可实现高性能 AI 推理。该工具支持跨 CPU 和 GPU 的动态批处理、多个框架和自定义后端。

了解 Triton Inference Server
一个人打开笔记本电脑,看着桌面屏幕。
运行 Snap ML

使用 IBM® Z Accelerated for Snap ML 以通过 Snap ML 构建和部署 ML 模型。Snap ML 是 IBM 的一款无保修程序,可优化主流 ML 模型的训练和评分。

深入了解 IBM Snap 机器学习
一个人正在看三个桌面屏幕。
利用 IBM zDLC 来编译 ML ONNX 模型

将 Telum 和 Telum II 片上加速推理功能与在 IBM z/OS、zCX 和 LinuxONE 上使用 IBM Z® Deep Learning Compiler (IBM zDLC) 的 ONNX 模型配合使用。IBM zDLC 是一款 AI 模型编译器,提供 ML 模型自动量化等功能,同时减少延迟和能耗。

深入了解 IBM Deep Learning Compiler 使用 IBM zDLC 容器映像
使用笔记本电脑与 AI 交互的人
兼容 PyTorch

加快 PyTorch 与 IBM® Z Accelerated for PyTorch 的无缝集成,以便在神经网络上开发和部署 ML 模型。

深入了解 PyTorch 推理
一个人正在与显示网络的屏幕进行交互。
与 TensorFlow 兼容

加快 TensorFlow 与 IBM® Z Accelerated for TensorFlow 的无缝集成,以便在神经网络上开发和部署 ML 模型。

深入了解 TensorFlow 推理
服务器机房中的一个人使用笔记本电脑。
附带 TensorFlow Serving 的 ML 模型

利用 TensorFlow Serving(一种灵活、高性能的服务系统)的优势并借助 IBM Z Accelerated for TensorFlow Serving,在生产环境中帮助部署 ML 模型。

深入了解 TensorFlow Serving
两个人看着交互式屏幕
NVIDIA Triton Inference Server

IBM® Z Accelerated for NVIDIA Triton Inference Server 针对 IBM Telum 处理器和 Linux on Z 进行了优化,可实现高性能 AI 推理。该工具支持跨 CPU 和 GPU 的动态批处理、多个框架和自定义后端。

了解 Triton Inference Server
一个人打开笔记本电脑,看着桌面屏幕。
运行 Snap ML

使用 IBM® Z Accelerated for Snap ML 以通过 Snap ML 构建和部署 ML 模型。Snap ML 是 IBM 的一款无保修程序,可优化主流 ML 模型的训练和评分。

深入了解 IBM Snap 机器学习
一个人正在看三个桌面屏幕。
利用 IBM zDLC 来编译 ML ONNX 模型

将 Telum 和 Telum II 片上加速推理功能与在 IBM z/OS、zCX 和 LinuxONE 上使用 IBM Z® Deep Learning Compiler (IBM zDLC) 的 ONNX 模型配合使用。IBM zDLC 是一款 AI 模型编译器,提供 ML 模型自动量化等功能,同时减少延迟和能耗。

深入了解 IBM Deep Learning Compiler 使用 IBM zDLC 容器映像

IBM 提供的安全、合规的容器

适用于 IBM Z 和 LinuxONE 的 AI 工具包中的容器

AI Toolkit 由 IBM® Elite Support(在 IBM® Selected Support 中)和 IBM® Secure Engineering 组成。这些工具可审查并扫描开源 AI 服务框架及 IBM 认证容器中的安全漏洞,同时验证其是否符合行业法规。

通过 IBM® Container Registry 进行访问
用例
一个拿着科技芯片的人
实时自然语言处理

使用片上 AI 推理分析 IBM Z 和 LinuxONE 上的大量非结构化数据。为聊天机器人、内容分类和语言理解提供更快、更准确的预测。

一个拿着信用卡的人
在数毫秒内执行信用卡欺诈检测

每天多达 4500 亿次推理,1 毫秒内 99.9% 的响应,通过使用复合 AI 模型和 Telum 加速,即时检测欺诈活动并采取相应行动。5

一个刷信用卡的人
大规模反洗钱

使用 Snap ML 和 Scikit-learn 识别金融交易中的可疑模式。通过数据压缩、加密和平台 AI,在不牺牲性能或安全性的情况下改善 AML 响应。

采取后续步骤

了解 AI Toolkit for IBM Z and LinuxONE 如何通过优化的性能和值得信赖的支持来加速开源 AI。

通过 IBM® Container Registry 进行访问
更多探索方式 文档 支持 全生命周期服务和支持 社区
脚注

在 IBM z17 上运行 OLTP 工作负载时,使用单个集成式 AI 加速器的推理吞吐量可媲美 13 核远程 x86 Server。

免责声明:性能结果基于 IBM 在 9175 型 IBM 系统硬件平台上开展的内部测试。OLTP 应用程序 与 PostgreSQL 均部署于该 IBM 系统硬件平台。信用卡欺诈检测 (CCFD) 组合式 AI 架构包含两个模型(LSTMTabFormer)。在 IBM 系统硬件上,使用 IBM Z Deep Learning Compiler (zDLC) 编译的 jar 和 IBM Z Accelerated for NVIDIA Triton Inference Server 在本地运行 OLTP 应用程序,并在 IFL 和 AI 集成加速器上处理 AI 推理操作;与之对比的是,本地运行 OLTP 应用程序,同时在配备支持 AMX 的 CPU、运行基于 OpenVINO 运行时后端的 NVIDIA Triton Inference Server 的 X86 Server 上执行远程 AI 推理操作。两种场景均采用 Apache JMeter 5.6.3 工具模拟 64 个并发用户实施压力测试。IBM 系统硬件配置:单个 LPAR 运行 Ubuntu 24.04 系统,配备 7 个专用 IFL (SMT)、256 GB 内存及 IBM® FlashSystem 9500 存储设备。网络适配器专用于 Linux 上的 NETH。X86 Server 配置:单台 X86 Server 运行 Ubuntu 24.04 系统,搭载 28 个主频 2.20 GHz 的 Emerald Rapids Intel Xeon Gold CPU(启用超线程),配备 1 TB 内存、本地 SSD,启用 UEFI 极致性能模式,同时禁用 CPU P-State Control 与 C-States。结果可能有所不同。

2 IBM z17 Telum II 处理器支持 INT8 量化,旨在与非量化模型相比减少推理延迟。

免责声明:IBM z17 Telum II 处理器中的 INT8 量化支持将权重和激活从 32 位浮点数缩减为 8 位整数,并予以存储。与非量化模型相比,这种精度的降低可获得更快的计算,从而缩短推理时间

3,5 借助 IBM z17,每天使用多个 AI 模型处理多达 4500 亿次推理操作,以检测信用卡欺诈。

免责声明: 性能结果基于 IBM 在 9175 机型系统硬件上开展的内部测试推算得出。基准测试使用 64 个线程执行本地推理操作,采用基于 LSTM TabFormer 模型的合成信用卡欺诈检测 (CCFD) 模型。该基准测试利用了 IBM Z Deep Learning Compiler (zDLC) 和 IBM Z Accelerated for PyTorch,基于 AI 集成加速器进行测试。该设置由 64 个线程组成,8 个一组固定在各芯片上(1 个用于 zDLC,7 个用于 PyTorch)。TabFormer(表格转换器)模型评估了 0.035% 的推理请求。基于 LSTM 的模型使用的批次大小为 160。IBM 系统硬件配置:1 个运行 Ubuntu 24.04 的 LPAR,配备 45 个 IFL (SMT)、128 GB 内存。结果可能有所不同。

4 免责声明:性能结果基于 IBM 内部测试,该测试使用带有 Snap ML v1.12.0 后端的随机森林模型进行推理,该过程在 IBM 3931 型机器上使用 AI 集成加速器;与之相对,在对比的 X86 Server 上使用 NVIDIA Forest Inference Library 后端。该模型在以下公共数据集上进行训练,并且在两个平台上均使用 NVIDIA Triton 作为模型服务框架。工作负载是通过 http 基准测试工具 Hey 驱动的。IBM 3931 型机器配置:LPAR 中的 Ubuntu 22.04,其配备 6 个专用 IFL 和 256 GB 内存。x86 服务器配置:采用 2.80 GHz 6 核 Ice Lake Intel Xeon Gold CPU 并开启超线程功能的 Ubuntu 22.04,附带 1 TB 内存。