借助优化的性能和值得信赖的支持,加速 IBM Z 和 LinuxONE 上的开源 AI
AI Toolkit for IBM Z and LinuxONE 是针对 Telum 处理器优化的一系列受支持的开源 AI 框架。采用具有认证容器、集成加速器和专家支持的 AI。这些框架在 z16、LinuxONE 4、z17 和 LinuxONE 5 中使用片上 AI 加速。
借助 IBM® Elite Support 和经过 IBM 审查的容器部署开源 AI,以确保合规性、安全性和无保证软件的信心。
IBM z17 的 Telum II 片上 AI 加速器提供的性能可与管理在线事务处理 (OLTP) 工作负载的同一系统内的 13 核 X86 Server 相媲美1
部署 ML、DL 和大型语言模型 (LLM),预测推理速度最高可提高 3.5 倍。4与 PyTorch、TensorFlow、Snap ML、开放神经网络交换 (ONNX) 等无缝集成。
使用专为 IBM Z 定制的优化 TensorFlow 和 PyTorch 框架无缝开发和部署机器学习 (ML) 模型。使用集成加速提高神经网络推理性能。
AI Toolkit 由 IBM® Elite Support(在 IBM® Selected Support 中)和 IBM® Secure Engineering 组成。这些工具可审查并扫描开源 AI 服务框架及 IBM 认证容器中的安全漏洞,同时验证其是否符合行业法规。
使用片上 AI 推理分析 IBM Z 和 LinuxONE 上的大量非结构化数据。为聊天机器人、内容分类和语言理解提供更快、更准确的预测。
每天多达 4500 亿次推理,1 毫秒内 99.9% 的响应,通过使用复合 AI 模型和 Telum 加速,即时检测欺诈活动并采取相应行动。5
使用 Snap ML 和 Scikit-learn 识别金融交易中的可疑模式。通过数据压缩、加密和平台 AI,在不牺牲性能或安全性的情况下改善 AML 响应。
1 在 IBM z17 上运行 OLTP 工作负载时,使用单个集成式 AI 加速器的推理吞吐量可媲美 13 核远程 x86 Server。
免责声明:性能结果基于 IBM 在 9175 型 IBM 系统硬件平台上开展的内部测试。OLTP 应用程序 与 PostgreSQL 均部署于该 IBM 系统硬件平台。信用卡欺诈检测 (CCFD) 组合式 AI 架构包含两个模型(LSTM 与 TabFormer)。在 IBM 系统硬件上,使用 IBM Z Deep Learning Compiler (zDLC) 编译的 jar 和 IBM Z Accelerated for NVIDIA Triton Inference Server 在本地运行 OLTP 应用程序,并在 IFL 和 AI 集成加速器上处理 AI 推理操作;与之对比的是,本地运行 OLTP 应用程序,同时在配备支持 AMX 的 CPU、运行基于 OpenVINO 运行时后端的 NVIDIA Triton Inference Server 的 X86 Server 上执行远程 AI 推理操作。两种场景均采用 Apache JMeter 5.6.3 工具模拟 64 个并发用户实施压力测试。IBM 系统硬件配置:单个 LPAR 运行 Ubuntu 24.04 系统,配备 7 个专用 IFL (SMT)、256 GB 内存及 IBM® FlashSystem 9500 存储设备。网络适配器专用于 Linux 上的 NETH。X86 Server 配置:单台 X86 Server 运行 Ubuntu 24.04 系统,搭载 28 个主频 2.20 GHz 的 Emerald Rapids Intel Xeon Gold CPU(启用超线程),配备 1 TB 内存、本地 SSD,启用 UEFI 极致性能模式,同时禁用 CPU P-State Control 与 C-States。结果可能有所不同。
2 IBM z17 Telum II 处理器支持 INT8 量化,旨在与非量化模型相比减少推理延迟。
免责声明:IBM z17 Telum II 处理器中的 INT8 量化支持将权重和激活从 32 位浮点数缩减为 8 位整数,并予以存储。与非量化模型相比,这种精度的降低可获得更快的计算,从而缩短推理时间
3,5 借助 IBM z17,每天使用多个 AI 模型处理多达 4500 亿次推理操作,以检测信用卡欺诈。
免责声明: 性能结果基于 IBM 在 9175 机型系统硬件上开展的内部测试推算得出。基准测试使用 64 个线程执行本地推理操作,采用基于 LSTM 和 TabFormer 模型的合成信用卡欺诈检测 (CCFD) 模型。该基准测试利用了 IBM Z Deep Learning Compiler (zDLC) 和 IBM Z Accelerated for PyTorch,基于 AI 集成加速器进行测试。该设置由 64 个线程组成,8 个一组固定在各芯片上(1 个用于 zDLC,7 个用于 PyTorch)。TabFormer(表格转换器)模型评估了 0.035% 的推理请求。基于 LSTM 的模型使用的批次大小为 160。IBM 系统硬件配置:1 个运行 Ubuntu 24.04 的 LPAR,配备 45 个 IFL (SMT)、128 GB 内存。结果可能有所不同。
4 免责声明:性能结果基于 IBM 内部测试,该测试使用带有 Snap ML v1.12.0 后端的随机森林模型进行推理,该过程在 IBM 3931 型机器上使用 AI 集成加速器;与之相对,在对比的 X86 Server 上使用 NVIDIA Forest Inference Library 后端。该模型在以下公共数据集上进行训练,并且在两个平台上均使用 NVIDIA Triton 作为模型服务框架。工作负载是通过 http 基准测试工具 Hey 驱动的。IBM 3931 型机器配置:LPAR 中的 Ubuntu 22.04,其配备 6 个专用 IFL 和 256 GB 内存。x86 服务器配置:采用 2.80 GHz 6 核 Ice Lake Intel Xeon Gold CPU 并开启超线程功能的 Ubuntu 22.04,附带 1 TB 内存。