利用全新的 AI Optimizer for Z 2.1 来扩展和优化生成式 AI 推理

AI Optimizer for Z 2.1 旨在服务于 AI 模型，并在 IBM Spyre 加速器上执行推理优化。它通过键值 (KV) 缓存与监控功能（为 IBM Z 客户配置），跨基础设施优化生成式 AI 推理。

为什么选择 AI Optimizer for Z 2.1

对于在 IBM Z 上运行工作负载的企业而言，实现 AI 运营化的关键不在于能否运行 AI，而在于如何高效、安全地将其集成到现有环境中。

AI 工作负载正变得越来越大、越来越消耗资源，特别是随着生成式 AI 和基于 LLM 的应用程序的普及。在 Z 上，客户必须平衡以下几点：

无法离开该平台的延迟敏感型工作负载。
限制推理运行位置的合规性与数据驻留要求。
由模型低效部署导致的计算与能源成本上升。

AI Optimizer for Z 2.1 的构建正是为了应对这些现实情况，使企业在推理部署与优化方面能够减少手动决策，实现更智能的自动化。

AI Optimizer Z 2.1 的核心功能

此版本引入了多项技术增强，以提升性能与效率：

1. 实时监控与可视化，实现完全的操作透明性

借助 Grafana 和 Prometheus 仪表板，AI Optimizer for Z 2.1 提供深入的可观测性及近乎实时的洞察，涵盖推理性能指标、硬件与 Spyre 利用率、模型使用模式，并能识别模型服务中的瓶颈与异常。例如，用户可通过其中一个仪表板直观解读复杂数据，利用这些指标避免资源过度配置，并根据基础设施和预算考量规划未来决策。

2. 多级缓存，实现更快响应与更高吞吐量

支持通过分阶段交付计划启用两级缓存，它们能针对不同推理请求中常见的令牌序列，复用先前已计算的结果。第一级缓存可在部署于多个硬件单元上的单个 LLM 上实现 KV 缓存。具有缓存文本的推理请求将得到加速，硬件利用率得以优化。第二级缓存可在多个 LLM 部署之间共享，加速推理过程，减少生成首个词元的时间，并提高吞吐量。

3. 专为加速设计，优化在 Spyre 上运行的模型的推理

在 Spyre 上运行的 LLM 可被 AI Optimizer for Z 自动检测并注册，以进行推理优化。用户可自定义路由计划，因为内置的智能路由器会综合考虑可用性、使用情况和性能。服务于类似应用程序或用途的 LLM 可通过添加标签进行分组。用户还可遵循 OpenAI API 标准配置自己的标签。

4. 外部模型注册，统一混合 AI 运营

部署在 IBM Z 和 IBM® LinuxONE 之外其他基础设施上的外部 LLM，可在 AI Optimizer for Z 中进行注册。这些外部 LLM 可以与在 Spyre 上运行的本地 LLM 一起添加标签和分组，以确保用例分组与优化。根据 LLM 部署情况，外部 LLM 的监控可集成到跨平台监控仪表板中，提供完整的生成式 AI 概览。

根据生成式 AI 用例的业务需求，可能需要多个模型来实现特定目标。因此，AI Optimizer for Z 允许注册在 IBM Z 和 IBM LinuxONE 外部运行的外部模型，统一推理端点。外部 LLM 和本地 LLM 可通过自定义标签进行分组，这些标签可用于推理请求中，满足业务需求。

Z 上的 AI Optimizer 与 Spyre 上的 watsonx Assistant for Z

当 AI Optimizer for Z 与 IBM Spyre 加速器上的 watsonx Assistant for Z 结合时，企业可兼得两者优势：智能与性能的完美协同。

AI Optimizer 确保每个查询、推理和模型调用都经过路由、缓存和扩展，以实现最高效率；而 watsonx Assistant for Z 则提供与客户和员工自然、对话式的互动。

二者基于 Spyre 的高性能、高能效架构运行，共同实现了更快的响应速度、更低的延迟和端到端的可见性，将客户互动转变为更智能、更快速、为企业级规模构建的无缝 AI 驱动体验。

了解有关 IBM® AI Optimizer for Z 的更多信息

参加我们即将举行的网络研讨会以了解更多信息

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM

了解更多

What's New at IBM 时事通讯

了解 IBM 最重磅的产品与功能发布资讯。