释放企业级生成式 AI 推理能力：IBM AI Optimizer for Z 2.1 正式发布
加速 IBM Z 上的生成式 AI 应用，并优化推理以实现最高性能、效率与安全性。
IBM AI Optimizer for Z 2.1 现已正式发布，通过 IBM Spyre TM 加速器在 IBM Z 上提供高性能、低延迟的生成式 AI 推理。本次发布是持续交付路线图的第一步，未来几个季度计划推出更多功能与优化。
AI Optimizer for Z 利用 IBM Spyre 加速器的强大能力，为 AI 模型提供高性能、低延迟的推理服务。通过将 Spyre 与 KV 缓存、实时监控等先进功能相结合，企业能够以前所未有的效率、可扩展性和安全性跨基础设施优化生成式 AI 工作负载。
AI Optimizer for Z 2.1 的关键功能包括：
AI Optimizer for Z 通过 Prometheus 进行指标收集，并借助 Grafana 实现直观可视化，为生成式 AI 工作负载提供先进的实时监控功能。它追踪关键指标，如词元吞吐量、单请求延迟、缓存命中率、首词元响应时间及内存利用率，并计划纳入 GPU/加速器利用率等硬件使用指标。
当配置 Prometheus 接收器时，AI Optimizer 可与 OpenTelemetry (OTel) 收集器集成。这实现了无缝遥测数据采集与互操作性，支持跨混合环境的统一可观测性。这些洞察力帮助企业在容量规划、工作负载路由、性能监控和基础设施优化方面做出明智决策，从而避免资源过度配置、降低成本并提升整体性能。
在分阶段交付计划中，AI Optimizer for Z 将引入多级缓存以加速生成式 AI 推理。
在第一级，KV 缓存在单个大型语言模型 (LLM) 部署中重复使用先前计算过的词元序列，从而缩短首词元响应时间并提高吞吐量。
在第二级，扩展缓存在多个 LLM 部署间共享这些计算结果，为大规模工作负载实现更高效率。该功能通过降低基础设施成本、改善面向客户应用的响应时间，并助力企业在不过度配置资源的前提下扩展 AI 服务，从而转化为显著的商业价值。
AI Optimizer for Z 支持对 LLM 进行灵活标记，允许用户根据应用程序、业务用例或性能需求对模型进行分组。这些标记可应用于推理请求，从而确保跨多部署环境的智能路由与资源优化利用。
此外，该解决方案支持注册在 IBM Z 或 LinuxONE 外部运行的外部 LLM，并将其纳入同一标记与路由框架以实现统一优化。此功能为企业提供更强的控制力与敏捷性，确保在混合 AI 环境中实现一致的性能与成本效益。
在 IBM Z 上运行的企业面临数据驻留、隐私法规、低延迟要求及关键业务可靠性等独特限制。AI Optimizer for Z 2.1 支持生成式 AI 的采用，且无需迁移工作负载或承担架构风险，为金融、保险、制造和公共部门等行业带来即时价值。通过持续交付模式，企业将持续获得进一步增强性能、可扩展性与安全性的功能更新
AI Optimizer for Z 2.1 的正式发布标志着一个更广阔路线图的开始。核心推理与可观测能力现已可用，未来几个季度将通过增量版本持续提供更多优化功能，确保客户能够持续、无中断地从创新中获益。