利用全新的 AI Optimizer for Z 2.1 来扩展和优化生成式 AI 推理
它提供的功能可通过键值缓存和监控功能,跨基础设施优化生成式 AI 推理。
它提供的功能可通过键值缓存和监控功能,跨基础设施优化生成式 AI 推理。
AI Optimizer for Z 2.1 旨在服务于 AI 模型,并在 IBM Spyre 加速器上执行推理优化。它通过键值 (KV) 缓存与监控功能(为 IBM Z 客户配置),跨基础设施优化生成式 AI 推理。
对于在 IBM Z 上运行工作负载的企业而言,实现 AI 运营化的关键不在于能否运行 AI,而在于如何高效、安全地将其集成到现有环境中。
AI 工作负载正变得越来越大、越来越消耗资源,特别是随着生成式 AI 和基于 LLM 的应用程序的普及。在 Z 上,客户必须平衡以下几点:
AI Optimizer for Z 2.1 的构建正是为了应对这些现实情况,使企业在推理部署与优化方面能够减少手动决策,实现更智能的自动化。
此版本引入了多项技术增强,以提升性能与效率:
借助 Grafana 和 Prometheus 仪表板,AI Optimizer for Z 2.1 提供深入的可观测性及近乎实时的洞察,涵盖推理性能指标、硬件与 Spyre 利用率、模型使用模式,并能识别模型服务中的瓶颈与异常。例如,用户可通过其中一个仪表板直观解读复杂数据,利用这些指标避免资源过度配置,并根据基础设施和预算考量规划未来决策。
支持通过分阶段交付计划启用两级缓存,它们能针对不同推理请求中常见的令牌序列,复用先前已计算的结果。第一级缓存可在部署于多个硬件单元上的单个 LLM 上实现 KV 缓存。具有缓存文本的推理请求将得到加速,硬件利用率得以优化。第二级缓存可在多个 LLM 部署之间共享,加速推理过程,减少生成首个词元的时间,并提高吞吐量。
在 Spyre 上运行的 LLM 可被 AI Optimizer for Z 自动检测并注册,以进行推理优化。用户可自定义路由计划,因为内置的智能路由器会综合考虑可用性、使用情况和性能。服务于类似应用程序或用途的 LLM 可通过添加标签进行分组。用户还可遵循 OpenAI API 标准配置自己的标签。
部署在 IBM Z 和 IBM® LinuxONE 之外其他基础设施上的外部 LLM,可在 AI Optimizer for Z 中进行注册。这些外部 LLM 可以与在 Spyre 上运行的本地 LLM 一起添加标签和分组,以确保用例分组与优化。根据 LLM 部署情况,外部 LLM 的监控可集成到跨平台监控仪表板中,提供完整的生成式 AI 概览。
根据生成式 AI 用例的业务需求,可能需要多个模型来实现特定目标。因此,AI Optimizer for Z 允许注册在 IBM Z 和 IBM LinuxONE 外部运行的外部模型,统一推理端点。外部 LLM 和本地 LLM 可通过自定义标签进行分组,这些标签可用于推理请求中,满足业务需求。
当 AI Optimizer for Z 与 IBM Spyre 加速器上的 watsonx Assistant for Z 结合时,企业可兼得两者优势:智能与性能的完美协同。
AI Optimizer 确保每个查询、推理和模型调用都经过路由、缓存和扩展,以实现最高效率;而 watsonx Assistant for Z 则提供与客户和员工自然、对话式的互动。
二者基于 Spyre 的高性能、高能效架构运行,共同实现了更快的响应速度、更低的延迟和端到端的可见性,将客户互动转变为更智能、更快速、为企业级规模构建的无缝 AI 驱动体验。