主页

Case Studies

IBM 大型 AI 模型 - Turbonomic

优化 GPU 以应用于生成式 AI
使用 IBM Turbonomic 节省关键资源
两个人坐在“我爱人工智能”标志前的长椅上
充分利用大需求量的 GPU,以提高效率和性能

人工智能已经达到了一个重要的里程碑,其中训练大型语言模型 (LLM) 是对计算要求最高的任务之一。高性能计算对于生成式 AI 和 LLM 工作负载优化至关重要,而图形处理单元 (GPU) 可能既昂贵又稀缺。GPU 是专用计算机芯片,用于处理复杂的数学计算和并行处理,非常适合深度学习模型训练和推理中所需的复杂计算。因此,GPU 需求量很大,优化其利用率对于 AI 成功至关重要。

IBM 的大 AI 模型 (BAM) 团队为工程团队提供主要研发环境,帮助他们测试和改进其生成式 AI 项目。该团队看到了改进的机会。随着越来越多的项目进入测试阶段,该团队认识到充分利用每个实例以避免资源浪费的重要性。

5.3 倍 空闲 GPU 资源增加 2X 在不降低延迟性能的情况下实现吞吐量
启用 Turbonomic 来扩展和缩小我们的 LLM 推理服务器规模,让我能够花费更少的时间来监控性能。 Tom Morris IBM AI Platform Enablement Research 基础设施与运营主管 IBM
GPU 管理转型:由乱到治

为了优化其 GPU 资源并管理其 LLM Kubernetes 实例,IBM BAM 团队部署了 IBM Turbonomic,这是一种高级应用资源管理软件工具。Turbonomic 使用实时数据生成了 AI 驱动的自动化操作建议,以优化资源利用率和效率。通过确定最佳资源分配战略,该解决方案生成了量身定制的建议,团队可以将这些建议配置为自动执行,从而实现 AI 驱动的资源优化。

作为专为优化混合云管理(包括容器化应用程序、虚拟机和公有云)量身定制的 IBM 内部软件,IBM Turbonomic 在现有基础架构中提供了无缝整合。

AI 平台研究员 Tom Morris 总结道:“启用 Turbonomic 来扩展和缩小我们的 LLM 推理服务器规模,让我能够花费更少的时间来监控性能。”

以前

之后

提高性能,降低成本:高效分配 GPU 资源的成果

借助 Turbonomic,IBM BAM 团队能够创建可扩展且敏捷的基础架构;这个基础架构可以适应不断变化的业务需求、支持 LLM 服务并运行 100 多个 NVIDIA A100 GPU。

通过缩减过度配置的实例,团队证明可以将空闲 GPU 资源从 3 个增加到 16 个(5.3 倍),从而让这些资源能够处理额外的工作量。

成果包括:

  1. 资源分配
    有了自动化解决方案,动态扩展就成了第二特性,可根据不同需求优化可用 GPU 的利用率。

  2. 成本效益
    按需扩展 LLM 服务允许 GPU 分时,从而优化所需的 GPU 总数。现在,通过扩展和共享,IBM BAM 团队表示,在全自动化环境中将可减少 13 个 GPU。

  3. 劳动效率 借助 LLM 推理服务器的自动扩展,IBM BAM 团队可以减少监控性能所需的时间。

  4. 可扩展性和性能
    在完全自动化 LLM 服务的扩展之后,最初过度配置的 GPU 资源得到释放,可根据需求由其他工作量共享。吞吐量的增加提供了通过解决延迟问题来增强性能的机会。

 

IBM BAM 团队通过应用 Turbonomic 自动化功能,成功扩展并优化了 LLM 服务。这一改进让团队能够为战略项目重新分配时间。

IBM 徽标
关于 IBM 大型 AI 模型

IBM 大型 AI 模型 (BAM) 团队是 IBM Research 内部的研究人员和工程师团队,专注于开发和应用大规模 AI 模型。这些模型旨在处理和分析大量数据,并支持自然语言处理、计算机视觉和预测性分析等应用。

解决方案组件 IBM Turbonomic
通过数据驱动的决策实现业务转型

利用 IBM Turbonomic AI 驱动的自动化资源管理优化性能和效率

借助 Turbonomic 开始实现自动化 查看更多成功案例
法律信息

© Copyright IBM Corporation 2024。IBM、IBM 徽标、Turbonomic 和 IBM Research 是 IBM Corp. 在美国和/或其他国家或地区的商标或注册商标。本文档在最初公布日期为最新,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。

插图中的客户示例展示了客户使用 IBM 产品的方式,以及他们可能已取得的结果。实际性能、成本、节省情况或其他结果可能因具体运营环境不同而异。