主页
Case Studies
IBM 大型 AI 模型 - Turbonomic
人工智能已经达到了一个重要的里程碑,其中训练大型语言模型 (LLM) 是对计算要求最高的任务之一。高性能计算对于生成式 AI 和 LLM 工作负载优化至关重要,而图形处理单元 (GPU) 可能既昂贵又稀缺。GPU 是专用计算机芯片,用于处理复杂的数学计算和并行处理,非常适合深度学习模型训练和推理中所需的复杂计算。因此,GPU 需求量很大,优化其利用率对于 AI 成功至关重要。
IBM 的大 AI 模型 (BAM) 团队为工程团队提供主要研发环境,帮助他们测试和改进其生成式 AI 项目。该团队看到了改进的机会。随着越来越多的项目进入测试阶段,该团队认识到充分利用每个实例以避免资源浪费的重要性。
为了优化其 GPU 资源并管理其 LLM Kubernetes 实例,IBM BAM 团队部署了 IBM Turbonomic,这是一种高级应用资源管理软件工具。Turbonomic 使用实时数据生成了 AI 驱动的自动化操作建议,以优化资源利用率和效率。通过确定最佳资源分配战略,该解决方案生成了量身定制的建议,团队可以将这些建议配置为自动执行,从而实现 AI 驱动的资源优化。
作为专为优化混合云管理(包括容器化应用程序、虚拟机和公有云)量身定制的 IBM 内部软件,IBM Turbonomic 在现有基础架构中提供了无缝整合。
AI 平台研究员 Tom Morris 总结道:“启用 Turbonomic 来扩展和缩小我们的 LLM 推理服务器规模,让我能够花费更少的时间来监控性能。”
以前
之后
借助 Turbonomic,IBM BAM 团队能够创建可扩展且敏捷的基础架构;这个基础架构可以适应不断变化的业务需求、支持 LLM 服务并运行 100 多个 NVIDIA A100 GPU。
通过缩减过度配置的实例,团队证明可以将空闲 GPU 资源从 3 个增加到 16 个(5.3 倍),从而让这些资源能够处理额外的工作量。
成果包括:
IBM BAM 团队通过应用 Turbonomic 自动化功能,成功扩展并优化了 LLM 服务。这一改进让团队能够为战略项目重新分配时间。
IBM 大型 AI 模型 (BAM) 团队是 IBM Research 内部的研究人员和工程师团队,专注于开发和应用大规模 AI 模型。这些模型旨在处理和分析大量数据,并支持自然语言处理、计算机视觉和预测性分析等应用。
© Copyright IBM Corporation 2024。IBM、IBM 徽标、Turbonomic 和 IBM Research 是 IBM Corp. 在美国和/或其他国家或地区的商标或注册商标。本文档在最初公布日期为最新,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。
插图中的客户示例展示了客户使用 IBM 产品的方式,以及他们可能已取得的结果。实际性能、成本、节省情况或其他结果可能因具体运营环境不同而异。