在 IT 领域,“工作负载”一词已经发生了变化,在不同语境下具有不同的含义。通常,工作负载是指实现指定预期结果所需的总体系统需求、时间和资源量。工作负载既可以是相对简单的任务,如单一计算或独立应用程序,也可以是复杂的运营,如处理大规模数据分析、混合云或公有云服务,或运行一套相互关联的应用程序和工作负载。
作为一个子集,AI 工作量与 AI 应用程序相关任务关联紧密,例如 ChatGPT 等生成式 AI (gen AI) 大语言模型 (LLM)、自然语言处理 (NLP) 和运行 AI 算法。AI 工作量与大多数工作量的区别在于其高度复杂性和所处理数据的类型。与其他类型的工作量相比,AI 工作量通常要处理图像和文本等非结构化数据。
从广义上讲,AI 工作量可以分为两大类别,其中模型训练和模型推理的覆盖面最广:
模型训练工作负载用于教导 AI 框架识别模式,以便做出准确的预测。
模型推理工作量由 AI 模型解读和响应全新数据及请求所需的任务(及其相关计算能力)组成。
深入分析,其他一些差别更细微的 AI 工作负载类型包括:
这些类型的工作负载涉及为更深入的分析或模型训练而准备数据。作为训练 AI 模型的关键步骤,处理工作负载可确保训练数据符合预定义的质量和格式标准。数据处理工作负载包含诸如从不同来源提取和整理数据并将其整理为一致格式,然后将数据加载到存储空间中以便 AI 模型轻松使用等任务。这些类型的流程还可能包括更高级的操作,如特征提取,即从结构化水平不足的数据集中识别出特定的数据点或属性作为所需的输入。
机器学习 (ML) 工作量与用于学习和预测的 ML 算法的开发、训练与部署直接相关。ML 工作量负责处理大型数据集,迭代调整模型参数以提高准确性。ML 模型对于推理任务很有价值,例如根据历史模式预测未来事件。此类工作量在训练阶段需耗费大量资源,且需要 GPU(图形处理单元)和 TPU(张量处理单元)等专业处理器通过并行计算来加速运行。
深度学习 (DL) 工作负载用于训练和部署神经网络,模仿人脑思考、学习和解决问题的方式。作为机器学习的一个子集,深度学习系统具有更大的深度,涉及多层人工神经元或节点,使用日益复杂的数据层次结构来建立连接和抽象。DL 模型尤其适用于图像识别和语音识别任务,但这些类型的工作负载可能比 ML 工作负载要求更高,需要将多种强大的 AI 加速器应用于高性能计算 (HPC) 中。
自然语言处理 (NLP) 任务帮助人类通过对话提示与 AI 系统进行交互。这些类型的工作负载有助于 AI 模型理解和解释自然语言,然后生成人类也容易理解的响应。与 NLP 相关的任务包括情感分析、语言翻译和语音识别。NLP 系统需要能够分析大量文本和音频数据的上下文、语法和语义。现代 CPU(中央处理器)能够运行 NLP AI 系统,但是,更复杂的语言模型可能会给标准处理器带来压力,并需要更高水平的计算资源。
生成式 AI 系统可用于根据大量训练数据和用户提示生成新内容(如文本、图像、视频)。生成式 AI 工作量可解读用户命令并进行推理,以创建连贯输出。大语言模型采用生成式 AI 工作量来完成预测句子中最匹配的下一个单词等任务。扩散模型可用于生成图像和视频,通过此类工作量将随机噪声迭代细化为上下文连贯的视觉效果,其过程犹如雕刻家雕琢大理石。
AI 工作量适用于各类 AI 应用场景。技术领域的最新突破将 AI 带入全新的实用阶段,其应用范围涵盖自动化、汽车制造、医疗保健和重型机械等众多行业。每天都有新的 AI 应用程序投入测试,以往的应用程序正逐步完善,或可显著改善各类服务和运营。
零售商、银行和其他面向客户的企业正在使用 AI 来创造更加个性化的购物和娱乐体验,以提高客户满意度并防止客户流失。AI 算法可以利用客户信息,如个人兴趣和过去的购物数据,根据客户的喜好定制产品和服务推荐。
雇用和管理合格的员工队伍对任何行业来说都是巨大的压力。人工智能驱动的招聘平台通过筛选简历、将优秀候选人与空缺职位匹配,甚至使用视频分析进行初步面试,帮助简化招聘流程。像这样的工具可以帮助人力资源专业人员减少花在次要管理任务上的时间,并将更多精力放在最有前途的求职者身上。通过对大量潜在雇员进行筛选,AI 有助于最大限度缩短招聘时间并减少响应时间,从而改善申请人的体验,无论他们是否获得工作。
任何类型的工作负载管理都是各个规模较大的 IT 部门的关键组成部分。配置不当会直接影响整体系统性能,导致成本增加、稳定性降低和用户体验不佳。IBM、Microsoft Azure、Nvidia 和 Amazon Web Services (AWS) 等 AI 解决方案提供商一直在寻找经济高效的优化方法,以减轻主要管道的带宽压力,并在所有类型的工作负载生命周期中提高整体性能。
虽然有许多类型的复杂工作负载,但 AI 工作负载可能是要求最苛刻的工作负载之一。它们需要充足的数据存储解决方案(无论是在本地还是在远程数据中心)以及强大的专用硬件。
实施 AI 工作量的关键挑战包括:
使用开源框架和工具,将 AI 和机器学习应用于 IBM® zSystems 大型机上最有价值的企业数据。
IBM 提供 AI 基础设施解决方案并通过混合设计战略来加快对整个企业产生的影响。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。