发布日期:2024 年 6 月 18 日
撰稿人:Mesh Flinders、Ian Smalley
AI 推理对于 AI 技术的进步至关重要,并为其最令人兴奋的应用奠定了基础,例如生成式 AI,这也是为流行的 ChatGPT 应用程序提供支持的能力。AI 模型依靠 AI 推理来模仿人们思考、推理和回应提示的方式。
AI 推理首先使用决策算法在大型数据集上训练 AI 模型。AI 模型由决策算法组成,这些算法在构造类似人脑的神经网络 - 大语言模型 (LLM) 上进行训练。例如,设计用于面部识别的 AI 模型可能需要在数百万张人脸图像上进行训练。最终,它学会了准确识别眼睛颜色、鼻子形状和头发颜色等特征,然后可以利用这些特征识别图像中的个人。
尽管大多数组织都清楚自己对生成式 AI 的期望结果,但却不太了解如何能实现这些结果。选择错误的模型可能会对您的业务造成严重的影响。
如果 AI 模型没有在适合其应用的强大数据集上进行训练,那么它们根本就无效。鉴于该技术的敏感性以及媒体对它的密切关注1,企业需要谨慎行事。但随着跨行业并且可带来数字化转型和可扩展创新潜力的应用的出现,其诸多好处开始显现:
虽然 AI 推理的优点很多,但作为一项年轻、快速发展的技术,它也并非没有挑战。以下是考虑投资 AI 的企业应考虑的行业所面临的一些问题:
AI 推理是一个复杂的过程,涉及在适当的数据集上训练 AI 模型,直到它能推断出准确的响应。这是一个高度计算密集型的流程,需要专门的硬件和软件。在了解训练 AI 模型以进行 AI 推理的过程之前,让我们先了解一些支持它的专用硬件:
中央处理器 (CPU) 是计算机的主要功能组件。在 AI 训练和推理中,CPU 运行操作系统,并帮助管理训练所需的计算资源。
图形处理器 (GPU) 或为高性能计算机图形和图像处理而构建的电子电路用于各种设备,包括显卡、主板和手机。然而,由于它们的并行处理能力,它们也越来越多地用于 AI 模型的训练。一种方法是将许多 GPU 连接到单个 AI 系统以增强该系统的处理能力。
现场可编程门阵列 (FPGA) 是高度可定制的 AI 加速器,它依赖于专业知识来针对特定目的进行重新编程。与其他 AI 加速器不同,FPGA 具有适合特定功能的独特设计,通常与实时数据处理有关,这对 AI 推理至关重要。FPGA 在硬件级别上可重新编程,从而实现更高级别的定制。
ASIC 是专为特定目的或工作负载而设计的 AI 加速器,例如 Cerebras 生产的 WSE-3 ASIC 加速器就专用于深度学习。ASIC 可帮助数据科学家加快 AI 推理能力并降低成本。与 FPGA 不同,ASIC 无法重新编程,但由于它们专为单一用途而构建,因此它们的性能通常优于其他更通用的加速器。其中一个例子就是 Google 的张量处理单元 (TPU),它是使用 Google 自己的 TensorFlow 软件为神经网络机器学习而开发的。
作为数字化转型之旅的一部分,有兴趣投资 AI 应用程序的企业应该自行了解有关 AI 推理的优点和挑战。对于那些已经彻底研究了它的各种应用并准备将其投入实用的公司来说,以下是建立有效 AI 推理的五个步骤:
准备数据对于创建有效的 AI 模型和应用程序至关重要。企业可以为 AI 模型创建数据集,以便使用组织内部或外部的数据进行训练。为了获得最佳效果,通常将两者结合使用。收集 AI 训练数据的另一个关键部分是数据清理 - 删除任何重复的条目并解决所有格式问题。
数据集组装完成后,下一步就是为您的应用程序选择正确的 AI 模型。模型的范围从简单到复杂,较复杂的模型能够容纳更多的输入,并且较之不太复杂的模型,能在更细微的层面上进行推理。在此步骤中,必须明确您的需求,因为训练更复杂的模型与训练较简单的模型相比,可能需要更多的时间、金钱和其他资源。
为了从 AI 应用程序中获得所需的输出,企业通常需要进行多轮严格的 AI 培训。随着模型的训练,其推理的准确性将变得更加清晰,得出这些推论所需的计算资源量(例如算力和延迟)将减少。随着模型的成熟,它进入了一个新阶段,可以开始从所学数据中推断出新数据。这是一个令人兴奋的步骤,因为您可以看到您的模型开始按照其设计方式运行。
在您的模型被视为可运行之前,重要的是您要检查并监控其输出是否存在任何不准确、偏差或数据隐私问题。此阶段有时称为后处理,是您创建分步过程以确保模型准确性的时段。后处理阶段是创建一种方法的时刻,以确保您的 AI 为您提供您想要的答案并按预期方式运行。
经过严格的监控和后处理之后,您的 AI 模型就可以进行部署,供业务使用了。最后一步包括实施使 AI 模型能够发挥作用的架构和数据系统,以及创建任何变更管理程序,以培训利益相关者如何在其日常工作中使用您的 AI 应用程序。
根据企业所需的 AI 应用程序类型,他们可以选择不同类型的 AI 推理。如果企业希望构建用于物联网 (IoT) 应用程序的 AI 模型,则流式推理(及其测量功能)可能是最合适的选择。但是,如果 AI 模型旨在与人类交互,那么在线推理(及其 LLM 功能)将是更好的选择。以下是三种 AI 推理类型及其独特之处。
动态推理(也称为在线推理)是最快的 AI 推理类型,用于最流行的 LLM AI 应用程序,例如 OpenAI 的 ChatGPT。动态推理在被要求时立即做出输出和预测,并且之后需要低延迟和快速访问数据才能运行。动态推理的另一个特点是输出非常之快,以至于在它们到达最终用户之前没有时间对其进行审查。这导致一些企业在输出和最终用户之间增加一层监控,以确保质量控制。
批量推理通过使用大批量数据离线生成 AI 预测。使用批量推理方法,之前收集的数据随后将应用于 ML 算法。虽然批量推理并不适合需要在几秒钟或更短时间输出的情况,但它非常适合全天或一周内定期更新的 AI 预测,例如销售或营销仪表板或风险评估。
流式推理使用数据管道(通常通过传感器的定期测量提供),并将其输入到使用数据不断进行计算和预测的算法中。IoT 应用,例如通过连接到互联网的传感器监控发电厂或城市交通的 AI,需要依靠流式推理来做出决策。
生成式 AI 在企业中的使用不断增加,原因也很容易理解。
详细了解 AI 的变革性技术,该技术已经在帮助企业应对业务挑战。
与 watsonx.ai 中的独立模型聊天,体验如何使用生成式 AI。
人工智能 (AI) 是一种使计算机和机器能够模拟人类智能和解决问题能力的技术。
机器学习 (ML) 是人工智能 (AI) 和计算机科学的一个分支,专注于使用数据和算法使 AI 能够模仿人类的学习方式,并逐渐提高准确性。
AI 模型是一种程序,经过一组数据的训练,可识别某些模式或做出某些决策,而无需进一步的人工干预。
所有链接均为 ibm.com 外部链接
1“为什么公司对 AI 带来的风险准备明显不足”,Forbes,2023 年 6 月 15 日
2“在岸半导体生产:国家安全与经济效率”,美国外交关系协会,2024 年 4 月