AI 加速器与 GPU 有何区别?

2024 年 12 月 20 日

8 分钟

作者

Josh Schneider

Senior Writer

IBM Blog

Ian Smalley

Senior Editorial Strategist

AI 加速器与 GPU 有何区别?

AI 加速器(包括图形处理单元 (GPU)),泛指用于加速机器学习 (ML)深度学习 (DL) 模型、自然语言处理和其他人工智能 (AI) 运行的任何硬件。

但是,AI 加速器一词越来越多地用于描述更专业的 AI 芯片,例如 神经处理单元 (NPU) 或张量处理单元 (TPU)。虽然通用 GPU(最初是为渲染图像和图形而设计的)在用作 AI 加速器时非常有效,但其他类型的专用 AI 硬件可能会提供类似或更好的计算能力,同时提供更高能效、更大吞吐量以及其他针对 AI 工作负载的有价值的优化。

标准中央处理单元 (CPU) 在线性框架下运行,一次响应一个请求,往往难以满足高性能数据处理的需求。GPU 的设计则有所不同,能够轻松满足此类需求。

GPU 配有多个逻辑内核,可将复杂的问题分解为可以同时解决的更小的问题,这种方法称为并行处理。CUDA API 最初由 Nvidia 于 2006 年开发,发掘了 GPU 令人印象深刻的并行处理能力。这样,程序员将能够在数千个用例中使用 Nvidia GPU 进行通用处理,例如,数据中心优化、机器人、智能手机制造、加密货币挖掘等。

事实证明,GPU 出色的并行处理功能对于训练大语言模型 (LLM)神经网络等 AI 任务也极为有用。然而,随着需求的增加,耗电量也随之增加。此外,众所周知,高性能 GPU 既耗电又昂贵。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

GPU 和 AI 加速器之间的主要区别

尽管 GPU 非常适合处理大型数据集等 AI 应用,但它并非专为 AI 模型而设计。作为图形处理器,普通 GPU 会为与图形相关的任务分配一定数量的逻辑核心。这些任务包括视频编码和解码、计算颜色值以及对于视频编辑、3D 建模和游戏等任务至关重要的各类渲染过程。然而,AI 加速器芯片经过微调,仅能处理 AI 所需的任务。

通常而言,GPU 需具备高速处理海量(而非极大规模)数据的能力,才能实时流畅地渲染复杂动态图形。因此,GPU 会优先考虑低延迟运行,以确保持续且一致的高图像质量。

虽然速度在 AI 模型中也很重要,但 AI 数据集远大于 GPU 的平均需求。与 GPU 不同,AI 加速器旨在优化带宽,因此通常也能提高能效。

尽管 GPU 常用作 AI 加速器,但与更专业的 AI 加速器相比,GPU 或许并非最佳选择。通用 GPU 和专用 AI 芯片之间的主要区别在于专业化、效率、可及性和能效。

GPU

  • 专业性:GPU 专为高级并行处理而设计,可用于执行各种高要求任务。然而,GPU 专精于视频与图形处理任务,主要服务于该领域。
  • 效率:众所周知,GPU 需要大量电力,因此并非资源节约型解决方案。高功耗会严重影响以一个或多个 GPU 为主要处理器的业务的可扩展性。
  • 可及性:GPU 由 AMD、Nvidia 和 Intel 等多家主要制造商生产,虽然需求的增加会影响成本,但市场供应充足。由于已上市多年,GPU 还享有强大的现有资源社区,并且可以通过 CUDA 等框架轻松进行编程。
  • 用例:GPU 是游戏、计算机动画和视频处理的首选处理器。它们的并行处理能力也使其适用于其他需要大规模数据处理的应用场景,如数据中心、加密货币挖矿和部分 AI 用例。

AI 加速器

  • 专业化:AI 加速器专用于 AI 任务,并可以针对特定类型的 AI 应用进一步专业化。虽然 AI 加速器可以在执行与 AI 无关的功能的系统中提供价值,但它们是专为 AI 任务设计的,并且最适合用于 AI 任务。
  • 效率:AI 加速器通常为特定应用程序而设计,其效率远高于 GPU,具备类似的并行处理能力且所需资源更少。AI 加速器能剥离 GPU 用于图形处理的冗余功能,专用于优化神经网络中的短周期重复计算与 AI 算法等 AI 任务。
  • 可及性:AI 加速器比 GPU 更新,并且通常更难获取。像 Google TPU(张量处理单元)这样的专有 AI 加速器或许不太适合一般市场。然而,Pytorch 和开源 TensorFlow 等机器学习社区正通过不断扩大工具和资源库来提高 AI 加速器的可及性。
  • 用例:作为一种更专业的硬件类型,AI 加速器的用例比 GPU 更窄,缩小到要求苛刻的 AI 任务,例如,计算机视觉/图像识别、自然语言处理和自动驾驶汽车。然而,随着 AI 越来越多地融入我们的日常生活,制造商已经开始将 NPU 等 AI 加速器集成到更常见的消费电子产品中,例如笔记本电脑和智能手机。

 

对于 AI 应用,GPU 可以是一个很好的通用解决方案,就像皮卡是介于跑车和 18 轮卡车之间的折衷方案一样。18 轮卡车比跑车慢,但能装载更多货物。皮卡可以装载一些货物,比 18 轮卡车快,但比跑车慢。

GPU 类似于皮卡,但根据 AI 应用的优先级,可能更适合使用更专业的 AI 芯片,就像更专业的汽车一样。

AI 学院

利用混合云实现 AI 就绪

本课程由 IBM 资深思想领袖带领,旨在帮助企业领导者获得所需的知识,以便划分可以推动增长的 AI 投资的优先级。

了解 GPU

图形处理单元于 20 世纪 90 年代首次出现,旨在缓解对 CPU 的处理需求,因为基于文本的计算越来越少,图形操作系统和电子游戏开始流行。

自 20 世纪 50 年代初现代计算机发明以来,CPU 一直负责最关键的计算任务,包括所有程序必需的处理、逻辑和输入/输出 (I/O) 控制。

到了 20 世纪 90 年代,视频游戏和计算机辅助设计 (CAD) 需要一种更高效的方式将数据转换为图像。这一难题促使工程师设计出第一款具备独特芯片架构且能够执行并行处理的 GPU。

自 2007 年 Nvidia 推出 GPU 编程平台 CUDA 以来,GPU 设计得到蓬勃发展,其应用范围已扩展至各个行业,远远超出了图形处理的范畴(尽管图形渲染仍是大多数 GPU 最常见的应用场景)。

GPU 的类型

尽管按性能和效率划分,GPU 有数百种,但绝大多数属于以下三个主要类别之一:

  • 离散:离散 GPU 或 dGPU 与系统的 CPU 相分离。作为与众不同的独立硬件,dGPU 通常用于高级应用,例如,大规模视频编辑或高性能游戏。
  • 集成式:集成式 GPU 或 iGPU 直接内置于系统基础架构中,并与 CPU 相结合。集成式 GPU 具备简化的基础设施且不会影响性能,常用于笔记本电脑和手持游戏机。
  • 虚拟:虚拟 GPU 具有与其他 GPU 相同的功能,但没有硬件。虚拟 GPU 使用虚拟化软件来创建基于代码的 GPU,这对于基于云的应用程序大有帮助。由于虚拟 GPU 无需任何专用硬件,因此其部署和维护都更简单、更便宜。

了解 AI 加速器

虽然 AI 加速器是指用于加快人工智能应用程序的运行速度的任何硬件,但最常见的是指针对与 AI 模型相关的特定任务而优化的专用 AI 芯片。

尽管 AI 加速器被认为是高度专业化的硬件,却是由包括 IBM、Amazon Web Services (AWS) 和 Microsoft 在内的老牌计算公司以及 Cerebras 等初创公司构建和使用。随着 AI 技术的成熟和普及,AI 加速器和配套工具包将变得越来越常见。

在第一个专用 AI 加速器出现之前,通用 GPU 经常(并且继续)被用于 AI 应用,因为它们具有尤其先进的并行处理能力。然而,随着 AI 研究多年来的进步,工程师们一直在寻求 AI 加速器解决方案,以提供更高能效和利基 AI 优化。

AI 加速器的类型

AI 加速器因性能和专业性而异,其中部分专有技术仅限于特定制造商使用。几类较为出色的 AI 加速器包括:

  • GPU:作为通用 AI 加速器,GPU 因其强大的并行处理能力而备受青睐。不过,它们的缺点是能耗高且可扩展性差。
  • 现场可编程门阵列 (FPGA):FPGA 是一种可配置的处理器,可以对其进行编程和重新编程以满足特定的应用需求。这些类型的芯片对于原型设计非常有价值,因为可以在整个开发过程中对它们进行定制和调整,以满足新兴的应用需求。
  • 专用集成电路 (ASIC):ASIC 是专为特定任务而设计的定制芯片。由于 ASIC 通常是为其独特功能而量身定制的,因此其性能和功耗均经过高度优化。
  • 神经处理单元 (NPU):NPU 架构模仿人脑的神经通路,并优先考虑数据流和内存层次结构,以便更好地实时处理 AI 工作负载。
  • 张量处理单元 (TPU):与 NPU 类似,TPU 是由 Google 制造的专有 AI 加速器,旨在进行大量低精度计算,例如大多数 AI 模型中常见的矩阵乘法中所用的张量运算。虽然大多数 AI 加速器也能执行此类计算,但 TPU 已针对 Google 的 TensorFlow 平台进行优化。

AI 加速器的优势

虽然现成的 GPU 确实具备某些优势(例如,可用性、可访问性),但更专业的 AI 加速器通常在三个关键领域胜过旧有技术:速度、效率和设计。

速度

在低延迟、大规模数据处理方面,现代 AI 加速器,甚至是 GPU 都比 CPU 快得多。对于自动驾驶汽车系统等关键应用,速度至关重要。GPU 比 CPU 更好,但为特定应用(例如自动驾驶汽车中使用的计算机视觉)而设计的 ASIC 速度更快。

高效

专为特定任务设计的 AI 加速器的能效可能比耗电的 GPU 高出 100 到 1000 倍。提高效率可以大大降低运营费用,更重要的是,大大减少对环境的影响。

设计

AI 加速器采用一种称为“异构设计”的芯片架构,允许多个处理器支持不同的任务,并通过高度先进的并行处理提高计算性能。

AI 加速器与 GPU 的对比:用例

由于 GPU 本身被认为是 AI 加速器,因此,它们的用例经常与更专业的 AI 硬件重叠。随着时间的推移,我们可能会看到 GPU 在 AI 应用中退居二线。

GPU 用例

多功能 GPU 仍广泛用于 AI 和其他类型的应用程序,而这一趋势必将持续。GPU 可用于一系列需要高级并行机制的应用,包括:

  • 人工智能、机器学习和深度学习:尽管新型 AI 加速器有一天可能会取代人工智能应用中的 GPU,但 GPU 作为 AI 系统中的协处理器,仍将具有很高的价值。当前,GPU 为许多领先的 AI 应用提供支持,例如 IBM 的云原生 AI 超级计算机 Vela,这些应用需要高速处理能力才能在越来越大的数据集上进行训练。GPU 继续为机器学习和深度学习应用提供价值,例如,训练神经网络。
  • 区块链:零信任区块链技术用于在虚拟分类账中记录交易,是比特币等热门加密货币的基础。GPU 的高级处理能力在区块链应用中极具价值,特别是在涉及验证分类账交易的“工作量证明”操作时。
  • 图形:需要高性能图形渲染的应用程序高度依赖 GPU。GPU 是游戏、视频编辑和内容创作等主要行业中不可或缺的一部分。GPU 在可视化和模拟任务中也发挥着重要作用,例如 3D 建模、天气预测、医学以及地震和地球物理成像。

AI 加速器用例

随着 AI 技术的成熟,专用硬件日益普及。ASIC AI 加速器融合了 GPU 的并行处理能力,同时舍弃了不必要的功能,其应用范围正不断扩大,其中包括:

  • 自动驾驶汽车:专用 AI 加速器能够实时处理数据,已成为自动驾驶汽车系统的关键组件,因为对于此类系统,生死就在毫秒之间。AI 加速器捕获并处理来自摄像头和 LiDAR 等输入传感器的数据,使自动驾驶汽车能够对周围的环境进行解读并做出响应。
  • 边缘计算和边缘 AI:边缘计算和边缘 AI 指的是一种基础设施框架,能够将应用程序和计算能力与物联网 (IoT) 设备等基于云的数据源更紧密地结合在一起,实现更快、更安全的连接。基于云的 AI 可能会带来安全问题,而 AI 加速器有助于本地化 AI 模型,以减少敏感数据泄露的机会。
  • 生成式 AI:生成式 AI 模型(如 LLM)依靠 AI 加速器进行自然语言处理,从而帮助 AI 模型理解非正式会话命令,并在聊天机器人等应用程序中生成易于理解的响应。
采取后续步骤

利用 IBM 的混合云和 AI 就绪解决方案来实现企业基础设施转型。了解旨在保护、扩展和实现企业的现代化改造的服务器、存储和软件,或获取专家洞察分析,从而强化您的生成式 AI 战略。

探索 IT 基础架构解决方案 下载电子书