8 分钟
但是,AI 加速器一词越来越多地用于描述更专业的 AI 芯片,例如 神经处理单元 (NPU) 或张量处理单元 (TPU)。虽然通用 GPU(最初是为渲染图像和图形而设计的)在用作 AI 加速器时非常有效,但其他类型的专用 AI 硬件可能会提供类似或更好的计算能力,同时提供更高能效、更大吞吐量以及其他针对 AI 工作负载的有价值的优化。
标准中央处理单元 (CPU) 在线性框架下运行,一次响应一个请求,往往难以满足高性能数据处理的需求。GPU 的设计则有所不同,能够轻松满足此类需求。
GPU 配有多个逻辑内核,可将复杂的问题分解为可以同时解决的更小的问题,这种方法称为并行处理。CUDA API 最初由 Nvidia 于 2006 年开发,发掘了 GPU 令人印象深刻的并行处理能力。这样,程序员将能够在数千个用例中使用 Nvidia GPU 进行通用处理,例如,数据中心优化、机器人、智能手机制造、加密货币挖掘等。
事实证明,GPU 出色的并行处理功能对于训练大语言模型 (LLM)或神经网络等 AI 任务也极为有用。然而,随着需求的增加,耗电量也随之增加。此外,众所周知,高性能 GPU 既耗电又昂贵。
尽管 GPU 非常适合处理大型数据集等 AI 应用,但它并非专为 AI 模型而设计。作为图形处理器,普通 GPU 会为与图形相关的任务分配一定数量的逻辑核心。这些任务包括视频编码和解码、计算颜色值以及对于视频编辑、3D 建模和游戏等任务至关重要的各类渲染过程。然而,AI 加速器芯片经过微调,仅能处理 AI 所需的任务。
通常而言,GPU 需具备高速处理海量(而非极大规模)数据的能力,才能实时流畅地渲染复杂动态图形。因此,GPU 会优先考虑低延迟运行,以确保持续且一致的高图像质量。
虽然速度在 AI 模型中也很重要,但 AI 数据集远大于 GPU 的平均需求。与 GPU 不同,AI 加速器旨在优化带宽,因此通常也能提高能效。
尽管 GPU 常用作 AI 加速器,但与更专业的 AI 加速器相比,GPU 或许并非最佳选择。通用 GPU 和专用 AI 芯片之间的主要区别在于专业化、效率、可及性和能效。
对于 AI 应用,GPU 可以是一个很好的通用解决方案,就像皮卡是介于跑车和 18 轮卡车之间的折衷方案一样。18 轮卡车比跑车慢,但能装载更多货物。皮卡可以装载一些货物,比 18 轮卡车快,但比跑车慢。
GPU 类似于皮卡,但根据 AI 应用的优先级,可能更适合使用更专业的 AI 芯片,就像更专业的汽车一样。
图形处理单元于 20 世纪 90 年代首次出现,旨在缓解对 CPU 的处理需求,因为基于文本的计算越来越少,图形操作系统和电子游戏开始流行。
自 20 世纪 50 年代初现代计算机发明以来,CPU 一直负责最关键的计算任务,包括所有程序必需的处理、逻辑和输入/输出 (I/O) 控制。
到了 20 世纪 90 年代,视频游戏和计算机辅助设计 (CAD) 需要一种更高效的方式将数据转换为图像。这一难题促使工程师设计出第一款具备独特芯片架构且能够执行并行处理的 GPU。
自 2007 年 Nvidia 推出 GPU 编程平台 CUDA 以来,GPU 设计得到蓬勃发展,其应用范围已扩展至各个行业,远远超出了图形处理的范畴(尽管图形渲染仍是大多数 GPU 最常见的应用场景)。
尽管按性能和效率划分,GPU 有数百种,但绝大多数属于以下三个主要类别之一:
虽然 AI 加速器是指用于加快人工智能应用程序的运行速度的任何硬件,但最常见的是指针对与 AI 模型相关的特定任务而优化的专用 AI 芯片。
尽管 AI 加速器被认为是高度专业化的硬件,却是由包括 IBM、Amazon Web Services (AWS) 和 Microsoft 在内的老牌计算公司以及 Cerebras 等初创公司构建和使用。随着 AI 技术的成熟和普及,AI 加速器和配套工具包将变得越来越常见。
在第一个专用 AI 加速器出现之前,通用 GPU 经常(并且继续)被用于 AI 应用,因为它们具有尤其先进的并行处理能力。然而,随着 AI 研究多年来的进步,工程师们一直在寻求 AI 加速器解决方案,以提供更高能效和利基 AI 优化。
AI 加速器因性能和专业性而异,其中部分专有技术仅限于特定制造商使用。几类较为出色的 AI 加速器包括:
虽然现成的 GPU 确实具备某些优势(例如,可用性、可访问性),但更专业的 AI 加速器通常在三个关键领域胜过旧有技术:速度、效率和设计。
在低延迟、大规模数据处理方面,现代 AI 加速器,甚至是 GPU 都比 CPU 快得多。对于自动驾驶汽车系统等关键应用,速度至关重要。GPU 比 CPU 更好,但为特定应用(例如自动驾驶汽车中使用的计算机视觉)而设计的 ASIC 速度更快。
专为特定任务设计的 AI 加速器的能效可能比耗电的 GPU 高出 100 到 1000 倍。提高效率可以大大降低运营费用,更重要的是,大大减少对环境的影响。
AI 加速器采用一种称为“异构设计”的芯片架构,允许多个处理器支持不同的任务,并通过高度先进的并行处理提高计算性能。
由于 GPU 本身被认为是 AI 加速器,因此,它们的用例经常与更专业的 AI 硬件重叠。随着时间的推移,我们可能会看到 GPU 在 AI 应用中退居二线。
多功能 GPU 仍广泛用于 AI 和其他类型的应用程序,而这一趋势必将持续。GPU 可用于一系列需要高级并行机制的应用,包括:
随着 AI 技术的成熟,专用硬件日益普及。ASIC AI 加速器融合了 GPU 的并行处理能力,同时舍弃了不必要的功能,其应用范围正不断扩大,其中包括: