随着 AI 技术的扩展,AI 加速器对于处理运行 AI 应用所需的大量数据至关重要。目前,AI 加速器用例涵盖智能手机、个人电脑、机器人、自动驾驶汽车、物联网 (IoT)、边缘计算等。
几十年来,计算机系统依靠加速器(或协处理器)完成各种专业任务。协处理器的典型示例包括图形处理单元 (GPU)、声卡和视频显卡。
但随着过去十年 AI 应用的增长,传统的中央处理器 (CPU) 甚至一些 GPU 都无法处理运行 AI 应用所需的大量数据。因此诞生了 AI 加速器,它具有专门的并行处理能力,可以同时进行数十亿次计算。
随着 AI 行业扩展到新的应用和领域,AI 加速器对于加快大规模创建 AI 应用所需的数据处理至关重要。
如果没有 GPU、现场可编程门阵列 (FPGA) 和专用集成电路 (ASIC) 等 AI 加速器来加速深度学习,实现 ChatGPT 这样 AI 技术突破将需要更长时间,成本也更高。世界上一些最大的公司都在广泛使用 AI 加速器,包括苹果、谷歌、IBM、英特尔和微软。
在快速发展的 AI 技术行业中,速度和可扩展性至关重要,AI 加速器已成为帮助公司大规模创新和加速将新 AI 应用推向市场不可或缺的工具。AI 加速器在三个关键方面优于旧款产品:速度、效率和设计。
由于延迟(系统延迟的衡量标准)显著降低,AI 加速器速度远超传统 CPU。在医疗和自动驾驶汽车领域开发 AI 应用时,低延迟尤其重要,因为在这些领域,几秒钟甚至几毫秒的延迟都会导致危险。
与其他更标准的计算系统相比,AI 加速器的效率可提高 100 到 1000 倍。无论是数据中心使用的大型 AI 加速器芯片,还是边缘设备中通常使用的小型芯片,其功耗和散热量都低于老式芯片。
AI 加速器采用所谓的异构架构,使多个处理器能够支持不同的任务,这种功能将计算性能提高到 AI 应用所需的水平。
AI 加速器对于 AI 技术的应用至关重要,然而行业面临的一些挑战需要尽快解决,否则将阻碍创新。
2023 年,全球 50% 的半导体(包括 AI 加速器)是在中国台湾省制造的。 NVIDIA 公司是全球最大的 AI 硬件和软件公司,其人工智能加速器历来依赖台湾积体电路制造股份有限公司 (TSMC) 一家公司生产;据估计,台积电生产了全球约 90% 的人工智能芯片。
由于生产集中在一个地方,任何形式的供应链中断,无论是自然灾害、网络攻击还是地缘政治动荡,都可能造成严重的瓶颈和短缺。
当今最强大的 AI 模型需要的计算能力超出许多 AI 加速器的处理能力,而且芯片设计的创新步伐跟不上 AI 模型的创新步伐。
为提高效率,各公司正在探索内存计算、AI 算法增强性能和制造等领域,但它们的发展速度跟不上 AI 应用对计算需求的增长速度。
AI 加速器很小,大多数以毫米为单位,世界上最大的加速器只有 iPad 大小,因此很难在如此狭小的空间内为它们提供所需的能耗。近年来,随着 AI 工作负载对计算的需求不断增加,这变得越来越困难。AI 加速器背后的电源配送网络 (PDN) 架构需要尽快取得进展,否则性能将开始受到影响。
与前代产品相比,AI 加速器凭借独特的设计和专用硬件,可以显著提高 AI 处理性能。专用功能能够以远远超过通用芯片的速度解决复杂的 AI 算法。
AI 加速器通常由硅等半导体材料和与电子电路相连的晶体管制成。通过材料的电流开启或关闭,产生信号,然后由数字设备读取。在高级加速器中,信号每秒开启和关闭数十亿次,使电路能够使用二进制代码解决复杂的计算。
有些 AI 加速器专为特定目的而设计,而另一些则具有更通用功能。例如,NPU 是专为深度学习构建的 AI 加速器,而 GPU 是专为视频和图像处理设计的 AI 加速器。
AI 加速器的主要任务是解决高级算法,其性能对于机器学习 (ML)、深度学习和深度神经网络问题等各种 AI 相关操作至关重要。
由于它们以独特的方式部署计算资源(主要通过并行处理)、具有独特的内存架构和称为降低精度的特性,因此可以同时快速而准确地解决许多算法。
当今最先进的 AI 加速器旨在通过将大型复杂问题划划分为较小的问题并同时予以解决,从而爆炸式提高它们的速度。
并行处理
AI 加速器能同时执行多项计算,这项任务被称为并行处理,没有其他功能能像它一样提高 AI 加速器的性能。与其他芯片不同,AI 加速器可以在几分钟、几秒钟甚至几毫秒内完成以前需要数小时甚至数天才能完成的任务。
这种能力使它们对于依赖实时数据处理(例如边缘计算)的 AI 技术来说不可或缺。由于 ML 和深度学习过程中的复杂算法数量庞大,AI 加速器对于该技术及其应用的发展至关重要。
降低 AI 训练的精度
为了节省功耗,AI 加速器可以采用一种称为降低精度算术的功能。神经网络使用 16 位甚至 8 位浮点数,而不是更多通用芯片使用的 32 位,仍然具有很强的功能。这意味着它们可以在不影响精度的情况下以更低的能耗加快处理速度。
内存层次结构
在 AI 加速器中,数据从一个位置移动到另一个位置的方式对于优化 AI 工作负载至关重要。AI 加速器使用与通用芯片不同的内存架构,因此可以降低延迟和提高吞吐量。这些专门的设计功能对于加速处理高性能 AI 工作负载所需的大型数据集至关重要,其中包括片上缓存和高带宽内存。
AI 加速器根据功能分为两种架构:面向数据中心的 AI 加速器和面向边缘计算框架的 AI 加速器。数据中心 AI 加速器需要高度可扩展的架构和大型芯片,例如 Cerebras 为深度学习系统构建的 Wafer-Scale Engine (WSE),而为边缘计算生态系统构建的 AI 加速器更注重能源效率和提供近乎实时结果的能力。
晶圆级集成
晶圆级集成 WSI 是指将超大型 AI 芯片网络构建到单个“超级”芯片中的工艺,旨在降低成本并提升深度学习模型的性能。最受欢迎的晶圆级集成是由 Cerebras 生产、采用台积电 5 纳米工艺制造的 WSE-3 芯片网络,它是目前全球速度最快的 AI 加速器。
NPU
NPU,即神经处理单元,是用于深度学习和神经网络以及这些工作负载特有的数据处理要求的 AI 加速器。NPU 可以比其他芯片更快地处理大量数据。它们可以执行与机器学习相关的各种 AI 任务,例如图像识别以及 ChatGPT 等流行 AI 和 ML 应用程序背后的神经网络。
GPU
GPU 是一种为增强计算机图形和图像处理性能而构建的电子电路,用于各种设备,包括视频卡、主板和手机。然而,由于它们的并行处理能力,它们也越来越多地用于 AI 模型的训练。一种流行的方法是将许多 GPU 连接到单个 AI 系统以增强该系统的处理能力。
现场可编程门阵列 (FPGA)
FPGA 是高度可定制的 AI 加速器,它依赖于专业知识来针对特定目的进行重新编程。与其他 AI 加速器不同,FPGA 具有适合特定功能的独特设计,通常与实时处理数据有关。FPGA 在硬件级别上可重新编程,从而实现更高级别的定制。FPGA 的常见应用包括航空航天、物联网 (IoT) 和无线网络。
专用集成电路 (ASIC)
ASIC 是专为特定目的或工作负载而设计的 AI 加速器,例如 Cerebras 生产的 WSE-3 ASIC 加速器就专用于深度学习。与 FPGA 不同,ASIC 无法重新编程,但由于它们专为单一用途而构建,因此它们的性能通常优于其他更通用的加速器。其中一个示例就是谷歌的张量处理单元 (TPU),它是使用谷歌自己的 TensorFlow 软件为神经网络机器学习而开发的。
从智能手机和个人电脑到机器人和卫星等最先进的 AI 技术,AI 加速器在开发新的 AI 应用方面发挥着至关重要的作用。以下是如何使用 AI 加速器的一些示例:
AI 加速器可以近乎实时地捕获和处理数据,因此对自动驾驶汽车、无人机和其他自动驾驶车辆的开发至关重要。AI 加速器的并行处理能力无与伦比,使它们能够处理和解读来自摄像头和传感器的数据,并进行处理,以便车辆能够对周围环境做出反应。例如,当自动驾驶汽车遇到红绿灯时,AI 加速器会加快来自传感器的数据的处理速度,使其能够读取交通信号和十字路口其他汽车的位置。
边缘计算是一种将应用和计算能力更靠近物联网设备等数据源的过程,允许在有或没有互联网连接的情况下处理数据。边缘 AI 允许执行 ML 任务的 AI 功能和 AI 加速器在边缘执行,而不是将数据迁移到数据中心进行处理。这在许多 AI 应用中都能降低延迟和能耗。
大语言模型 (LLM) 依靠 AI 加速器来帮助它们发展理解和生成自然语言的独特能力。AI 加速器的并行处理有助于加速神经网络的进程,优化生成式 AI 和聊天机器人等尖端 AI 应用的性能。
AI 加速器具有机器学习和计算机视觉功能,因此对机器人行业的发展至关重要。随着 AI 增强型机器人技术开发用于各种任务(从个人伴侣到手术工具),AI 加速器将继续发挥关键作用,以与人类相同的速度和准确性培养检测和响应环境的能力。