NPU 与 GPU：有什么区别？| IBM

NPU 与 GPU：有什么区别？

神经处理单元 (NPU) 和图形处理单元 (GPU) 都是对系统主中央处理器 (CPU) 的补充，两者之间的根本区别归结为芯片架构和处理能力。

GPU 包含数千个核心，以实现图形渲染所需的快速、精确的计算任务。NPU 优先考虑数据流和内存层次结构，以便更好地实时处理 AI 工作量。

两种类型的微处理器都擅长人工智能中使用的并行处理类型，但是 NPU 是专为机器学习 (ML) 和 AI 任务而构建的。

神经处理单元 (NPU) 正成为焦点，但为什么这项已有近十年历史的技术突然抢占了风头？答案与生成式 AI 的最新进展有关，这重新激发了公众对 AI 应用程序的兴趣，进而重新激发了公众对 NPU 和 GPU 等 AI 加速器芯片的兴趣。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

NPU 如何模仿人类思维

NPU 架构与 CPU 或 GPU 的架构有很大不同。CPU 设计为用于顺序执行指令，其处理核心数量少于 GPU，而 GPU 拥有更多核心，专为需要高并行处理的高负荷操作而设计。

CPU 在并行处理任务方面表现不佳，而 GPU 虽然性能出色，但能耗很高，NPU 架构则通过模仿人脑处理数据的方式来发挥其优势。NPU 不仅仅是简单地添加额外的内核，它还可以通过许多独特的功能和技术以更少的能耗实现高度并行性：

专用计算单元：NPU 整合了用于乘法和累加运算的专用硬件，这对于神经网络模型的训练和推理至关重要。

高速片上内存：为尽量减少与内存访问相关的瓶颈，NPU 配备了高速集成内存，使模型数据和权重能够被快速访问。

并行架构：NPU 旨在执行数千个并行运算，使得它们在处理批量数据时效率极高。

AI 学院

利用混合云实现 AI 就绪

本课程由 IBM 资深思想领袖带领，旨在帮助企业领导者获得所需的知识，以便划分可以推动增长的 AI 投资的优先级。

转到视频集

CPU 和 GPU 之间的主要区别

比较 NPU 和 GPU 时，评估关键功能的性能十分有用。

设计

GPU 旨在将繁重的图像处理任务分解为可并行处理的更小运算。

NPU 旨在模拟人脑，通过模块加速乘法和加法运算，同时优化片上内存。

性能效率

GPU 提供出色的并行计算能力，但代价是高功耗。

NPU 提供相同（甚至更好）的并行性，尤其是在简短的重复性计算时。NPU 旨在处理用于神经网络的人工智能算法，特别适合处理需要矩阵乘法的大规模数据集。

专长领域

GPU 虽然比 CPU 更专业化，但更适合通用计算。

NPU 是专为 AI 和机器学习任务而构建的专用处理器。它们去掉了 GPU 使用的一些冗余功能，以优化能效。

可访问性

GPU 作为 NPU 的前身，受益于更成熟的生态环境，并在消费市场上广泛可用。Nvidia 的 CUDA 语言面向专业人士和爱好者，可轻松进行 GPU 编程，并支持针对各种操作系统的开源编译。

NPU 比 GPU 更新，通常不那么容易获得。许多专有NPU，例如 Google 的张量处理单元 (TPU) 或高通的骁龙（苹果使用），可能无法向更广泛的市场提供。Intel 或 AMD 等制造商生产的 NPU 芯片的社区资源相对较少。

用例

GPU 经常用于游戏和计算机动画，其中显卡负责图像处理优化。它们在其他需要高度并行性的应用程序中也十分有效，例如数据中心、加密货币挖矿或 AI 模型训练。

NPU 的使用范围更广，可提供出色的并行性，同时功耗更低。NPU 通常与 GPU 结合使用，用于卸载更高负荷的 AI 任务，最适合处理机器学习任务，例如在大语言模型 (LLM)、深度学习图像识别或区块链与 AI 中的 AI 工作负载。

NPU 如何补充 GPU 的功能

与传统处理器相比，将 NPU 融入集成系统，在速度、效率和便利性方面可提供许多显著优势。优势包括以下几点：

本地化：处理 AI 应用程序需要大量的计算资源，因此，它通常被放到云进行处理。然而，依赖远程服务器可能会减慢操作速度，并使敏感信息面临潜在的数据泄露风险。NPU 可以实现 AI 任务的本地化实时处理，从而降低关键应用（如语音或面部识别、医疗诊断和自动驾驶系统）的延迟。

资源管理：常见的集成 NPU 可以通过承担 AI 应用所需的重复性任务来优化整体系统资源。将这些类型的任务卸载给 NPU 可以释放 GPU 资源来处理大量数据，从而实现更通用的计算。

效率：虽然 GPU 能够处理许多与 AI 相关的高负荷任务，但 NPU 是专门为这些任务设计的，能够在消耗极少电力的情况下达到相似甚至更高的性能标准，这对于电池容量有限的设备尤其重要。

NPU 与 GPU 用例的比较

作为协处理器，NPU 已经使用多年，通常与 GPU 集成，为特定的重复性任务提供支持。NPU 在消费级技术中仍然具有价值（例如 Microsoft Windows 的 AI Copilot），以及各种物联网 (IoT)设备（例如使用 NPU 处理语音识别的智能音箱）。

然而，科技的最新发展使这类处理器更加引人注目，因为更先进的 AI 模型已经将消费级 AI 工具带入了大众视野。专为满足自然语言处理等高要求的 AI 任务而设计，随着消费者对 AI 的兴趣日益增长，人们对 NPU 的兴趣也随之增长。

NPU 用例

NPU 的主要用例包括：

人工智能和大语言模型：NPU 专为提高 AI 和 ML 系统的性能而设计，例如需要低延迟自适应处理来解读多媒体信号、执行语音识别并生成自然响应的大语言模型 (LLM)。NPU 在支持 AI 的视频处理任务中也非常擅长，例如在视频通话中虚化背景或自动编辑图像。

物联网 (IoT) 设备：体积小、能效高的 NPU 是小型智能设备（包括智能手机、移动设备和可穿戴设备）的强大协处理器，在这些设备中，电池电量有限且效率至关重要。

数据中心：以处理高负荷工作负载而闻名，数据中心可从 NPU 提供的高效资源优化中受益。

自动驾驶汽车和机器人：从自动驾驶汽车到自动驾驶飞行器（无人机），NPU 通过一流的并行性和更高的信号处理速度为自动驾驶系统增加价值。低延迟 NPU 是需要计算机视觉的应用程序的绝佳选择，可以帮助自动驾驶车辆实时响应突如其来的交通和环境条件。从家庭助手到自动化手术工具，人工智能机器人依靠神经网络处理器 (NPU) 来发展检测、学习和对环境做出反应的能力。

边缘计算和边缘人工智能：边缘计算和边缘人工智能旨在使关键数据和计算资源在物理上更接近用户。这可以减少延迟、降低能耗并提高隐私保护。NPU 能耗更低、占用空间更小，正逐渐成为边缘计算和设备端 AI 的重要组成部分。

GPU 用例

在 NPU 出现之前，GPU 长期以来一直是需要高性能并行处理的计算任务的首选。GPU 最初设计用于处理视频游戏和图像/视频软件的复杂图形，如今仍被用于 PC 和主机游戏，以及虚拟和增强现实、高性能计算 (HPC) 、3D 渲染、数据中心及其他应用。

以下是 GPU 技术的一些最重要的现代应用：

人工智能 (AI)、机器学习 (ML) 和深度学习 (DL)：虽然 GPU 不是专门为 AI、ML 或 DL 任务而设计的，但仍为许多领先的 AI 应用程序提供支持，例如 IBM 的云原生 AI 超级计算机 Vela，这些应用需要高速并行处理以处理用于训练的大型数据集。通过并行处理，GPU 可以模拟 ML 和 DL 中使用的人脑决策过程。

云计算：近年来，云计算已成为所有主要行业 IT 基础设施的重要组成部分。将大型计算任务卸载到异地存储的强大服务器上需要强大的数据处理功能。GPU 通过并行计算加速大数据分析和数据库查询，从而为云计算基础设施提供支持。

可视化和模拟：GPU 专为处理图形而设计，在各行业中为需要复杂可视化或仿真的任务提供巨大价值，包括产品演示、工程 CAD 绘图、医学成像以及地震与地球物理建模。在其他地方，气候科学家使用 GPU 支持的模拟来预测天气状况，而理论物理学家则使用它们在量子层面上模拟粒子的行为。

区块链：区块链技术在很大程度上依赖 GPU 技术，尤其是在验证“工作量证明”时。在许多广泛使用的区块链应用中，例如加密货币比特币，都会执行工作量证明计算，以确认对整个账本所做的任何更新都是准确的。这种级别的计算要求非常高，因为它会影响整个区块链，没有现代 GPU 是不可能实现的。

游戏和元宇宙：随着游戏行业的继续发展，对更好的图形、更大规模的大型多人在线 (MMO) 游戏以及计算密集型渲染（支持虚拟现实和增强现实 (AR)（技术）游戏）的需求也在增加。游戏开发商和计算机制造商依靠 GPU 来驱动边缘游戏功能，例如高图像刷新率和用于渲染超逼真环境的高级光线追踪技术。

视频处理和内容创建：自推出以来，GPU 持续缩短了热门视频编辑产品（如 Final Cut Pro 和 Adobe Premiere）的渲染时间。如今，配备集成式 NPU 的 GPU 可以大大加快各种视频创建和编辑任务的速度，从好莱坞主要工作室使用的专业编辑套件到 YouTube 用户和 TikTok 用户使用的智能手机应用程序。

整合 NPU 与 GPU 以提升 AI 性能

NPU 最好用于集成系统，能够优化运算，将特定类型的资源分配给特定类型的处理器。CPU 专为精确的线性计算而设计，最适合用于系统和资源管理等通用处理任务，而 GPU 则专门用于受益于并行计算的高强度工作负载。

随着人工智能应用程序变得越来越普遍，更专业的 NPU 最好作为 CPU 和 GPU 的补充来部署，通过低延迟和高能效并行处理来处理特定于 AI 和 ML 的任务。

构建弹性 AI 就绪基础设施的 5 个步骤

现代 AI 基础设施不仅需要高性能，还需要内置弹性，以抵御网络威胁、系统故障和运营中断。本指南概述了基础设施负责人建立强大数据所有权、分类关键工作负载、实施弹性保护、利用 AI 检测异常以及自动化恢复工作流程的五个基本步骤，从而在日益复杂的环境中确保持续、可靠的运营。

NPU 与 GPU：有什么区别？