什么是神经处理单元 (NPU)？| IBM

什么是神经处理单元 (NPU)？

神经处理单元 (NPU) 是一种专门用于模仿人脑处理功能的计算机微处理器。它们经过优化，可用于人工智能 (AI) 神经网络、深度学习以及机器学习任务和应用。

与通用中央处理单元 (CPU) 或图形处理单元 (GPU) 不同，NPU 专为加速人工智能任务和工作负载而设计，例如计算由标量、向量和张量数学组成的神经网络层。

NPU 也被称为 AI 芯片或 AI 加速器，通常用于组合多个处理器（例如 CPU 和 GPU）的异构计算架构中。大型数据中心可以使用直接连接到系统主板的独立 NPU；然而，大多数消费类应用（如智能手机、移动设备和笔记本电脑）则将 NPU 与其他协处理器集成在单个半导体微芯片上，该芯片被称为片上系统 (SoC)。

通过集成专用 NPU，制造商能够提供在设备上运行的生成式人工智能应用，这些应用能够以相对低的功耗和高吞吐量实时处理人工智能任务、AI 工作负载以及机器学习算法。

行业时事通讯

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

NPU 的关键功能

神经处理单元 (NPU) 非常适合需要低延迟并行计算的任务，例如处理深度学习算法、语音识别、自然语言处理、照片和视频处理以及对象检测。

NPU 的关键功能包括：

并行处理：NPU 可以将较大的问题分解为组件，以便解决多任务问题。这使得处理器能够同时运行多个神经网络运营。

低精度算术：NPU 通常支持 8 位（或更低位）运算，以降低计算复杂性并提高能效。

高带宽内存：许多 NPU 在芯片上配备高带宽内存，以高效执行需要处理大规模数据集的人工智能任务。

硬件加速：NPU 设计的进步使其能够采用硬件加速技术，例如流处理阵列架构或改进的张量处理。

NPU 如何工作

神经处理单元 (NPU) 基于大脑的神经网络，通过在电路层模拟人类神经元和突触的行为来工作。这使得可以处理深度学习指令集，其中一条指令即可完成一组虚拟神经元的处理。

与传统处理器不同，NPU 并非用于精确计算。相比之下，NPU 是为特定问题解决功能专门设计的，并且能够随着时间不断改进，从不同类型的数据和输入中学习。整合 NPU 的 AI 系统可以利用机器学习，更快地提供定制解决方案，而无需更多的手动编程。

作为一项突出功能，NPU 提供卓越的并行处理能力，并且能够通过简化的高容量内核加速 AI 运营，这些内核无需执行多种类型的任务。NPU 包含用于乘法和加法、激活函数、二维数据操作以及解压缩的专用模块。专用的乘法和加法模块用于执行与神经网络应用处理相关的操作，例如计算矩阵乘法与加法、卷积、点积以及其他功能。

传统处理器需要数千条指令来完成此类神经元操作，而 NPU 或许只需要一条指令就能完成类似的操作。NPU 还会通过突触权重将存储与计算集成在一起，突触权重是一种分配给网络节点的流动计算变量，用于表示“正确”或“期望”结果的概率，并能随时间进行调整或“学习”，从而提高操作效率。

随着 NPU 技术的不断发展，测试显示某些 NPU 的性能比同等功耗的 GPU 高出 100 倍以上。

Smart Talks with IBM

基础架构如何为 AI 时代提供动力

了解硬件能力如何实现运行大语言模型所需的矩阵数学，并探索如何将 AI 应用于银行业务和本地咖啡店运营的创意案例。

探索 IBM 播客

NPU 的主要优势

神经处理单元 (NPU) 的设计目的不是为了取代传统的 CPU 和 GPU。然而，NPU 的架构在两种处理器的设计基础上进行了改进，提供了无与伦比且更高效的并行计算和机器学习能力。NPU 能够提升一般操作性能（尽管最适合处理某些特定类型的通用任务），当与 CPU 和 GPU 结合使用时，相比传统系统，NPU 提供了若干显著优势。

主要优势如下：

并行处理：如前所述，NPU 可以将较大的问题分解为多个组件，以便解决多任务问题。关键在于，虽然 GPU 在并行处理方面也表现出色，但 NPU 独特的结构能够在降低能耗和占用更小物理空间的同时，超越同等规格的 GPU。

效率提升：虽然 GPU 常用于高性能计算和人工智能任务，但 NPU 可以以更高的能效执行类似的并行处理。随着 AI 及其他高性能计算的日益普及并对能源需求不断增加，NPU 提供了一种降低关键能耗的有效解决方案。

实时多媒体数据处理：NPU 旨在更好地处理和响应更广泛的数据输入，包括图像、视频和语音。通过在机器人、物联网 (IoT) 设备和可穿戴设备等应用中增强 NPU，可以提供实时反馈，减少操作摩擦，并在响应时间至关重要时提供关键反馈和解决方案。

NPU、GPU 与 CPU 的对比

在经典计算机科学领域，中央处理器 (CPU) 被视为计算机的“大脑”。CPU 承担大多数传统计算任务，并支持广泛的应用场景。虽然有许多不同的类型，但通常所有 CPU 都按线性顺序执行操作，按照请求传入的顺序响应请求。

从 20 世纪 50 年代到 90 年代，CPU 承担了几乎所有计算机处理任务，负责执行程序指令、控制系统运行及管理输入/输出操作。

高性能应用的持续需求使得历代 CPU 设计不断逼近硬件极限，频繁引发系统严重卡顿甚至崩溃。但是，随着 20 世纪 80 年代个人电脑游戏和计算机辅助设计 (CAD) 的兴起，行业对渲染计算机图形提出了更快、更高效的解决方案的需求。

图形处理单元 (GPU) 最初是为了将繁重的图像处理任务从主 CPU 中卸载出来而创建的。虽然 CPU 通常使用较少的核心来执行线性操作，但 GPU 拥有数百到数千个核心，能够进行并行处理，将大型任务拆分为可以由多个处理器和/或核心同时解决的小问题的过程。

GPU 最初是为满足视频和图像处理需求而开发的，其并行处理功能使这种硬件非常适合其他要求苛刻的计算应用，例如区块链相关任务和 AI。虽然 GPU 不是唯一能够执行并行处理或并行计算的处理器类型，但它们非常适合并行处理。然而，GPU 并非没有局限性，通常在执行更高负荷的操作时需要消耗极其昂贵的电力。使用 GPU，性能的提高会带来更高的能源成本。

NPU 和其他人工智能加速器提供了更高效的替代方案。专为 AI 运算设计的 NPU 结合并改进了 GPU 的高级并行性，提供高性能和更低的功耗（以及更小的占地面积带来的额外好处）。

比较处理器

中央处理器：计算机的“大脑”。CPU 通常将约 70% 的内部晶体管用于构建缓存内存，并且是计算机控制单元的一部分。它们的核心数量相对较少，采用串行计算架构来解决线性问题，并且专为精确的逻辑控制操作而设计。

图形处理器：GPU 最初是为处理图像和视频而开发的，它们的核心数量远多于 CPU，并且将大部分晶体管用于构建多个计算单元，每个单元具有较低的计算复杂度，从而实现高级并行处理。GPU 适用于需要大规模数据处理的工作负载，并在大数据、后端服务器中心和区块链应用中发挥了重要额外作用。

神经处理单元：NPU 以 GPU 的并行性为基础，使用旨在模拟人脑神经元的计算机架构，实现高效、高性能。NPU 使用突触权重将内存存储与计算功能整合在一起，以极低的延迟提供偶尔精度较低的解决方案。CPU 专为精确的线性计算而设计，而 NPU 则为机器学习而构建，从而提升了多任务处理能力、并行处理能力，并能够随时间调整和定制操作，而无需其他编程。

NPU 用例

作为一项新兴技术，许多领先的计算机和硬件制造商（包括 Microsoft、Intel、Nvidia、Qualcomm 和 Samsung）都提供独立的神经处理单元 (NPU) 或集成变体，例如 Apple 神经引擎。

将 NPU 整合到消费级电子产品中带来了广泛的好处，例如提升图像识别能力，并优化支持 AI 的摄像头，以便在视频通话中更好地虚化背景。NPU 的一些其他应用包括以下方面。

人工智能和大语言模型

作为一种 AI 加速器，NPU 专用于提高 AI 与 ML 系统（如神经网络）的性能。作为对 GPU 的补充，NPU 增强的并行性为大语言模型带来了显著提升，这些模型需要低延迟的自适应处理来解读多媒体信号、执行语音识别，并生成用于 AI 聊天机器人和生成式 AI 图像与视频应用的自然语言和艺术内容。

物联网 (IoT) 设备

凭借卓越的并行处理和自我学习功能，NPU 非常适合 IoT 设备，例如可穿戴设备、语音助手和智能家电。

数据中心

人工智能和机器学习对寻求优化能源资源的数据中心来说是一个重大助力。高性能且节能的 NPU 为数据中心提供了巨大价值，使其在云计算方面实现更好的资源管理。

自动驾驶汽车

无人机或自动驾驶汽车和卡车等自主车辆得益于 NPU 的实时处理能力，使其能够根据多媒体传感器输入更快、更准确地进行路线修正。凭借无与伦比的并行处理能力，NPU 可以帮助自主车辆解读和处理快速变化的输入，例如道路标志、交通模式，甚至意外障碍物。

边缘计算和边缘 AI

虽然云计算为物联网、智能设备和其他个人计算设备提供了先进的异地数据和资源解决方案，边缘计算和边缘 AI 则旨在将关键数据和计算资源物理上更接近用户。这可以减少延迟、降低能耗并提高隐私保护。NPU 能耗更低、占用空间更小，正逐渐成为边缘计算和设备端 AI 的重要组成部分。

机器人

NPU 擅长处理需要机器学习和计算机视觉的任务，为机器人行业的发展提供关键支持。从家庭助手到自动化手术工具，人工智能机器人依靠神经网络处理器 (NPU) 来发展检测、学习和对环境做出反应的能力。

将您的基础设施转化为 AI 优势

加入本次网络研讨会，了解领先团队如何使用混合云和 GPU 驱动的基础设施定制 AI。了解当您的环境为加速 AI 而构建时可以获得哪些益处以及如何开始。

什么是神经处理单元 (NPU)？