加速计算是指使用专门设计的硬件和软件来加速计算任务。
加速计算依赖于广泛的硬件和软件(也称为加速器),包括图形处理单元 (GPU)、专用集成电路 (ASIC) 和现场可编程门阵列 (FPGA)。
与传统的中央处理器 (CPU) 相比,加速计算解决方案能够更快、更高效地执行计算,因此在许多行业都有很高的需求。与 CPU 不同,加速器依赖于并行计算,这是一种计算问题解决方法,它将任务分解成更小的问题并同时解决,而不是串行解决。
由于数据处理速度快,加速计算已成为人工智能 (AI)、生成式 AI、机器学习 (ML) 和高性能计算 (HPC) 等许多尖端科技和应用程序发展的关键。如今,它已成为 Google、Amazon Web Services (AWS) 和 Microsoft 等许多全球最成功的科技公司战略的关键组成部分。
中央处理器 (CPU) 由各种电子电路组成,用于运行计算机的操作系统 (OS) 和应用程序。多年来,CPU 一直扮演着计算机大脑的角色,将数据输入转化为信息输出。然而,随着应用程序变得越来越先进,它们需要比 CPU 所能处理的数据更快、更高效地处理数据。加速器和加速计算技术具有并行处理能力、低延迟和高吞吐量的特点。自 20 世纪 80 年代加速器开始崭露头角以来,计算机科学领域的许多重大技术进步都有赖于加速器。
从最激动人心的新视频游戏和身临其境的虚拟现实 (VR) 体验,到 ChatGPT、AI 模型训练和大数据分析,加速器是我们这个快速发展、超级互联世界的重要组成部分。许多现代企业依靠加速器为其最有价值的应用程序和基础设施架构提供动力,包括云计算、数据中心、边缘计算和大型语言模型 (LLM)。例如,希望深入了解生成式 AI 的企业领导者和开发人员正在投资加速器,以帮助优化数据中心并更快地处理更多信息1。
加速器广泛应用于各种业务应用,以加快数据处理速度,特别是随着 5G 覆盖范围的扩大,物联网 (IoT) 和边缘计算的机会也随之增加。IoT 应用依赖加速器来处理来自冰箱、交通流量传感器等智能设备的数据。边缘计算可以提供更深入的洞察分析、更快的响应时间和更好的客户体验,但前提是要有加速器提供的处理速度。
说到 AI,许多最先进的应用,如自然语言处理、计算机视觉和语音识别,都依赖于加速计算的强大功能。例如,支撑许多尖端 AI 应用的神经网络需要 AI 加速器来对数据进行高速分类和聚类。
最后,随着越来越多的企业寻求实现数字化转型和加速创新的方法,加速计算解决方案提供了相对较低的总体拥有成本。加速器能够快速准确地处理大量数据,这意味着它们可以用于许多不同的应用,并有可能创造商业价值,包括 AI 聊天机器人、金融数据分析、云计算等等。
加速计算结合使用硬件、软件和网络技术,帮助现代企业为其最先进的应用提供动力。对加速器至关重要的硬件组件包括 GPU、ASIC 和 FPGA。软件和应用程序编程接口 (API) 同样重要,其中 CUDA 和 OpenCL 发挥着重要作用。
最后,PCI Express (PCIe) 和 NV Link 等网络解决方案可帮助处理单元与存储数据的内存和存储设备进行通信。下面将详细介绍硬件加速器、软件加速器和网络解决方案如何协同工作,使加速计算成为可能。
由于具有并行处理功能,现代硬件加速器处理数据的速度比传统 CPU 快得多。没有它们,加速计算的许多最重要应用就不可能实现。
GPU
GPU 或图形处理单元是硬件加速器,旨在加速各种设备(包括显卡、系统板、移动设备和个人计算机)上的计算机图形和图像处理。GPU 加速器可显著减少计算机运行多个程序所需的时间。GPU 加速计算被广泛应用于包括 AI 和区块链在内的各种加速计算应用中。
ASIC
ASIC 或特定应用集成电路是根据特定目的或功能构建的硬件加速器,以深度学习为例,WSE-3 ASIC 加速器被认为是世界上速度最快的 AI 加速器之一2。与一些其他硬件加速器不同,ASIC 不能重新编程。不过,由于它们的构造目的单一,因此性能通常优于为更通用的计算任务而制造的加速器。ASIC 加速器的另一个例子是 Google 的张量处理单元 (TPU),它是在 Google 自己的 TensorFlow 软件上为神经网络 ML 而开发的。
FPGA
现场可编程门阵列 (FPGA) 是高度可定制的 AI 加速器,它依赖于专业知识来针对特定目的进行重新编程。与其他硬件加速器不同,FPGA 具有适合特定功能的独特设计,通常与实时数据处理有关。FPGA 在硬件级别上可重新编程,从而实现更高级别的定制。它们常用于航空航天、IoT 应用和无线网络解决方案。
API 和软件在加速器的运行中起着至关重要的作用,它们连接硬件和运行加速计算应用程序所需的网络。
API
应用程序编程接口 (API) 是一组规则,允许应用程序进行通信和数据交换。API 对于加速计算至关重要,有助于在应用程序之间集成数据、服务和功能。它们允许开发人员集成其他应用程序的数据、服务和功能,并使其能够在整个组织内共享,从而简化并加快了应用程序和软件开发。API 有助于优化硬件和软件加速器之间的数据流,并让开发人员能够访问对应用程序和软件开发至关重要的软件库。
CUDA
计算统一设备架构 (CUDA) 是 NVIDIA 于 2007 年构建的软件,可以让开发人员直接访问 NVIDIA GPU 的并行计算能力。与以前相比,CUDA 使编码人员能够将 GPU 技术用于更广泛的功能。从那时起,在 CUDA 的基础上,GPU 硬件加速器获得了更多的功能,其中最重要的可能是光线追踪,即通过追踪摄像头发出的光线方向来生成计算机图像,以及支持 DL 的张量内核。
OpenCL
OpenCL 是一个专为并行计算而设计的开源平台,支持 GPU 和 FPGA 等多种硬件加速器。对于需要在加速计算工作负载中使用不同类型组件的开发人员来说,它的高兼容性使其成为理想的工具。OpenCl 用例包括游戏、3D 建模和多媒体制作。
网络技术对加速计算至关重要,它使许多不同的处理单元与存储数据的内存和存储设备之间能够进行快速有效的通信。以下是加速计算所依赖的一些不同类型的网络。
以太网
以太网是一种广泛用于在数据中心的服务器之间(或处于同一物理空间的计算机之间)提供快速、灵活数据传输的技术。虽然它的应用范围很广,价格也不贵,但速度却不如 NVLink 或 InfiniBand 等其他网络。
PCI Express (PCIe)
PCIe 是一种高速计算机扩展总线,可将两个设备与外部内存源连接。加速器使用 PCIe 将 GPU 或其他类型的硬件加速器连接到中央计算系统。
NVLink
NVLink 是 NVIDIA 的专有互连技术,可提供比 PCIe 高得多的带宽。它的创建是为了在 GPU 和其他设备之间实现高效的数据共享。
InfiniBand
InfiniBand 是一种通信规范,定义了数据中心中互联服务器、存储设备或其他设备的交换结构架构。该技术由 InfiniBand 贸易协会开发,具有高性能和低延迟的特点,是高性能工作负载的理想选择。
Computer Express Link (CXL)
CXL 是一种开放式互连标准,通过将多个接口组合到单个 PCIe 连接中,有助于实现低延迟,并增加 CPU 和加速器之间的带宽。
随着 AI 技术的普及和 5G 网络的扩展,实现了快速数据传输,加速计算用例的数量与日俱增。以下是一些最常见的例子。
如果没有 GPU 和 ASIC 等加速器,人工智能(AI) 及其众多商业应用将无法实现。这些加速计算设备使计算机能够比传统 CPU 更快、更高效地执行高度复杂的计算。像 IBM 的云原生 AI 超级计算机 Vela 这样的加速器为许多领先的 AI 应用提供动力,这些应用依赖于加速器在越来越大的数据集上训练 AI 模型的能力。
区块链是商业网络中用来记录交易和追踪资产的流行分类账,它在很大程度上依赖于加速计算。一个名为工作量证明 (PoW) 的关键步骤——即交易验证并添加至区块链的过程——高度依赖加速器的支持。以加密货币为例,PoW 意味着任何人只要拥有相应的机器,就可以挖掘比特币等加密货币。
与具有串行处理功能的 CPU 相比,加速器能够更高效地处理物联网 (IoT)应用生成的大型数据集。物联网依赖于连接到互联网的设备,这些设备不断收集数据进行处理。GPU 等硬件加速器可帮助自动驾驶汽车等物联网应用以及交通和天气监控系统快速处理数据。
边缘计算是一种分布式计算框架,能使企业应用更接近数据源,其运行在很大程度上依赖于加速器。5G 连接的扩展导致数据集呈指数级增长。加速计算具有并行处理能力,可帮助企业利用边缘计算的所有可能性,如更短的观察时间、更好的响应时间和更高的带宽。
IBM Spectrum LSF Suites 是面向分布式高性能计算 (HPC) 的工作负载管理平台和作业调度程序。
IBM 的混合云 HPC 解决方案可助力应对大规模计算密集型挑战,并加快获取洞察分析的速度。
查找适合企业的业务需求的云基础设施解决方案,并按需扩展资源。
1. GPUs Force CIOs to Rethink the Datacenter, Information Week, April 23, 2024.
2. Gigantic AI CPU has almost one million cores, Tech Radar, March 16, 2024.