计算簇通常由服务器、工作站和个人计算机 (PC) 组成,它们通过局域网 (LAN) 或广域网 (WAN) 进行通信。
簇计算是一种分布式计算,即通过网络将多台计算机连接在一起,以执行计算任务、提升计算能力并作为单一计算机运行。在计算机网络中,每台计算机或“节点”都配有操作系统 (OS) 和中央处理单元 (CPU) 核心,用于处理软件正常运行所需的各项任务。
在最基本的层面上,簇计算使用局域网将多台独立计算机连接到网络中。在簇架构中,网络上的每台计算机都被称为“节点”,由中间件控制,中间件是一种使各台计算机能够相互通信的软件。簇的用户可以将每台计算机的资源视为单一计算机来使用,而不是将通过局域网连接的多台独立计算机分别使用。
一个计算簇可以连接最少两台节点,也可以多达数千台节点。例如,Beowulf 簇通常使用通过 LAN 连接的商用级个人计算机,对于某些任务来说,它可以作为一种相对经济的超级计算机替代方案。1
另一方面,Kubernetes(一种与容器相关、接近簇的技术,对云计算至关重要)支持多达 5,000 个相互独立但互联的节点簇。Kubernetes 被用于多种云部署场景,包括混合云和多云架构,以及 DevOps 和应用现代化。
簇计算架构由一组互联的独立计算机组成,这些计算机协同工作,表现为单一计算机。在架构中,每个计算资源通过高速连接(如局域网 LAN)相连,并被称为单个节点。每个节点都配有操作系统 (OS)、内存以及输入/输出 (I/O) 功能。
簇架构分为两种类型:开放型和封闭型。在开放型簇中,每台计算机都有自己的 IP 地址。而在封闭型簇中,每个节点都隐藏在一个网关节点之后。由于网关节点控制对其他节点的访问,并且 IP 地址可以在互联网上被查到,因此封闭型簇的安全风险低于开放型簇。
除了簇计算之外,还有两种常用的分布式计算类型,它们同样以互联的计算机网络为特征:网格计算和点对点计算。
网格计算:在计算机科学中,网格计算基础设施用于整合分布在不同物理位置的计算资源。来自不同计算机的可用计算资源被组合在一起,共同用于解决问题。与簇计算类似,网格计算利用多台互联计算机的资源。
然而,与簇计算不同的是,通过网格架构连接的计算机仅会利用其未使用的资源。SETI(搜寻地外文明)是网格计算的一个著名例子,它利用了众多计算机的闲置计算资源来分析来自深空的无线电信号,以寻找地外生命的迹象。2
点对点计算:点对点 (P2P) 计算或网络要求两台或更多计算机作为网络中的“对等节点”连接,这意味着它们拥有相同的权限和能力。与簇计算不同,P2P 架构不需要集中管理。
在 P2P 网络中,每个节点既充当客户端(需要访问服务的计算机),又充当服务器(提供服务的计算机)。每个对等节点都会向网络中的其他节点提供资源,包括存储、内存、带宽等。
簇计算发明于 20 世纪 60 年代,作为在多台计算机间分配计算任务和数据存储的一种方法。到了 20 世纪 80 年代,若干相关技术的发展,包括个人计算机 (PC)、多功能处理器和局域网 (LAN),对簇计算产生了重要影响。
其中影响最大的是在高性能计算 (HPC) 中使用多处理器计算节点。随着 HPC 应用场景的增长,簇计算的应用也随之扩大。如今,簇计算的应用包括汽车与航空航天行业、卫星与望远镜的数据分析,以及危险疾病的诊断等。
如今,簇计算被应用于推动世界发展的许多先进技术中,如人工智能 (AI)、机器学习 (ML) 和云计算。全球最大的企业利用簇计算将工作负载迁移到云端、提高处理速度、提升数据完整性等。在企业层面,计算簇通常被分配特定任务,例如负载均衡、高可用性或在数据中心进行大规模数据处理。
计算簇主要设计为比其他类型的计算架构具有更高的性能和更强的可靠性,这使其对现代企业不可或缺。例如,现代簇具有内置的容错能力,即即便网络中的单个节点出现故障,簇仍能继续正常运行的能力。
此外,大型计算簇依赖分布式文件系统 (DFS) 和独立磁盘冗余阵列 (RAID),使相同的数据可以存储在多块硬盘的不同位置。簇计算在多方面为现代企业带来益处,以下是一些示例:
由于依赖并行处理,计算簇被认为具有高性能,通常能够比单台计算机更快地处理数据并处理更大的工作负载。
簇计算被认为具有高度可靠性,因为它整合了 DFS 和 RAID 技术。在计算簇中,即使单个节点发生故障,网络仍能继续运行,DFS 和 RAID 也会确保数据在多个位置持续备份。
除了高度可靠之外,簇计算还被认为具有高可用性,因为它能够在单个节点发生故障后迅速恢复。如果簇运行正常,当一个节点发生故障时,其工作会无缝转移到簇中的其他节点,而不会中断服务。
簇计算具有高度可扩展性,因为可以随时添加簇节点以提升性能。簇内资源的动态调整能力意味着簇可以根据需求进行扩展或缩减。
簇计算比其他类型的计算更具成本效益。许多现代企业依赖簇计算,以在可承受的成本下提升其 IT 基础设施的性能、可扩展性和可用性。
计算簇在复杂性和用途上差异很大。例如,相对简单的双节点簇只连接少量计算机,而 Aurora 超级计算机则连接了超过 10,000 台计算机。3
由于簇具有高性能、可扩展性和灵活性,它们在商业中有许多应用场景,但大学和医学院也将其用于科学研究。根据其特性,计算簇可分为三种类型:高可用性簇、负载均衡簇和高性能簇。
高可用性簇能在节点意外故障时,自动将任务转移至网络中仍正常运行的节点。这种快速无缝的故障转移能力,使其成为规避服务中断场景的理想解决方案,尤其适用于对业务连续性要求极高的工作负载。
负载均衡簇,简称负载均衡器,确保工作在簇中的各个节点之间公平分配。如果没有负载均衡,节点可能因分配到的任务过多而过载,从而更容易发生故障。不同用途有不同类型的负载均衡。其中最著名的之一是 Linux Virtual Server,它是免费且开源的,用于基于簇技术开发高性能、高可用性的服务器。
HPC 簇是一种由高性能处理器组成的网络,能够以极高的速度处理海量多维数据集,也称为大数据。它们需要高性能网络和超低延迟,以在节点之间传输文件。
与负载均衡簇和高可用性簇不同,HPC 簇具有更强的计算能力,并专为数据分析设计,例如诊断疾病、分析海量金融数据以及基因组测序。此外,HPC 簇使用消息传递接口 (MPI),这是一种用于并行计算架构的协议,可实现节点之间的通信。
AI 簇是专门为 AI 和 ML 工作负载构建的计算簇,例如面部和语音识别、自然语言处理 (NLP) 以及自动驾驶。AI 簇是针对 AI 模型训练所需算法专门设计的。
计算簇具有广泛的用途。从企业应用,如云计算和数据分析,到用于制作令人惊叹的电影 3D 特效的软件,以下是一些示例:
簇计算能够快速高效地处理大量数据,是大数据分析的理想工具。从谷歌强大的搜索引擎,到分析股市的软件,再到社交媒体的情感分析,簇计算在数据分析领域的应用广泛而多样。
簇计算的并行处理能力为视频游戏和电影中的最先进图形提供动力。通过使用由多个独立节点组成的簇,每个节点都配备自己的图形处理单元 (GPU),簇计算渲染(或簇渲染)能够在多个屏幕上生成校准后的单一图像。该过程显著减少了创建高质量 3D 图像所需的时间。
在 AI 和 ML 工作负载中,簇计算有助于快速、准确地处理和分析海量数据集,这是训练强大 AI 模型的关键环节,这些模型支撑着如 ChatGPT 等流行应用。
保险公司和金融交易公司利用簇计算来分析数据,并量化购买特定股票或向特定客户提供保险的风险。簇计算用于分析大数据集,并提取有价值的洞察,以支持更明智的商业决策。
IBM Spectrum LSF Suites 是面向分布式高性能计算 (HPC) 的工作负载管理平台和作业调度程序。
IBM 的混合云 HPC 解决方案可助力应对大规模计算密集型挑战,并加快获取洞察分析的速度。
查找适合企业的业务需求的云基础设施解决方案,并按需扩展资源。