AI 数据中心与传统数据中心有许多相似之处。二者都包含服务器、存储系统和网络设备等硬件,而其运营商都需要考虑安全性、可靠性、可用性和能源效率等问题。
这两种数据中心之间的差异源于企业对高强度 AI 工作量的特殊需求。与 AI 数据中心相比,传统数据中心的基础架构很快就会被 AI 工作量所淹没。AI 就绪型基础架构专为云、AI 和机器学习任务而设计。
例如,传统数据中心通常专为中央处理单元 (CPU) 而设计且配置这一架构。而 AI 就绪型数据中心则需要考虑高性能的图形处理单元 (GPU) 及其 IT 基础架构等要素,例如先进的存储、网络、能源和冷却能力。AI 用例所需的 GPU 数量往往也需要配备更大的物理空间。
“超大规模”和“主机托管”是组织常用于 AI 的两类数据中心。
主机托管数据中心是指一家公司拥有一个超大规模的数据中心,并将其设施、服务器和带宽出租给其他公司。
这种设置使企业能够受益于超大规模,而无需为实现它而进行大量投资。Amazon (AWS)、Google 和 Microsoft 等企业也是全球最大的主机托管服务用户。例如,这些云服务提供商会向名为 "Equinix" 的数据中心运营商租赁大量数据中心空间。然后,他们会将新获得的空间提供给客户,并将其出租给其他企业。
在 2025 年初的一篇博客文章中,Microsoft 认为 AI 是“我们这个时代的‘电力’”。这一表述是夸大其词还是一针见血,我们拭目以待。然而,数百万非专业用户对 OpenAI 的 ChatGPT 等 AI 工具的采用正以惊人的速度发展。AI 的生产力和货币化潜力清晰可见,这导致全新的 AI 生产力工具、智能体和内容生成器大量涌现。
开源模型和 AI 的持续民主化意味着能在 AI 生态系统中引领浪潮的不止是行业巨头。几乎任何实体都可以成为科技企业,如果他们能够识别 AI 用例并采用 IT 基础架构来实现这一用例。根据 IBM 商业价值研究院 (IBM IBV) 2024 年的报告,43% 的技术高管表示在过去六个月中,由于生成式 AI 的出现,他们对自身技术基础架构的担忧有所增加,且目前正在专注于优化基础架构以实现扩展。
与此同时,数据中心行业也在不断发展以满足需求。全球各地的数据中心基础架构正逐步实现 AI 就绪,以处理大量复杂的计算和请求。目前,亚太地区和北美地区的数据中心数量最多,尤其是在北京、上海、弗吉尼亚州北部和旧金山湾区。1
科技巨头的大量投资也预示着 AI 数据中心领域的增长。到 2025 年,Microsoft 计划投资约 800 亿美元用于数据中心建设,Meta 则将投资 100 亿美元以支持美国路易斯安那州 400 万平方英尺的超大规模数据中心开发项目。
AI 就绪型数据中心具有以下几个独特的特性和功能:
AI 就绪型数据中心需要高性能计算 (HPC) 功能,例如 AI 加速器中的功能。AI 加速器是用于加速机器学习 (ML) 和深度学习 (DL) 模型、自然语言处理和其他人工智能操作的 AI 芯片。它们被广泛视为实施 AI 及其众多应用的硬件。
例如,GPU 是一种 AI 加速器。GPU 由 Nvidia 推广,它是一种电子电路,可将复杂问题分解为较小部分以并行解决,这种方法称为“并行处理”。HPC 使用一种称为“大规模并行处理”的方式,运用数万乃至数百万个处理器或处理器内核实现并行处理。这种能力使 GPU 变得异常快速和高效。AI 模型在数据中心 GPU 上进行训练和运行,并为许多领先的 AI 应用提供支持。
AI 就绪型数据中心越来越多地包含更专业的 AI 加速器,例如神经处理单元 (NPU) 和张量处理单元 (TPU)。NPU 模拟人类大脑的神经通路,以便更好地实时处理 AI 工作负载。TPU 是专门为加速 AI 工作负载中的张量计算而构建的加速器。它们的高吞吐量和低延迟使其成为许多 AI 和深度学习应用的理想选择。
AI 工作负载的速度和高计算需求需要具有高速内存的庞大数据存储。固态硬盘 (SSD) – 基于半导体的存储设备,通常使用 NAND 闪存,被视为 AI 数据中心的关键存储设备。具体来说,就是 NVMe SSD,它具有执行并行处理的速度、可编程性和容量。
数据中心 GPU、加速器和一些 SSD 也使用高带宽内存 (HBM)。与更传统的内存架构(即动态随机存取存储器 (DRAM))相比,这种内存架构能够实现高性能数据传输,且功耗更低。
AI 数据中心设计的另一个典型方面是数据存储架构,它能够适应数据需求的波动,例如意外激增。许多数据中心(包括 AI 和传统数据中心)不是在专用硬件上运行工作负载,而是使用将物理存储虚拟化的云架构。
虚拟化是指将一台计算机的硬件组件(如内存和存储)划分为多个虚拟机。它允许用户在同一物理硬件上运行多个应用程序和操作系统,从而提高资源利用率和灵活性。
虚拟化也是一项推动混合云功能发展的技术。混合云可以提高组织连接云和本地环境的敏捷性和灵活性,这对于采用数据密集型生成式 AI 至关重要。
AI 必须实现高速运行。用户希望从在线 AI 应用程序中获得即时响应,而自动驾驶汽车则需要在行驶时做出瞬时决策。因此,AI 数据中心网络必须以低延迟满足 AI 工作量的高带宽要求。对于超大规模数据中心来说,带宽要求可能从每秒数千兆位 (Gbps) 到每秒数兆兆位 (Tbps) 不等。
传统数据中心将光纤用于其外部通信网络,但数据中心的机架仍然通过铜缆电线进行通信。IBM 研究院推出的共封装光学工艺有望提高能效并增加带宽,它通过光链路连接集成至设备内部以及用于训练和部署大型语言模型 (LLM) 的数据中心墙内来实现这一目标。这项创新可显著增加数据中心通信的带宽,从而加速 AI 处理。
几乎所有现代数据中心都采用虚拟化网络服务。此种能力使其可以在网络的物理基础设施的基础上创建软件定义的叠加网络。它允许针对每个应用程序和工作负载优化计算、存储和网络,而无需对基础设施进行物理更改。
AI 数据中心需要尖端的网络虚拟化技术,以实现更好的互连、可扩展性和性能。它还必须具备解决训练生成式 AI 模型的大量数据相关的数据隐私和安全问题的能力。在 IBM IBV 的一项调研中,有 57% 的 CEO 表示对数据安全的担忧将阻碍生成式 AI 的普及。
AI 数据中心的高计算能力、先进的网络和庞大的存储系统需要大量的电力和先进的冷却系统,以避免断电、停机和过载。Goldman Sachs 预计,到 2030 年,AI 将促使数据中心对电力的需求增加 165%。麦肯锡的分析则显示,全球每年对数据中心容量的需求可能达到 171 至 219 千兆瓦 (GW),而当前的需求为 60 千兆瓦。
为了满足这些巨大的能耗和冷却要求,一些 AI 数据中心采用了高密度设置。该策略通过性能更好、更节能且包含先进冷却系统的紧凑型服务器配置,最大限度地提高了数据中心的占地面积。
例如,液体冷却通常用水而非空气来传热和散热。它在处理高密度热量方面具有更高的效率,并且提高了电能利用率 (PuE),后者是用于衡量数据中心能效的指标。另一种冷却方法是热通道和/或冷通道封闭冷却,它可组织服务器机架以优化气流,并最大限度地减少冷热空气的混合。
鉴于这些巨大的电力需求,当今的组织往往需要在其 AI 目标和可持续发展目标之间寻求平衡。其中一个令人印象深刻的案例来自 Apple,它是世界上最大的超大规模数据中心所有者之一。自 2014 年以来,Apple 的所有数据中心完全依靠可再生能源运行,包括沼气燃料电池、水力发电、太阳能发电和风力发电等多种组合。
其他组织则将目光投向地外能源,希望利用太空中的高强度太阳能来建造新的数据中心。轨道数据中心的突破或许能大大降低训练 AI 模型的能源成本,并有望降低多达 95% 的电力费用。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 “AI to drive 165% increase in data center power demand by 2030”,Goldman Sachs,2025 年 2 月 4 日。