发布日期:2024 年 3 月 21 日
撰稿人:Phill Powell、Ian Smalley
这两个术语及其可能引起的歧义,值得我们花点时间来阐明。对于新手来说,这两个词经常互换使用,可能会造成混淆。
“超大规模企业”经常用作超大规模数据中心的别称。不过,“超大规模企业”(hyperscaler) 一词已经有了既定的含义,常用于指代 AWS 等云服务供应商 (CSP) 以及其他提供超大规模数据中心服务的企业。
由于同一术语既可用来表示一种类型的数据中心,也可用来表示专门从事超大规模计算并提供此类数据中心的企业,因此可能会出现混淆(例如“该超大规模企业 (hyperscaler) 打造了超大规模数据中心 (hyperscaler)”)。因此,就本页内容而言,我们将讨论超大规模数据中心,并使用相应的特有术语来指代各个云服务提供商 (CSP),避免使用“超大规模企业”这一更宽泛的术语。
全面了解 IBM 全球数据平台——该平台旨在让任何人都能随时随地访问任何内容。
订阅 IBM 时事通讯
大大小小的数据中心都可以追溯到虚拟化这一重要概念。虚拟化使用软件在计算机硬件之上创建抽象层,借助该抽象层,我们可以将一台计算机的硬件组件划分为多台虚拟机 (VM)。每台虚拟机都运行自己的操作系统,虽然仅在实际底层计算机硬件的一部分上运行,但却充当着独立的计算机。通过这种方式,虚拟化可以为云计算提供支持。
超大规模数据中心与传统数据中心的主要区别在于其庞大的规模。超大规模数据中心需要一个足够大的物理场所来容纳所有相关设备,包括至少 5,000 台服务器,以及很可能长达数英里的连接设备。因此,超大规模数据中心的占地面积动辄就可达到数百万平方英尺。
冗余是超大规模数据中心的另一个重要方面,是指提供备份措施和/或可在设备发生故障或断电时自动启动的设备。冗余对于超大规模数据中心尤为关键,因为这些系统往往在后台全天候自动运行,几乎不受直接监控。
希望运营超大规模数据中心的组织在确定最佳行动方案时,需要做出很多决定。其中第一个问题可能是:“我们应该自建还是租用?”哪怕只是建造很小的数据中心,也需要一定的投资。要建造超大规模数据中心,更是需要加大资金投入力度。
很多企业会选择另一种方式,即选择主机托管数据中心,也即,此类数据中心的所有者将设施和服务器空间出租给其他企业。这种方法的吸引力显而易见:租用外部硬件空间所需的投资远远低于建造整座建筑物来容纳相关设备,至少在前期费用方面确实如此。
比较一下这两种基本备选方案,显然每种方案都有其优点和缺点。建造超大规模数据中心通常既费钱又费力,但也能够提供为企业量身定制的超大规模设施,且各个可调整的方面都能得到适当优化。
另一方面,租用主机托管数据中心的外部空间可提供更多机动灵活的选择,并且需要的投资极少。但是,主机托管数据中心不太可能按照客户的理想规格进行设计。
还有一些组织正在寻求另一种选择,这种方案既可确保组织能够随着业务的持续发展而扩大规模,又不必为其基于私有云的系统额外购买昂贵的存储设备。对于许多这样的企业来说,正确的答案是从私有系统迁移到公有云环境并进行相应的运营迁移,而 Microsoft 365 或 Google Suite 等软件即服务 (SaaS) 应用程序可以提供此类公有云环境。
还有另外一些变体形式,比如模块化数据中心,这是一种预制设施,专门设计用作数据中心。模块化数据中心不仅采用预制模式,还预先铺设了管线,并配备了必要的冷却设备。模块化数据中心非常适合那些希望在进行巨额投资之前,以有限方式试验数据中心功能的组织,以及那些需要快速实施可靠数据中心解决方案的企业。
数据中心的使用始于 20 世纪 40 年代,当时的计算机十分庞大,一台就能占满整个部门空间。此后的多年间,随着计算机体积越来越小而效能越来越高,分配给它们的本地物理空间也发生了演变。随后,在 20 世纪 90 年代,微型计算机迎来了首次爆发式增长,从根本上缩小了 IT 运营所需的规模。不久之后,“服务器机房”就改称为“数据中心”了。
就重要进展而言,通常认为第一个超大规模数据中心由 Google 于 2006 年在美国俄勒冈州达尔斯(波特兰附近)投入运营。这个超大规模设施目前占地 12 万平方米,雇用了大约 200 名数据中心运营人员。之所以使用“目前”一词,是因为 Google 正在实施扩大该“能源园区”规模的计划,这个扩建项目耗资 6 亿美元,将增建第五座建筑,其占地面积为 2.7 万平方米。Google 目前在美国运营着 14 个数据中心设施,此外还在欧洲有 6 个,在亚洲有 3 个,在智利有 1 个,而扩建项目体现了 Google 对超大规模计算技术的进一步投入。
目前,全球最大的超大规模设施(ibm.com 外部链接)位于中国内蒙古。中国电信在那里运营着一个占地约 99 万平方米的超大规模数据中心。换句话说,最大数据中心的占地面积相当于 165 个标准美式橄榄球场拼接在一起,其长度堪比 15 个美式橄榄球场,宽度堪比 11 个美式橄榄球场。毫不意外,这个巨大的超大规模数据中心(耗资 30 亿美元建造)配备了齐全的设施,所需功能应有尽有,甚至为在那里工作的超大规模数据中心运营人员提供了住所。
对头部超大规模企业进行排名可能有点困难。首先需要确定要使用什么标准,这个问题相对容易。从理论上讲,您可以重点关注企业拥有或建成的超大规模数据中心数量,但是通过这种方法来判断企业的云服务提供情况,是无法做到 100% 准确的,因为许多企业(包括 Apple)所使用的部分数据中心是从其他服务供应商那里租来的。
这样一来,就只剩下一个可行的比较方法:市场占有率。要衡量哪些超大规模企业是真正的市场推动者,这终究是最佳指标。尽管这种方法略有不足,因为超大规模计算市场从来都不是一成不变的,而是始终处于不断变化的状态。
不过,有大量趋势证据表明,由三家超大规模供应商组成的第一梯队目前已牢牢占据了这一市场的最大份额:
目前,AWS 是最大的超大规模云服务供应商,AWS 市场份额(ibm.com 外部链接)遥遥领先,约为 32%。AWS 运营着 32 个云区域和 102 个可用区,总占地面积达 311 万平方米。AWS 以其在自动化、数据库管理和数据分析领域的技术专长而著称。
Microsoft 旗下的热门超大规模平台 Azure 目前在超大规模市场中所占份额约为 23%(ibm.com 外部链接)。Azure 运营着 62 个云区域、120 个可用区。毫不意外,Microsoft Azure 与适用于企业数据中心的 Microsoft 软件配合使用,效果尤其出色。
Google Cloud 最初以其在数据处理领域十分丰富的技术专长而著称,在超大规模市场中占据了大约 10% 的份额(ibm.com 外部链接),并运营着 39 个云区域和 118 个可用区。除了数据处理之外,GCP 还凭借其在人工智能 (AI) 和高级分析领域的优势而吸引了众多企业。
还有许多其他的供应商也在耕耘这个市场,其市场占有率处于第二梯队。
阿里云:虽然规模不及 AWS 或其他顶级供应商,但阿里巴巴在亚太地区的超大规模市场占据了很高的份额。其值得关注的产品包括基础设施相关产品和 AI 服务。
Apple:Apple 的云服务采用混合模式。Apple 在美国、欧洲和中国拥有 8 个数据中心,并且计划建造更多数据中心。此外,Apple 还与 AWS 和 GCP 等供应商签订了多年的云计算服务租赁协议。
IBM Cloud:长期以来,IBM Cloud 一直是技术扩张的代名词,一直深耕企业数据中心领域,并在广泛的相关领域提供多项服务。最近,该公司在 AI 领域的开创性工作成了新的关注点。
Meta Platforms:Meta Platforms 是 Facebook 和 Instagram 等流行在线平台的母公司,在全球运营着 21 个超大规模数据中心,总占地面积超过 465 万平方米。
Oracle Cloud Infrastructure (OCI):OCI 将自己定位为 AWS 的低成本替代方案,以显著低于 AWS 的价位提供类似的服务。OCI 擅长助力创建云原生应用程序和轻松迁移任务关键型工作负载。
耗电量是围绕超大规模数据中心的最紧迫问题。运营超大规模数据中心所需的海量算力需要通过巨大的耗电量来实现。就像加密货币和比特币挖矿的兴起一样,超大规模数据中心是近年来才出现的技术发展产物,对电力的需求异常大,因此或多或少与生态可持续性目标相矛盾(尽管一些企业正在设法缓解甚至消除此类问题)。
除了持续运行数以千计的计算机服务器之外,还要考虑电力和网络设备(如变压器和路由器)的用电需求;此外,用于防止硬件过热的冷却系统也至关重要。而且,这还没有开始计算用以容纳这一派繁忙景象的建筑物的建造和运作费用。
因此,能效对于有效运行超大规模数据中心至关重要。如果一台服务器不能以最高效率工作,这个问题可能无关紧要。但是,如果超大规模设施容纳了数千台无法高效工作的服务器,就会构成更大、更费钱的问题。
根据其规模,超大规模数据中心所需的功率可能会达到兆瓦级甚至千兆瓦级。不同的超大规模数据中心之间存在很大差异,因此很难确定平均能源使用量。关于不同规模数据中心的以下指导原则并非官方定义,但长久以来得到了非官方认可,有助于我们大致了解这些设施:
微型数据中心:公认的最小数据中心,一般供一家公司或是多个远程办公室使用。微型数据中心能够容纳的服务器机架数量通常不超过 10 个,由此计算出的总容量约为 140 台服务器。微型数据中心的占地面积通常不到 465 平方米。能耗:低于 100-150 千瓦。
小型数据中心:小型数据中心通常需要 465 到 1858 平方米的空间,可容纳 500 到 2,000 台服务器。能耗:1-5 兆瓦。
普通数据中心:普通现场数据中心通常具有 2,000 到 5,000 台服务器。相应地,其占地面积可能在 1858 到 9290 平方米之间。能耗:约 100 兆瓦。
超大规模数据中心:IDC 对超大规模数据中心的定义(ibm.com 外部链接)认为,超大规模数据中心设施应容纳至少 5,000 台服务器,并占用至少 929 平方米的物理空间。能耗:超过 100 兆瓦。
超大规模数据问题存在巨大的电力需求,这给那些希望在此类基础设施上投入巨资的企业提出了一道地理难题。
能源价格因地理位置而异,因此企业经常将不发达/欠发达国家或地区或区域视为其超大规模数据中心的潜在建造地点,因为这些经济体的电价更具吸引力。
但是,这只是需要考虑的标准之一。找到能源价格实惠的地区固然至关重要,而遵循当地的可持续发展要求也同样重要。此外,找到一个可能不会经常受恶劣天气影响的地点也同样重要,因为恶劣天气可能会造成停电和停机,从而危及企业的任务关键型功能。
众多企业正设法实现其企业计划与可持续发展目标的平衡,以便以经济实惠的方式运营超大规模数据中心,并尽可能减少碳足迹。受减少耗电量的动机驱使,一些企业甚至在推动可再生能源解决方案,来为其超大规模数据中心供电。为了抵消巨大耗电量造成的影响,从事超大规模计算的大企业大多都已经或正在探索太阳能和风能等备选可再生能源。
在某些情况下,云服务供应商甚至承诺确保其数据中心实现完全可持续性。最令人钦佩的是 Apple(ibm.com 外部链接),该公司自 2014 年以来一直通过实实在在的建设性行动来支持可持续发展。2014 年,Apple 规定其所有数据中心必须转变为完全由可再生能源供电。从那时至今,Apple 的所有数据中心十年来一直依靠沼气燃料电池、水力发电、太阳能发电和风力发电的各种组合方式来提供运营所需的电能。
数据热潮毫无停止的迹象,甚至连减弱的迹象都没有。事实上,有许多证据表明,数据热潮仍在不断升温。
当今世界所产生、记录和研究的庞大数据量是史无前例的。技术进步抵达了一座里程碑:即便是很简单的电子设备也采用了非常巧妙的设计,其中许多电子设备都能独立生成数据,并通过物联网 (IoT) 传输数据,用于存档和分析目的。
智库 Synergy Research Group(定量研究和市场情报提供者)于 2023 年 10 月公布的调查结果表明,AI 的进步将有助于推动超大规模数据中心升级扩容,从现在起到 2028 年,超大规模数据中心的平均容量(ibm.com 外部链接)将增加两倍以上。
超大规模数据中心的建立会刺激其他行业,例如制造业(不妨想想,为此必须锻造出数以千计的服务器机架)。还有一个行业是房地产,大量未开发的地块被买卖,供这些巨大的设施使用。建筑业也会受益。
Newmark 2024 年报告(ibm.com 外部链接)分析了影响美国市场的现状,而美国是全球最大的数据中心和超大规模数据中心消费国。Newmark 发现,美国对新数据中心的需求远远超出目前的容量水平,尤其是在美国各大城市及其周边地区。
AI 和 机器学习引领的技术飞跃需要通过不断猛增的耗电量来实现。在同一份 2024 年报告中,Newmark 预计:与 2022 年 17 兆瓦的水平相比,2030 年数据中心所需的电力(ibm.com 外部链接)将增加近一倍。Newmark 预计,数据中心的总耗电量将达到 35 千兆瓦。
探索部署 IBM Storage Scale 最简单的方法,其性能和容量可从 1 个节点扩展到 1000 多个节点。
用 IBM b 型和 c 型 SAN 交换机更新您的存储基础设施,可降低总拥有成本。
利用支持多种应用程序和着陆区的加速器,让 IBM Cloud 平台的采用开启“超速”模式。
使用 IBM 软件(如 IBM FlashSystem)和 IBM 硬件解决方案,让数据存储方程式左右两侧实现平衡。
超大规模是一种分布式计算环境和架构,旨在提供极高的可扩展性,以便适应大规模工作负载。
存储区域网络 (SAN) 是针对特定环境量身定制的专用网络,整合了服务器、存储系统、网络交换机、软件和服务。
数据中心是一个物理房间、一座建筑物或一处设施,其中放置着用于构建、运行和交付应用程序和服务,以及用于存储和管理与这些应用程序和服务相关的数据的 IT 基础设施。
数据存储是指用于记录和保留数字信息,以备当前或未来使用的磁性、光学或机械介质。
对象存储是一种数据存储架构,非常适合存储、归档、备份和管理大量静态非结构化数据,可靠、高效且经济实惠。
IT 基础设施是指运营和管理企业 IT 服务及 IT 环境所需的组合组件。