【2017年 12月 5日,纽约阿蒙克】 IBM(NYSE: IBM)宣布推出装有最新设计的 POWER9 处理器的新一代 Power Systems 服务器。全新 POWER9 系统专为计算密集型人工智能工作负载而设计,可将深度学习框架的训练时间缩短近 4倍2 ,从而帮助企业以更快的速度更准确地部署人工智能应用。

基于全新 POWER9 的 AC922 Power Systems(英文) 是首批嵌入 PCI-Express 4.0、新一代 NVIDIA NVLink 及 OpenCAPI 的系统,这几项技术的结合使其能够加速数据传送,在计算速度方面超出基于 PCI-E 3.0 的 x86 系统 9.5倍34

该系统旨在大幅提升 Chainer、TensorFlow 及 Caffe 等各大人工智能框架的性能,并加速 Kinetica 等数据库。

如此一来,数据科学家能够以更快的速度构建包括科研范畴的深度学习洞察、实时欺诈检测和信用风险分析等范围的应用。

POWER9 是美国能源部 Summit 及 Sierra 超级计算机的核心,这两台超级计算机建成后将成为世界上性能最强的数据密集型超级计算机。此外,谷歌公司也采用了 POWER9 处理器。

谷歌公司平台部副总裁 Bart Sano 表示:“对于 IBM 在开发最新 POWER 技术方面的进展,谷歌感到非常兴奋。POWER9 的 OpenCAPI 总线及其大存储容量为 Google 数据中心的创新提供了更多的机会。”

IBM 认知系统部高级副总裁 Bob Picciano 表示:“我们已经构建出一个改变人工智能和认知工作负载游戏规则的强大阵容。除了将用于世界上最强大的超级计算机外,IBM POWER9 系统还将帮助全球各个行业的各类企业获得前所未有的洞察能力,促进科学的发现,从而实现业务成功转型。”

使用 POWER9 加速实现未来

深度学习是一种机器学习方法,目前正在快速发展。通过数百万次计算及大量的数据分析来提取和排序信息,可以甄别与排列数据最为重要的方面。

为了满足这些日益增长的行业需求,IBM 于四年前开始着手设计 POWER9 芯片,构建一套全新架构,用于管理自由流动的数据、流传感器,以及基于 Linux 操作系统的数据密集型人工智能和深度学习算法。

IBM 是业界唯一一家能够为企业提供融合了尖端硬件及基于最新开源技术创新软件的基础架构厂商。

借助于 PowerAI,IBM 通过 Power 架构上的加速技术实现优化并简化了深度学习框架和库的部署,以支持数据科学家在几分钟内便开展工作。

IBM 研究院正在为 Power 架构开发大量技术。通过 PowerAI 分布式深度学习工具包(英文)(PowerAI Distributed Deep Learning toolkit),IBM 研究人员现已将深度学习所需时间从数天缩短到数小时。

建立开放生态 促进不断创新

人工智能时代不仅仅需要强大的处理能力和前所未有的速度,还需要创新型公司所构建的开放式生态系统提供技术和工具。IBM 作为推动创新蓬勃发展的催化剂,为 300多家来自 OpenPOWER 基金会(英文)OpenCAPI 联盟(英文)的成员所组成的开放且发展迅猛的社区提供强大动力。

更多有关 POWER9 及 AC922 的信息,请见:ibm.biz/BdjCQQ(英文)
了解更多 IBM 认知系统部高级副总裁 Bob Picciano 的解读,请见:
www.ibm.com/blogs/think/2017/12/accelerating-ai/(英文)

新闻配图:

IBM POWER9 处理器为深度学习和人工智能工作负载提供了前所未有的速度。IBM 工程师 Stefanie Chiras 于德克萨斯州奥斯汀市测试 IBM Power System 服务器。

图1:IBM POWER9 处理器为深度学习和人工智能工作负载提供了前所未有的速度。IBM 工程师 Stefanie Chiras 于德克萨斯州奥斯汀市测试 IBM Power System 服务器。

IBM 全新 POWER9 处理器旨在为数据密集型人工智能工作负载管理自由流动数据、流传感器及算法。该处理器采用 14纳米技术,嵌入 80亿个晶体管。

图2:IBM 全新 POWER9 处理器旨在为数据密集型人工智能工作负载管理自由流动数据、流传感器及算法。该处理器采用 14纳米技术,嵌入 80亿个晶体管。

IBM 全新 POWER9 处理器旨在为数据密集型人工智能工作负载管理自由流动数据、流传感器及算法。该处理器采用 14纳米技术,嵌入 80亿个晶体管。

图3:IBM 全新 POWER9 处理器旨在为数据密集型人工智能工作负载管理自由流动数据、流传感器及算法。该处理器采用 14纳米技术,嵌入 80亿个晶体管。

1 3.7倍的结果是基于 IBM 的内部测试,在放大的 Imagenet 数据集(2560x2560)上运行 1000次迭代的扩大 GoogleNet 模型(微批次大小= 5)。硬件:Power AC922;40核(2个 20c 芯片),嵌入 NVLink 2.0 的 POWER9;2.25 GHz,1024 GB 内存,4个 Tesla V100 GPU;红帽 Linux 企业版 7.4 面向 Power Little Endian(POWER9),带有 CUDA 9.1/CUDNN 7;具有竞争力的堆栈:2个至强 E5-2640 v4;20核(2个 10c 芯片)/40线程;英特尔至强 E5-2640 v4;2.4 GHz;1024 GB 内存,4个 Tesla V100 GPU,Ubuntu 16.04 以及 CUDA .9.0/CUDNN 7。软件:Chainverv3/LMS/外存,补丁可以在以下地址找到:github.com/cupy/cupy/pull/694(英文)github.com/chainer/chainer/pull/3762(英文)

23.8倍的结果是基于 IBM 的内部测试,在放大的 Imagenet 数据集(2240x2240)上运行 1000次迭代的扩大 GoogleNet 模型(微批次大小= 5)。Power AC922;40核(2 个 20c 芯片),嵌入 NVLink 2.0 的 POWER9;2.25 GHz,1024 GB 内存,4个 Tesla V100 GPU;红帽 Linux 企业版 7.4 面向 Power Little Endian(POWER9),带有 CUDA 9.1/CUDNN 7;具有竞争力的堆栈:2个至强 E5-2640 v4;20核(2个 10c 芯片)/40线程;英特尔至强 E5-2640 v4;2.4 GHz;1024 GB 内存,4个 Tesla V100 GPU,Ubuntu 16.04 以及 CUDA .9.0/CUDNN 7。软件:IBM Caffe 以及 LMS 源代码 github.com/ibmsoe/caffe/tree/master-lms(英文)

3x86 PCI Express 3.0(x16)峰值传输速率为 15.75 GB/秒= 16通道 ×1GB/秒/通道×128位/130位编码。

4 POWER9 和新一代 NVIDIA NVLink 峰值传输速率为 150 GB/秒= 48通道 ×3.2265625 GB/秒×64位/66位编码。

—完—

如需了解更多关于 IBM 公司的信息,请访问公司网址:www.ibm.com/cn/zh/

如有疑问,敬请致电:

奥美公共关系国际集团北京
联系人:闫凌波女士
电话:010 - 8520 6783 电话:010 - 8520 6783
电子邮件:zoe.yan@ogilvy.com

IBM 中国有限公司
联系人:武凌女士
电话:010 - 6361 4266 电话:010 - 6361 4266
电子邮件:wuling@cn.ibm.com