AI 的基础设施：存储为何至关重要

两名穿蓝色衣服的同事正在讨论并使用两台笔记本电脑

作者

Donald Mathisen

Don Mathisen

Kevin D.

Kevin Johnson

或许您的组织最近已决定购买计算节点并开始涉足人工智能 (AI) 领域。在准备 AI 工作负载时，需全面审视 IT 基础设施与技术环境，其中存储系统尤为关键。AI 由数据驱动，而数据的存储方式会显著影响 AI 项目的成果。不仅如此，AI 的四个不同阶段（摄取、准备、训练和推理）各自有着不同的存储需求。

遗憾的是，一些组织只关注 AI 的计算层面，却忽略了存储层面。这种单一关注可能导致 AI 项目受挫甚至彻底失败，此类情况时有发生。AI 训练阶段需要海量数据支撑。这些数据需经过摄取、存储和预处理，才能“输送”至训练阶段。若无法摄取、存储和使用训练所需的数据，该项目将面临失败风险。

AI 项目要求存储基础设施具备卓越的性能、可扩展性和灵活性。值得庆幸的是，当今的存储系统可以专为满足 AI 项目需求而构建。全球最强大的超级计算机 Sierra 和 Summit 就是两个绝佳范例。

现在，让我们审视一些具体要求。

小球在轨道上滚动的三维设计

工作负载特性与数据迁移

需要针对 AI 应用程序的预期工作负载，审视 AI 管道每个阶段的需求。工作负载各不相同，但某些使用大型数据集的企业可能需要进行长时间训练。训练完成后，这些数据通常需要从关键存储平台移出，以便为新的工作负载做准备。手动管理数据可能颇具挑战性，因此提前规划数据如何存入存储系统及训练完成后的转移路径至关重要。找到能自动迁移数据的平台，将让您更接近高效、强大的 AI 存储管理目标。

在评估自身工作负载需求的影响后，您便可确定最适合 AI 计算基础设施和项目的存储技术。

不同 AI 阶段的存储需求

数据摄取。AI 工作负载的原始数据可能来自各种结构化和非结构化数据源，您需要非常可靠的存储位置。存储介质可以是高容量的数据湖，也可以是高速存储层（如闪存），后者尤其适用于实时分析场景。

数据准备。数据存储后，由于处于“原始”格式，必须进行预处理。这些数据需要经过加工和格式化，以供后续阶段使用。文件 I/O 性能是本阶段非常重要的考量因素，因为此时会同时存在随机读取和写入操作。需要仔细评估 AI 管道对性能的具体需求。数据完成格式化后，将被输入神经网络进行训练。

插图 1：摄取、数据准备与训练

训练与推理。这些阶段计算密集度很高，通常需要将数据流式传输到训练模型中。训练是迭代过程，需要反复设置和重置参数以构建模型。推理可视为数据与训练成果的集中体现。服务器的 GPU 及存储基础设施在此阶段至关重要，因为需要实现低延迟、高吞吐量和快速响应时间。存储网络的设计必须满足这些要求，同时兼顾数据摄取和准备阶段的需求。大规模应用会对许多存储系统造成压力——特别是未针对 AI 工作负载进行优化的系统，因此务必重点考量存储平台能否承载符合业务目标的工作负载需求。

切勿忽视容量与灵活性

还需思考：您的存储基础设施能否轻松扩展？能否根据数据增长需求扩展存储系统？这些都是直接影响 AI 基础设施需求的关键问题。

确保您的存储基础设施能够实现纵向与横向扩展，且对生产运营造成最小甚至零中断，从而与企业数据增长保持同步。保持足够灵活性，以根据 AI 基础设施的不同需求考量多种存储配置方案。

咨询专家建议

通过谨慎规划，使 AI 服务器与建模需求同存储基础设施相匹配，这将助您最大化投资回报并赢得 AI 项目成功。

以上建议仅作为入门参考。请始终谨记：若您的组织缺乏设计与实施正确 AI 存储基础设施的专业能力，应积极协同供应商，共同为 AI 应用优化存储系统。

若您对采用 IBM Storage 规划及部署 AI 项目存在疑问或需要支持，请随时联系 IBM Systems Lab Services。

 
