什么是 AI 堆栈？

作者

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是 AI 堆栈？

AI 堆栈是技术、框架和基础设施组件的集合，有助于使用人工智能 (AI) 系统。它通过对这些组件进行分层，为构建 AI 解决方案提供结构，从而支持端到端的 AI 生命周期。

与软件开发中的技术栈（或技术堆栈）类似，AI 堆栈将各种元素组织成不同的层，这些层协同工作，从而实现高效、可扩展的 AI 实施。这种分层方法将构建 AI 解决方案的复杂过程分解为易于管理的组件，使团队能够专注于各个方面，而不会忽略大局。

从数据处理到模型部署，堆栈中的每一层都代表一种特定功能，从而更容易识别依赖关系、分配资源和系统地应对挑战。这种模块化视图提高了清晰度，尤其是在多学科团队中工作时，因为它能让大家共同理解各种组件是如何交互的。

不同的 AI 应用程序将涉及 AI 堆栈中的多个层。例如，Red Hat OpenShift 是一个企业级 Kubernetes 平台，旨在大规模管理容器化应用程序，几乎用于 AI 堆栈的所有层。

AI 领域的不同参与者以不同的方式组织 AI 堆栈，以不同的顺序排列组件，或强调不同的组件或功能。这是因为，无论是在用例层面还是在组织层面，AI 的方法都会有所不同。此外，AI 开发环境在不断变化。

接下来是企业 AI 堆栈的通用版本。您可以通过查看 IBM 的生成式 AI 技术栈，了解更多有关 IBM 的生成式 AI (gen AI) 和大型语言模型 (LLM) （想一想 OpenAI 的 GPT）的方法。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

基础设施层

AI 基础设施层是构建和部署 AI 系统的基础。它可提供有效开发、训练和运行 AI 模型所需的计算能力、物理存储空间和工具。这一层由几个不同的关键组件组成，支持从初始实验到大规模部署的整个 AI 生命周期。

计算

处理数据需要物理硬件。芯片可以针对 AI 工作量进行优化：被称为 AI 加速器的高性能处理单元（GPU、CPU 和 TPU）可大幅减少复杂模型的训练时间。此外，利用分布式计算有助于开发尖端的资源密集型系统，例如大型语言模型。

云服务平台（例如：AWS、Microsoft Azure、Google Cloud 和 IBM Cloud）可灵活地扩大或缩小资源规模，使各种规模的企业都能使用，而边缘计算支持远程或低带宽环境下做出实时决策。计算层与协调工具紧密集成，可优化资源分配并帮助确保成本效益。

存储

物理存储系统必须处理整个 AI 生命周期中使用的大量数据，从原始数据集到模型权重和日志。高吞吐量存储解决方案支持快速数据访问，这对于训练深度学习模型等计算密集型任务至关重要。

可扩展性是另一个关键功能，因为 HDFS 等分布式文件系统或对象存储系统 (Amazon S3) 可满足不断增长的数据需求。这些系统通常采用分层存储策略，将经常访问的数据保存在高速介质上，而将较少使用的数据归档到速度较慢、成本效益较高的解决方案上。

强大的备份和恢复机制进一步提高了数据的弹性，将本地和云存储选项结合起来，以防止故障发生。

网络

AI 通常需要以最小的延迟将大量数据从一个地方移动到另一个地方。网络通过连接各种基础设施组件来补充存储空间，从而实现顺畅的数据传输和协作。

AI 学院

利用混合云实现 AI 就绪

本课程由 IBM 资深思想领袖带领，旨在帮助企业领导者获得所需的知识，以便划分可以推动增长的 AI 投资的优先级。

转到视频集

数据层

这是 AI 堆栈的另一个基础部分，重点是为 AI 模型收集、存储和准备数据。它包括数据库、数据湖和数据仓库。数据科学家使用各种工具进行数据摄取、清理和预处理，这些工具也是该数据管理层的一部分。

准备充分的高质量数据可支持模型有效学习，从而做出更好的预测和决策。相反，质量差或存在偏见的数据可能会影响 AI 模型的准确性和公平性，从而导致次优结果。通过投资强大的数据层，组织可以为成功实施 AI 奠定基础。

数据摄取和存储

数据可以从结构化数据库、非结构化文本文件、图像、IoT 设备、应用编程接口 (API) 或用户交互等各种来源获取。存储基础设施必须能够处理大量不同的数据，同时保持可靠性和可访问性。

技术包括关系数据库（例如：MySQL 和 PostgreSQL）、NoSQL 数据库（例如：MongoDB 和 Cassandra）和数据湖（例如：Hadoop），用于处理结构化和非结构化数据。

摄取包括将数据从各种来源导入存储系统。Apache Kafka 等工具可自动执行和管理数据摄取管道，有助于确保数据顺利流入系统。

数据预处理

在 AI 模型中使用原始数据之前，通常需要对其进行清理、规范化和转换。这包括删除重复数据、填补缺失值、规范格式和编码分类变量。

编程语言 Python 提供了用于此目的的免费库，其他工具（包括 Pandas、NumPy 或 Apache Spark）也常用于预处理。

数据注释和标记

对于监督学习，通常需要标记数据，模型才能进行学习。这包括标记图像、分类文本或标记相关特征。Labelbox、Amazon SageMaker Ground Truth 等平台和 LabelImg 等开源工具为注释工作流提供了便利。

数据安全性与合规性

数据存储和数据处理必须遵守隐私法（例如：GDPR 和 CCPA）。通常采用加密、访问控制和匿名技术来保护敏感数据。

模型开发层

这是设计、训练和微调 AI 模型以解决特定问题的地方，决定了 AI 系统的核心功能和智能。它建立在数据层的基础上，使用经过处理和清理的数据来训练能够学习模式、进行预测或生成输出的算法。

这一层还与数据层建立了反馈循环，以便在获得新数据时进行再训练和改进。这一层是 AI 生命周期的核心，因为它决定了系统在实际应用中的表现。

AI 框架和库

机器学习 (ML) 和深度学习框架简化了模型的创建和训练。常用的工具包括 TensorFlow、PyTorch、Scikit-learn、Keras 和 XGBoost，它们分别适用于不同类型的 AI 任务，如计算机视觉、自然语言处理 (NLP) 或表格数据分析。

算法选择

选择正确的机器学习算法是实现最佳性能的关键。算法种类繁多，从用于简单任务的线性回归和决策树，到神经网络和转换器等复杂架构，不一而足。选择取决于数据类型、问题领域和计算限制等因素。

模型训练

训练包括向模型输入标记数据，使其能够学习模式和关系。对于复杂的模型来说，这一步骤需要大量的计算资源。训练过程包括设置超参数（例如：学习率和批量大小），并使用梯度下降等技术迭代优化模型。

特征工程和调整

特征工程将原始数据转换为对模型有意义的输入。这一步骤可能包括缩放、编码、降维或创建新的衍生特征。

预训练模型和迁移学习

使用预训练模型（例如 BERT 和 ResNet）可以显著减少开发时间和计算成本。迁移学习使这些模型适应新任务，只需最少的额外训练。

验证和优化

模型开发完成后，通常需要在部署之前对其进行优化和微调。这可能包括超参数调整、模型压缩和模型验证。

在部署之前，使用单独的验证数据集和测试数据集对模型进行评估，以衡量包括准确率、精确度、召回率和 F1 分数在内的性能指标。这一步骤有助于确保模型具有良好的泛化能力，并能在未知的数据上可靠地运行。

模型部署层

模型部署层是机器学习模型从开发转变为实际使用的地方，在实时环境中提供预测或推理。

部署包括将模型打包成可部署格式，通常使用容器化技术，以促进不同环境间的一致性和可移植性。然后使用协调平台对这些容器进行管理和扩展，从而实现负载平衡、容错和高可用性。

所部署的模型通常通过 API 或微服务（使用 TensorFlow Serving、NVIDIA Triton 等框架或定制解决方案）进行公开，从而实现与业务系统、移动应用程序或网络平台的无缝整合。

应用层

应用层是将 AI 模型集成到实际系统中的地方，以提供可操作的洞察分析并推动决策，因此是 AI 堆栈中最面向用户的部分。这一层将 AI 功能嵌入软件应用程序、产品和服务中。

在此阶段，AI 模型成为业务逻辑的一部分，可自动执行任务、增强工作流或支持智能功能（例如推荐系统、预测性分析、自然语言处理或计算机视觉）。这些功能通常通过 API 访问，或嵌入到微服务中，鼓励与应用生态系统的其他组件进行无缝交互。

应用层的一个重点是可用性。AI 功能通常采用直观的用户界面 (UI)，利用可视化和其他展示方式，以清晰、可解释的方式传达信息，使用户能够理解 AI 驱动的洞察分析并采取行动。

例如，欺诈检测 AI 可能会标记金融平台上的可疑交易，并通过自动化生成通知，而聊天机器人用户体验则与用户实时互动。

可观测性和治理层

可观测性层有助于监控、跟踪和评估 AI 工作流。它提供了了解 AI 模型在现实环境中的表现所需的可视性和洞察分析，使团队能够及时发现和解决问题，维护系统健康，并随着时间的推移不断提高性能。

可观测层的核心是跟踪与 AI 模型及其运行基础设施相关的各种指标的工具和框架。

治理层是一个总体框架，有助于确保 AI 系统的部署、使用和维护是负责任、合乎道德的，并且符合组织和社会标准。

这一层对于管理风险、提高透明度和建立对 AI 技术的信任至关重要。它涵盖了根据法律法规、伦理原则和组织目标监督 AI 模型生命周期的政策和流程。

治理层的主要功能是制定数据收集和使用政策以及合规框架，以遵守《通用数据保护条例》(GDPR)、《健康保险流通与责任法案》(HIPAA) 或包括《欧盟 AI 法案》在内的 AI 特定指导方针等法规。这些框架规定了如何收集、存储和使用数据，从而鼓励隐私和安全。

此外，治理还包括创建可审计性和可追溯性机制，使组织能够记录和跟踪 AI 决策、模型变化和数据使用情况，这对于问责制和解决争议或错误至关重要。

治理层还解决了 AI 系统中的公平性、偏差和可解释性问题。这涉及采用工具和技术来检测和减轻训练数据或模型输出中的偏差，帮助鼓励 AI 系统在不同人群中公平运行。

AI 堆栈方法的优点

将 AI 视为一个堆栈，可提高可扩展性、灵活性和效率。团队可以升级特定层，从最新进展中获益，而无需彻底改造整个系统，从而随着技术和业务需求的发展，实现迭代改进和调整。

例如，您可以在基础设施层从一个云提供商切换到另一个云提供商，或者在模型开发层采用新的机器学习框架，而不会中断应用程序。

这种分层的视角也使 AI 生命周期的每个阶段更容易进行基准测试和监控，有助于确保每个步骤都能维持性能、合规性和可靠性。堆栈方法简化了 AI 的复杂性，使各种规模的组织都能更容易地理解和操作 AI。

构建弹性 AI 就绪基础设施的 5 个步骤

现代 AI 基础设施不仅需要高性能，还需要内置弹性，以抵御网络威胁、系统故障和运营中断。本指南概述了基础设施负责人建立强大数据所有权、分类关键工作负载、实施弹性保护、利用 AI 检测异常以及自动化恢复工作流程的五个基本步骤，从而在日益复杂的环境中确保持续、可靠的运营。

资源

AI 正逐步成为企业的最大工作负载。您的基础架构是否准备就绪？

根据 IDC 的 2026 年 AI View 调研结果，AI 工作负载规模正快速赶超其余所有类型，但不少组织仍缺少支撑 AI 扩展的基础设施战略。了解集成式全栈 AI 平台对于加快部署节奏、提升投资回报率，并在全企业范围内有效运行 AI 的必要性。

面向未来银行业的 AI 基础设施

了解一级银行如何构建 AI 基础设施底座，以实现安全且高效的规模化扩展。本文重点呈现 10 个高影响力 AI 用例及务实路线图，展示混合云、IBM Z 与现代数据架构如何共同支撑安全、实时且合规的规模化 AI 应用。

了解如何将 AI 与大型机集成

IBM® Z 是由 IBM® Telum 处理器驱动的现代化基础架构体系，可运行企业级操作系统和 IBM Z 软件，从而实现更高的 AI 精确性、生产力和敏捷性。

面向规模化交付的 AI 基础设施

AI 的成功不仅依赖于模型本身，更依赖于在算力、数据与治理层面构建统一且协同的基础体系。了解领先组织如何构建具备适应性、可信性与可扩展性的 AI 基础设施，从试点探索迈向可投入生产的实际价值。

哈佛大学如何借助高性能云基础设施推进 AI 安全研究规模化

GPU 资源受限，一度制约哈佛大学 Calmon Lab 前沿 AI 安全研究的进展。通过采用 IBM Cloud® 与基于 NVIDIA H100 的高性能基础设施，该团队成功消除了算力瓶颈，实现每秒超过 2,000 令牌的推理速度，并显著加速了大语言模型（LLM）实验与对齐研究。

IBM z17：以内置 AI 解锁更多可能

IBM z17™ 将 AI 直接嵌入企业计算核心，实现对交易数据的实时推理，响应时间低至亚毫秒级。该系统专为任务关键型工作负载设计，融合 AI 加速、量子安全与混合云集成能力，助力企业现代化核心系统，同时提升性能、韧性与效率。

IBM z17 正在推动下一代 AI 基础设施发展

IBM z17 将 AI 直接融入企业基础设施核心，实现更快的业务增长、面向未来威胁的主动安全防护，以及规模化运营转型。该平台以可持续性与网络韧性为设计目标，帮助企业运行内置智能的任务关键型工作负载。

依托统一云平台，加速规模化创新

了解平台工程团队如何利用自动化工作流扩展基础设施并实现集中控制。

什么是 AI 堆栈？

什么是 AI 堆栈？

辅以专家洞察分析的最新科技新闻

谢谢！您已订阅。

基础设施层

计算

存储

网络

利用混合云实现 AI 就绪

数据层

数据摄取和存储

数据预处理

数据注释和标记

数据安全性与合规性

模型开发层

AI 框架和库

算法选择

模型训练

特征工程和调整

预训练模型和迁移学习

验证和优化

模型部署层

应用层

可观测性和治理层

AI 堆栈方法的优点

Share

资源