与软件开发中的技术栈(或技术堆栈)类似,AI 堆栈将各种元素组织成不同的层,这些层协同工作,从而实现高效、可扩展的 AI 实施。这种分层方法将构建 AI 解决方案的复杂过程分解为易于管理的组件,使团队能够专注于各个方面,而不会忽略大局。
从数据处理到模型部署,堆栈中的每一层都代表一种特定功能,从而更容易识别依赖关系、分配资源和系统地应对挑战。这种模块化视图提高了清晰度,尤其是在多学科团队中工作时,因为它能让大家共同理解各种组件是如何交互的。
不同的 AI 应用程序将涉及 AI 堆栈中的多个层。例如,Red Hat OpenShift 是一个企业级 Kubernetes 平台,旨在大规模管理容器化应用程序,几乎用于 AI 堆栈的所有层。
AI 领域的不同参与者以不同的方式组织 AI 堆栈,以不同的顺序排列组件,或强调不同的组件或功能。这是因为,无论是在用例层面还是在组织层面,AI 的方法都会有所不同。此外,AI 开发环境在不断变化。
接下来是企业 AI 堆栈的通用版本。您可以通过查看 IBM 的生成式 AI 技术栈,了解更多有关 IBM 的生成式 AI (gen AI) 和大型语言模型 (LLM) (想一想 OpenAI 的 GPT)的方法。
AI 通常需要以最小的延迟将大量数据从一个地方移动到另一个地方。网络通过连接各种基础设施组件来补充存储空间,从而实现顺畅的数据传输和协作。
数据可以从结构化数据库、非结构化文本文件、图像、IoT 设备、应用编程接口 (API) 或用户交互等各种来源获取。存储基础设施必须能够处理大量不同的数据,同时保持可靠性和可访问性。
技术包括关系数据库(例如:MySQL 和 PostgreSQL)、NoSQL 数据库(例如:MongoDB 和 Cassandra)和数据湖(例如:Hadoop),用于处理结构化和非结构化数据。
摄取包括将数据从各种来源导入存储系统。Apache Kafka 等工具可自动执行和管理数据摄取管道,有助于确保数据顺利流入系统。
在 AI 模型中使用原始数据之前,通常需要对其进行清理、规范化和转换。这包括删除重复数据、填补缺失值、规范格式和编码分类变量。
编程语言 Python 提供了用于此目的的免费库,其他工具(包括 Pandas、NumPy 或 Apache Spark)也常用于预处理。
这是设计、训练和微调 AI 模型以解决特定问题的地方,决定了 AI 系统的核心功能和智能。它建立在数据层的基础上,使用经过处理和清理的数据来训练能够学习模式、进行预测或生成输出的算法。
这一层还与数据层建立了反馈循环,以便在获得新数据时进行再训练和改进。这一层是 AI 生命周期的核心,因为它决定了系统在实际应用中的表现。
训练包括向模型输入标记数据,使其能够学习模式和关系。对于复杂的模型来说,这一步骤需要大量的计算资源。训练过程包括设置超参数(例如:学习率和批量大小),并使用梯度下降等技术迭代优化模型。
特征工程将原始数据转换为对模型有意义的输入。这一步骤可能包括缩放、编码、降维或创建新的衍生特征。
使用预训练模型(例如 BERT 和 ResNet)可以显著减少开发时间和计算成本。迁移学习使这些模型适应新任务,只需最少的额外训练。
模型开发完成后,通常需要在部署之前对其进行优化和微调。这可能包括超参数调整、模型压缩和模型验证。
在部署之前,使用单独的验证数据集和测试数据集对模型进行评估,以衡量包括准确率、精确度、召回率和 F1 分数在内的性能指标。这一步骤有助于确保模型具有良好的泛化能力,并能在未知的数据上可靠地运行。
模型部署层是机器学习模型从开发转变为实际使用的地方,在实时环境中提供预测或推理。
部署包括将模型打包成可部署格式,通常使用容器化技术,以促进不同环境间的一致性和可移植性。然后使用协调平台对这些容器进行管理和扩展,从而实现负载平衡、容错和高可用性。
所部署的模型通常通过 API 或微服务(使用 TensorFlow Serving、NVIDIA Triton 等框架或定制解决方案)进行公开,从而实现与业务系统、移动应用程序或网络平台的无缝整合。
可观测性层有助于监控、跟踪和评估 AI 工作流。它提供了了解 AI 模型在现实环境中的表现所需的可视性和洞察分析,使团队能够及时发现和解决问题,维护系统健康,并随着时间的推移不断提高性能。
可观测层的核心是跟踪与 AI 模型及其运行基础设施相关的各种指标的工具和框架。
治理层是一个总体框架,有助于确保 AI 系统的部署、使用和维护是负责任、合乎道德的,并且符合组织和社会标准。
这一层对于管理风险、提高透明度和建立对 AI 技术的信任至关重要。它涵盖了根据法律法规、伦理原则和组织目标监督 AI 模型生命周期的政策和流程。
治理层的主要功能是制定数据收集和使用政策以及合规框架,以遵守《通用数据保护条例》(GDPR)、《健康保险流通与责任法案》(HIPAA) 或包括《欧盟 AI 法案》在内的 AI 特定指导方针等法规。这些框架规定了如何收集、存储和使用数据,从而鼓励隐私和安全。
此外,治理还包括创建可审计性和可追溯性机制,使组织能够记录和跟踪 AI 决策、模型变化和数据使用情况,这对于问责制和解决争议或错误至关重要。
治理层还解决了 AI 系统中的公平性、偏差和可解释性问题。这涉及采用工具和技术来检测和减轻训练数据或模型输出中的偏差,帮助鼓励 AI 系统在不同人群中公平运行。