Amazon SageMaker 是一项完全托管式服务,旨在简化构建、训练和部署机器学习 (ML) 模型的过程。
SageMaker 由 Amazon Web Services (AWS) 创建,可自动执行 ML 部署的每个阶段涉及的很多劳动密集型任务,从而降低工作流的复杂性并加速整个机器学习生命周期。这样可以实现更快的迭代和更高的准确性,最终提高机器学习计划的商业价值。
SageMaker 提供了一套 ML 工具。例如,Autopilot 支持基于特定的数据集训练人工智能 (AI) 模型,并根据精度对每种算法进行排名,而 Data Wrangler 可以加快数据准备速度,从而提高开发 ML 模型的初始阶段的效率。
SageMaker 还包含几个应用程序编程接口 (API)。这些 API 允许数据科学家和开发人员创建可用于生产的 ML 解决方案,而无需执行复杂的基础设施管理。
要了解 Amazon SageMaker 的影响,了解机器学习的工作原理非常重要。机器学习过程可分为三个部分:决策过程、误差函数和模型优化。
Amazon SageMaker 可以帮助简化这些流程,因此数据科学家能够高效地部署机器学习模型。
AWS SageMaker 通过一种结构化方法简化 ML 生命周期,该方法包括三个关键阶段:生成示例数据、训练和部署。在每个阶段中,开发人员可以使用实例(隔离的环境或者服务器)来管理数据库和计算资源、设置配置参数以及预置必要的 IT 基础设施。
开发人员可以首先生成示例数据,这对于训练 ML 模型至关重要。这一过程涉及获取、清理和准备真实的数据集,以进行预处理。有时,开发人员可以使用 Amazon Ground Truth 创建带标记的合成图像数据,以增强或替换示例数据。准备就绪后,即可将数据上传到 Amazon Simple Storage Service (S3),以便能够在各种 AWS 服务中使用这些数据。
Amazon SageMaker 笔记本实例为开发人员提供了一个强大的环境来准备和处理用于训练的数据。通过访问存储在 S3 中的数据,SageMaker 可以使用完全托管的机器学习实例训练模型、运行推理和处理大型数据集(在 Amazon Elastic Cloud Compute (EC2) 中),从而加快模型开发过程。
SageMaker 通过开源的 Jupyter Notebook 应用程序支持协作编码。数据科学家可以导入他们自己的工具,也可以使用预构建的 notebook 实例,这些实例配有必要的驱动程序以及为热门深度学习框架预先编写的代码库。这些库可以由数学运算、神经网络层和优化算法组成。
SageMaker 还支持被打包为 Docker 容器镜像的自定义算法,为开发人员提供了灵活性。它与 Amazon S3 集成,使各个团队能够轻松启动他们的机器学习项目。开发人员可以提供自己的训练算法,也可以通过 SageMaker 控制台从一系列预构建的算法中进行选择。可以使用教程和资源来指导用户完成这些流程。
在训练阶段,开发人员使用算法或经过预训练的基础模型,在特定的数据集上微调他们的 ML 模型。开发人员可以在 Amazon S3 存储桶中定义数据位置,并选择适当的实例类型以优化训练过程。
SageMaker Pipelines 等编排工具可以自动化构建、训练和部署机器学习模型的端到端流程,以简化工作流。这样可以帮助节省时间,并有助于确保整个工作流的准确性。此外,使用 Amazon SageMaker JumpStart,开发人员还可以通过无代码界面使用预构建的模型,因此无需掌握深厚的技术专业知识即可实现协作。
在模型训练期间,开发人员可以使用 SageMaker 的超参数调整来优化大型语言模型 (LLM),以提高各种应用程序的性能。调试器会监控神经网络的指标,让开发人员实时了解模型性能和资源使用情况。这样能够让数据科学家快速发现问题、分析趋势以及设置自动警报以进行主动管理,从而帮助简化调试过程。SageMaker 还提供了边缘管理器功能,它将 ML 监控和管理扩展到边缘设备。
完成训练之后,SageMaker 会自主管理和扩展底层云基础设施,以帮助确保顺利部署。这一过程依赖于一系列实例类型(例如针对 ML 工作负载进行了优化的图形处理单元 (GPU)。它还可以部署在多个可用区(相互隔离但足够接近以实现低延迟的数据中心集群),以增强可靠性。运行状况检查和安全的 HTTPS 端点进一步增强了应用程序的连接性。
完成部署之后,开发人员可以使用 Amazon CloudWatch 指标监控生产性能、获得实时洞察以及针对任何偏差设置警报。凭借全面的监控能力,SageMaker 可以在整个 ML 生命周期中实现有效的治理。因此,各个组织可以利用机器学习的力量,同时保持控制和合规性。
Amazon SageMaker 提供了多种可以增强机器学习体验的优势,包括:
Amazon SageMaker Studio 是面向数据科学家的一体化 IDE,它提供了直观的界面,可用于管理工作流、开发模型和可视化指标。它支持 Jupyter Notebook,允许用户高效地编写和运行 Python 代码。
用户可以使用内置算法或基于热门 ML 训练框架(例如 TensorFlow、PyTorch 和 MXNet)的自定义算法来训练 ML 模型。这项服务提供了超参数调整以优化模型配置,从而获得最佳性能。SageMaker 还可以对经过预训练的模型进行微调,这样,数据科学家就能够针对特定的数据集和任务调整这些模型。
高质量的数据集对于创建有效的机器学习模型至关重要。Ground Truth 提供了数据标记服务,可以通过自动标记和人工审查流程帮助创建高质量的训练数据集。此外,Amazon SageMaker 还包括一个内置的功能库,使用此功能库,各个团队可以在不同的机器学习模型中管理、共享和发现各种功能(用于训练和推理的输入)。这样可以帮助简化数据准备过程并加强协作。
部署机器学习模型之后,SageMaker 允许实时进行批量推理。用户可以创建端点(用作应用程序访问点的特定 URL),以便高效地进行实时预测并管理工作负载。这对于需要即时响应的应用(例如生成式 AI 场景)特别有用。
SageMaker 提供了 Amazon CloudWatch 等工具以实时监控 ML 模型性能,并使用其他的 AWS 服务提供应用程序运行状况的整体视图。使用调试功能,数据科学家可以跟踪模型训练和部署中的问题,因此有助于确保强大的机器学习生命周期。
AWS 提供两种定价模式(按需定价和即用即付),费用根据实例类型、数据存储和使用的服务而有所不同。此外,Amazon SageMaker 免费套餐允许新用户免费探索该平台,并提供了范围有限的功能和资源。
Amazon SageMaker 功能齐全,因此适用于各行各业的多种用例。例如:
医疗保健:机器学习模型可以分析患者数据,以预测疗效、个性化治疗和提高运营效率。
金融:金融机构可以利用 Amazon SageMaker 开发欺诈检测、信用评分和风险评估模型。
零售:各个公司可以利用预测性分析增强库存管理、打造个性化客户体验和优化定价策略。
Amazon SageMaker 等工具可以帮助各个组织有效地部署机器学习模型以推动创新和提高商业价值,同时保持 AI 系统控制和合规性。用户可以利用多种治理工具,包括:
SageMaker Python SDK 可以与现有的工作流无缝整合,从而增强 Amazon SageMaker 的治理功能。这样,各个组织就能够自动执行合规性检查以及更有效地监督他们的 ML 项目。
Amazon SageMaker 还可以集成到更广泛的数据和 AI 战略中。IBM 和 AWS 已经建立战略合作伙伴关系,以增强各个组织利用基于云的服务的能力。通过将 IBM 的基础模型与 Amazon SageMaker 结合使用,可以让各个团队利用高级分析、改进数据管理以及简化工作流。通过在 Amazon VPC 内部署模型,各个组织可以帮助确保对他们的资源进行安全、受控的访问,从而进一步支持治理工作。
凭借跨 Windows 等各种平台工作的能力,各个组织可以将 IBM 和 AWS 工具结合使用,以便轻松实施根据他们的需求量身定制的 AI 和 ML 解决方案。通过将 IBM 的 watsonx.governance™ 解决方案与 SageMaker 的强大功能结合使用,各个企业可以加速他们的 AI 计划,特别是在生成式 AI 和 MLOps 应用程序方面。