机器学习管道是一系列互连的数据处理和建模步骤,旨在自动化、标准化和简化构建、训练、评估和部署机器学习模型的过程。
机器学习管道是机器学习系统开发与生产中的关键组成部分,它可帮助数据科学家和数据工程师管理端到端机器学习流程的复杂性,并可帮助他们为各类应用开发出准确且可扩展的解决方案。
机器学习管道具备诸多优点。
机器学习技术正在快速发展,但我们仍可确定构建和部署机器学习和深度学习模型流程中所涉及的某些普遍步骤。
不同机器学习生命周期的复杂性各不相同,且可能涉及其他步骤,具体则取决于实际用例,例如超参数优化、交叉验证和特征选择。机器学习管道的目标是实现这些流程的自动化和标准化,从而更轻松地为各种应用程序开发和维护 ML 模型。
机器学习管道的发展历史与机器学习和数据科学领域的发展密切相关。虽然数据处理工作流程的概念先于机器学习出现,但我们眼下所知的机器学习管道的正规化和广泛运用却是近期才发展起来的。
早期的数据处理工作流程(2000 年代以前):在机器学习实现广泛运用之前,数据处理工作流程主要用于数据清理、转换和分析等任务。这些工作流程通常由人工操作,且需编写脚本或使用电子表格软件等工具。但在此期间,机器学习却并非这些流程的核心组成部分。
机器学习的兴起(2000 年代):2000 年代初期,随着算法、算力和大型数据集的出现,机器学习开始逐渐崭露头角。研究人员和数据科学家开始将机器学习应用于各个领域,从而致使对系统化与自动化工作流程的需求不断上升。
数据科学的腾飞(2000 年代末至 2010 年代初):作为一个结合了统计学、数据分析和机器学习的多学科领域,“数据科学”在此时期开始流行起来。在此时期,数据科学工作流程实现了正规化,其中包括数据预处理、模型选择和评估,而这些工作流程如今均已成为机器学习管道的必要组成部分。
机器学习库和工具的发展(2010 年代):进入 2010 年代,机器学习库和工具的发展简化了管道的创建。scikit-learn(适用于 Python)和 caret(适用于 R)等库为构建和评估机器学习模型提供了标准化的 API,从而使构建管道变得更为轻松。
AutoML 的腾飞(2010 年代):在此时期,出现了自动化机器学习 (AutoML) 工具和平台,而它们旨在自动执行构建机器学习管道的流程。这些工具通常会自动执行超参数调整、特征选择和模型选择等任务,从而可让非专家人士更易通过可视化效果和教程来了解机器学习。例如,Apache Airflow 便是可用于构建数据管道的一种开源工作流程管理平台。
与 DevOps 相集成(2010 年代):机器学习管道开始与 DevOps 实践相集成,从而实现机器学习模型的持续集成和部署 (CI/CD)。此集成突出了 ML 管道中对可再现性、版本控制和监控的需求。该集成被称为机器学习运营(或 MLOps),它可帮助数据科学团队有效管理 ML 编排管理的复杂性。在实时部署中,管道会在某一请求的几毫秒时间内回复该请求。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。