什么是 AutoML?
自动化的机器学习 (AutoML) 是执行手动任务自动化的过程;而数据科学家在构建和训练机器学习模型(ML 模型)时必须完成这些手动任务。这些任务包括特征工程和选择、选择机器学习算法的类型;基于该算法构建分析模型;超参数优化、在经测试的数据集上训练该模型,以及运行该模型以生成分数和结果。研究人员开发 AutoML 是为了帮助数据科学家构建预测模型,而无需具备深厚的 ML 模型专业知识。AutoML 还将数据科学家从构建机器学习管道所涉及的机械式任务中解放出来,让他们可以专注于提取可解决重要业务问题所需的洞察成果。
什么是 AutoAI?
AutoAI 是 AutoML 的一种变体。它将模型构建的自动化延伸至整个 AI 生命周期。与 AutoML 类似,AutoAI 将智能自动化应用于构建预测机器学习模型的开发步骤。这些步骤包括准备用于训练的数据集;识别给定数据的最佳模型类型,如分类或回归模型;以及选择最有助于模型解决问题的数据列(又称为特征选择)。然后,自动化功能将测试各种超参数调优选项,以在其生成候选管道时获取最佳结果,然后根据准确性和精度等指标对模型候选管道进行排序。性能表现最佳的管道可投入生产以处理新数据,并基于模型训练情况得出预测结果。
全新的企业工作室,结合了传统机器学习与由基础模型提供支持的新生成式 AI 功能。
自动构建机器学习和 AI 模型,而无需深厚的数据科学专业知识。为数据科学家、开发人员、ML 工程师和分析人员赋能,生成最佳的候选模型管道。 弥补技能集差距,提高机器学习项目的生产力。
在几分钟甚至几秒钟内构建自定义的 AI 和机器学习模型。更迅速地大规模试验、训练和部署模型。提高机器学习和 AI 模型生命周期的可重复性和治理能力,同时减少繁琐、耗时的任务。
作为 AI 生命周期的一部分,解决可解释性、公平性、稳健性、透明度和隐私问题。缓解 AI 和机器学习中的模型漂移、偏差和风险。验证和监控模型,核实 AI 和机器学习性能是否可满足业务目标。帮助履行企业社会责任 (CSR) 和环境社会治理 (ESG)。
通过统一工具、流程和人员削减 AI 和机器学习模型运行 (ModelOps) 的成本。减少传统工具或单点工具以及基础架构管理工作的开销。借助自动化的 AI 和 ML 生命周期,节省交付生产就绪的模型所需的时间和资源。
应用各种算法或估算工具来分析、清理和准备用于机器学习的原始数据。根据数据类型(如分类或数字)自动检测特征并进行分类。使用超参数优化来确定用于缺失值插补、特征编码和特征缩放的最佳策略。
通过针对一小部分数据的候选算法测试和排序来选择模型。对于最有希望的算法,逐渐增加子集的规模。对大量候选算法启用排序,以选择与数据最匹配的模型。
将原始数据转换为最能代表问题的特征组合,以实现最准确的预测。以结构化、非穷举的方式深入了解各种特征构造选择,同时利用强化学习尽可能逐步提高模型准确性。
使用机器学习中典型的模型训练和评分来改进和优化模型管道。根据性能选择要投入生产应用的最佳模型。
通过模型输入和输出详细信息、训练数据和有效内容日志记录,集成对模型漂移、公平性和质量的监视。实施被动或主动去偏差,同时分析直接和间接偏差。
采用模型和数据洞察分析进行扩展,并验证模型是否达到预期性能。通过衡量模型质量和比较模型性能来持续改进模型。
这家银行使用 IBM Cloud Pak for Data 分析数据、评估数据漂移和衡量模型性能,从中获得了显著的效益。深入了解其中详情。
了解这家医疗保健网络如何构建预测模型,使用保险理赔数据来识别可能患上败血症的患者。
了解这家营销传播机构如何使用 AutoAI 来推动大容量预测并识别新客户。
IBM 研究院团队致力于应用来自 AI、ML 和数据管理的最先进技术,加速和优化机器学习及数据科学工作流程的创建工作。该团队围绕 AutoML 首先开展的工作,集中于使用超频带/贝叶斯优化进行超参数搜索,以及运用超频带/ENAS/DARTS 进行神经结构搜索。
他们持续关注 AutoAI 开发,包括管道配置和超参数优化的自动化。超参数优化算法是一项显著的增强功能,已针对模型训练和评分等成本函数评估进行了优化。这有助于加速收敛,找到最佳解决方案。
IBM Research 还采用自动化人工智能,帮助确保 AI 模型的可信度和可解释性。借助 IBM Watson Studio 中的 AutoAI,用户可轻松查看流程各阶段显示出的种种可视化效果,包括数据准备、算法选择和模型创建等。此外,IBM AutoAI 还可以自动执行任务以持续改进模型,并通过其 ModelOps 功能,确保 AI 模型各类 API 可更轻松便捷地整合至应用程序中。IBM 在 2021 年度 “Gartner 数据科学和机器学习平台魔力象限”报告中被评选为行业领导者,IBM Watson Studio 产品中 AutoAI 的成功演变和发展对此起到了积极的作用。
深度学习是机器学习的一个子领域,以支持 AI 应用程序和服务而闻名,这些应用程序和服务无需人工干预即可执行分析和物理任务。深度学习的示例用例包括聊天机器人、医学影像识别技术和欺诈检测。但是,与机器学习一样,设计和运行深度学习算法需要耗费大量人力和计算能力。
IBM 研究团队探索了深度学习领域其中一个最为复杂耗时的流程:通过名为“神经架构搜索” (NAS) 的技术创建神经架构。该团队回顾了已开发的 NAS 方法,并介绍了每种方法的优点,旨在帮助从业人员选择合适的方法。运用自动化方法,为机器学习模型寻找最佳性能架构,可大幅提高 AI 部署的普及化程度。但这一问题依然十分复杂且难以解决。
但利用 IBM Watson Studio 中的深度学习服务,您仍然可以快速启动,展开深度学习工作。该服务帮助您设计复杂的神经网络,然后大规模开展实验,部署优化的机器学习模型。该服务旨在简化模型训练流程,同时还按需提供 GPU 计算集群,满足计算能力需求。您还可以集成常用的开源 ML 框架(如 TensorFlow、Caffe、Torch 和 Chainer),以在多个 GPU 上训练模型并加速获取结果。在 IBM Watson Studio 上,您可以结合使用 AutoML、IBM AutoAI 和深度学习服务,以加快实验速度,分析结构化和非结构化数据,并更快部署更佳模型。
对 AutoML 的需求,最终形成了可供数据科学专家和非专家使用的开源软件的开发浪潮。领先开源工具包括 auto-sklearn、auto-keras 和 auto-weka。IBM 研究院为 Lale (链接位于 IBM 外部)做出了贡献,这是一种 Python 库,扩展了 scikit-learn 的功能,可支持广泛的自动化配置,包括算法选择、超参数调优和拓扑搜索等。正如来自 IBM 研究院的论文 (PDF) 所述,Lale 可为已确定的 AutoML 工具自动生成搜索空间。实验显示,这些搜索空间利用最先进的工具取得了极具竞争力的成果,同时进一步提高了用途的广泛适用性。