数据准备是收集原始数据并将其集成到训练数据集中的过程。数据准备有助于确保训练数据没有偏见,这是建立成功模型的关键:准确的数可提供准确的预测和洞察分析。随着企业将 AI 系统与专有数据存储关联在一起(例如通过检索增强生成 (RAG)),数据准备对于 AI 的可靠实施至关重要。
用户将 AutoML 平台与训练数据源(最好是包含可直接用于训练的数据的大型数据集)连接起来。数据准备阶段在部署 AutoML 解决方案之前进行。
AutoML 解决方案用于进一步预处理和清理数据。更彻底的数据预处理可以提供更好的 AI 模型性能。
为监督学习和半监督学习任务手动构建模型时,必须手动标记训练数据。必须根据模型的预期用例选择特征和输出。AutoML 解决方案可以代表用户处理特征工程,以选择最有可能提高模型性能的数据特征。
数据特征或变量是机器学习模型用于做出决策和预测的数据集的属性。例如,对于为识别植物种类而建立的计算机视觉模型,数据特征可能包括叶子的形状和颜色。
特征工程是数据科学家从输入数据中提取新信息并为机器学习做准备的转换过程。良好的工程设计和特征选择可以确定可接受和高质量模型性能之间的差异。
自动化特征工程自动执行深入了解特征空间、填充缺失值和选择要使用的特征的过程。手动构建单个特征可能需要数小时,而达到最低精度分数(更不用说生产级精度基线了)所需的特征数量可能达到数百个。自动化特征工程将这一阶段从几天缩短到几分钟。
除了效率优点之外,自动化特征效率还提高了 AI 的可解释性,这对于医疗保健或金融等受到严格监管的行业非常重要。通过发现新的组织 KPI,更高的特征清晰度使得模型更令人信服且更切实可行。
哪种类型的模型最适合预期用例?对于传统的机器学习,模型选择要求专家了解不同 AI 模型类型及其各自的功能和局限。
AutoML 工具通过使用一系列算法和超参数配置同时自动构建和训练多个模型,从而改进了传统流程。许多 AutoML 解决方案将多个模型组合在一起,这一过程称为集成学习。
构建深度神经网络时最复杂、最易出错且最耗时的任务之一是创建神经网络架构。高级任务需要具有复杂超参数配置的多层网络。
神经网络架构搜索 (NAS) 将此过程自动化,从而减少了所花费的时间和出错的可能性。通过使用高级算法,NAS 根据上下文和数据集来确定最佳架构。NAS 的最新进展侧重于开发更有效的技术以降低相关的计算成本。
数据科学家需要在训练期间验证机器学习算法的进度。训练后,将使用新数据测试模型,以在实际部署之前评估其性能。该模型的性能通过混淆矩阵、F1 分数、ROC 曲线等指标来评估。
训练完成后,AutoML 工具会测试每个模型,以确定哪个模型在训练和测试数据集上表现最佳,然后自动选择表现最好的模型进行部署。
模型创建只是产品时间线中的第一步。已完成的模型需要提供给用户,监控性能并随着时间的推移进行维护,帮助确保可靠性和准确性。如果没有自动化,开发团队必须编写脚本和构建系统来将模型集成到他们的运营中并将其交付给用户群。
许多 AutoML 解决方案都包含部署工具,用于实现无缝的实际集成。可通过网站、应用程序或 API 连接,将模型部署为可访问的服务。AutoML 平台可自动将模型部署到现有产品中,管理扩展、更新和版本控制,并通过数据可视化提高可解释性。
各种各样的 AutoML 工具意味着该技术可以应用于广泛的机器学习任务,包括:
分类
回归
计算机视觉
自然语言处理
自然语言处理 (NLP) 使 AI 系统能够解释文本输入,例如用户提示和法律文件。聊天机器人创建、多类别和多标签文本分类、客户情绪分析、命令实体识别和语言翻译都是可以使用 AutoML 轻松处理的复杂 NLP 任务的示例。
数据科学家可以使用 AutoML 创建自定义模型,而这些模型会自动进行优化,以便在预期用例中实现强大的性能。否则,在手动构建 NLP 模型时,数据科学家必须从头开始,或者必须以以前的模型为基础,而这些模型的性能可能不如量身定制的自动生成模型。
虽然 AutoML 为 AI 开发人员提供了诸多便利,但它并不能完全取代人类的知识、体验、技能和创造力。AutoML 的局限性包括:
成本高昂:任务越艰巨,相应的模型就须越先进。将 AutoML 技术应用于创建大型复杂模型时,其成本可能会迅速失控。
缺乏可解释性:AutoML 生成的模型有时会陷入“黑匣 AI”的陷阱,在这种陷阱中,模型的内部运作方式模糊不清。人类开发人员可以构建根据可解释 AI 原则设计的模型,但 AutoML 解决方案无法保证这一点。
过拟合的风险:过拟合(经过训练的模型过于接近其训练数据,并且无法将其学习转移到真实世界的数据)可以通过人工干预和仔细监控学习过程来缓解。
有限控制:开发人员为了实现自动化的效率而牺牲控制权。在需要高度定制模型的特殊情况下,AutoML 解决方案可能难以提供合适的模型。
数据依赖:AI 模型的强大程度取决于其训练数据。如果没有提供高质量的数据,人造模型和 AutoML 创建的模型都无法良好运行。
AI 模型创建者可以轻松使用各种各样的 AutoML 工具。选项包括:
AutoKeras:一个基于 Keras 库和 TensorFlow 的开源工具。
Auto-PyTorch:一种 AutoML 解决方案,旨在自动执行使用 PyTorch 创建的机器学习项目。
Google Cloud AutoML:可在其机器学习云平台上使用 Google 的 AutoML 解决方案。
Lale1:一个开源半自动化 Python 库,可与 scikit-learn 管道无缝集成。
Microsoft Azure AutoML:使用 Microsoft Azure 的开发人员可以从其 AutoML 功能中受益。
Auto-Sklearn:基于 scikit-learn 库的开源 AutoML 平台。
1. 半自动化数据科学库,Hirzel 等人,IBM/lale,2024 年 8 月 28 日
IBM® Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用。深入了解语言、代码、时间序列和防护措施选项。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
了解如何将生成式 AI、机器学习和基础模型整合到您的业务运营中,以提高绩效。
了解如何为您的用例选择最合适的 AI 基础模型。
机器学习是 AI 和计算机科学的一个分支,专注于使用数据和算法使 AI 能够模仿人类的学习方式。
深入了解强大 AI 战略的 3 个关键要素:创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。