重要说明:

IBM Cloud Pak® for Data 4.8 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告
在 版本支持结束之前,升级到 版本。 IBM Cloud Pak for Data 4.8 IBM Software Hub 5.1 有关更多信息,请参阅从 IBM Cloud Pak for Data 版本 4.8 升级到 IBM Software Hub 版本 5.1

快速入门:使用 AutoAI 构建并部署机器学习模型

您可以使用 AutoAI 工具将机器学习模型的构建过程自动化。 阅读有关 AutoAI 工具的信息,然后观看视频并学习适合初学者且不需要编码的教程。

必需的服务
Watson Studio
Watson Machine Learning

基本工作流程包含以下任务:

  1. 创建项目。 项目是您与其他人协作处理数据的地方。
  2. 将您的数据添加到项目中。 您可以通过连接从远程数据源添加 CSV 文件或数据。
  3. 在项目中创建 AutoAI 试验。
  4. 查看模型管道,并将期望管道另存为模型以进行部署,或另存为 Notebook 以进行定制。
  5. 部署并测试模型。

阅读有关 AutoAI 的信息

AutoAI 图形工具会自动分析数据并生成针对预测建模问题定制的候选模型管道。 当 AutoAI 分析数据集并发现最适合问题设置的数据转换、算法和参数设置时,就会以迭代方式创建这些模型管道。 结果会显示在排行榜上,其中会显示自动生成的模型管道,并按问题优化目标排名。

阅读有关 AutoAI 的更多信息

观看有关使用 AutoAI 创建模型的视频

观看视频 观看本视频,了解如何根据银行营销样本创建并运行 实验。 AutoAI

注: 此视频显示本教程的任务 2-4。

此视频提供了一种可视方法来学习本文档中的概念和任务。


试用教程以使用 AutoAI 创建模型

本教程将指导您训练模型,以预测客户是否可能根据市场营销活动预订定期存款。

在本教程中,您将完成以下任务:

完成本教程大约需要 30 分钟。

样本数据

指导式体验中使用的样本数据为 UCI: 用于预测客户是否在市场营销促销中注册的银行市场营销数据。

银行市场营销数据集的电子表格




完成本教程的提示

以下是成功完成本教程的一些提示。

在社区中获取帮助

如果您需要本教程的帮助,可以在 Cloud Pak for Data 社区讨论区提问或寻找答案。

设置浏览器窗口

为了获得完成本教程的最佳体验,请在一个浏览器窗口中打开 Cloud Pak for Data ,并在另一个浏览器窗口中保持本教程页面处于打开状态,以便在两个应用程序之间轻松切换。 请考虑将两个浏览器窗口并排排列,以便更轻松地进行后续操作。

并排教程和 UI

提示: 如果在用户界面中完成本教程时迂到引导式教程,请单击 稍后可能



任务 1: 打开项目

您需要一个项目来存储数据和 AutoAI 试验。 您可以使用现有项目或创建项目。

  1. 从导航菜单 导航菜单 中,选择项目 > 所有项目

  2. 打开现有项目。 如果要使用新项目:

    1. 单击新建项目

    2. 选择创建空项目

    3. 输入项目的名称和可选描述。

    4. 单击创建

要获取更多信息或观看视频,请参阅创建项目

检查点图标 检查您的进度

下图显示了新项目。

下图显示了新项目。




任务 2: 构建和训练模型

现在,您有了项目,可以使用 AutoAI来构建和训练模型。 执行以下步骤以创建 AutoAI 试验,复审模型管道并选择要另存为模型的管道:

  1. 下载 bank.csv 文件 (0.46 MB) 文件

  2. 从项目的 资产 选项卡中,单击 新建资产> AutoAI

  3. 创建 AutoAI 试验 屏幕上,添加项目的名称和可选描述。

  4. 单击创建

  5. 在打开的 " 添加数据源 " 页面上,单击 浏览 并打开 bank.csv

  6. 如果要求您创建时间序列试验,请选择

  7. 为模型选择标记为 Y 的列。 该列将用于预测客户是否有可能参与市场促销活动。 AutoAI 会分析数据,并确定 Y 列包含 True/False 信息,从而使该数据适用于二元分类模型。 二进制分类的缺省度量是准确性和运行时。

    选择预测列

  8. 查看预设的试验设置。 AutoAI 可根据数据集和要预测的选定列,分析数据子集,并选择预测类型和用于优化的指标。 在此情况下,预测类型为 二元分类,正类为 ,优化度量为 ROC AUC 和运行时

  9. 单击运行试验。 随着模型的训练,你会看到一个信息图表,显示管道的建设过程。
    构建模型管道

    有关 AutoAI, 中每种机器学习技术可用的算法或估计器列表,请参阅: AutoAI 实现详情

  10. 实验运行完成后,您可以在排行榜中查看和比较排名的管道。

    管道排行榜

  11. 您可以单击 管道比较 以查看它们之间的差异。

    管道比较度量图表

  12. 单击排名最高的管道以查看管道详细信息。

  13. 单击 另存为,选择 模型,然后单击 创建。 这会将管道另存为项目中的模型。

  14. 保存模型时,单击通知中的在项目中查看链接以查看项目中的模型。 或者,您可以浏览到项目中的 资产 选项卡,然后单击 模型 部分中的模型名称。

检查点图标 检查您的进度

下图显示了模型。

下图显示了模型。




任务 3: 将模型提升到部署空间并部署经过训练的模型

在可以部署模型之前,需要将模型提升到部署空间。 遵循以下步骤将模型提升到部署空间以部署模型:

  1. 单击 " 推广到部署空间 "提升到部署空间" 图标 "图标。

  2. 选择现有部署空间。 如果您没有部署空间,那么可以创建新的部署空间:

    1. 提供空间名称和可选描述。

    2. 单击创建

    3. 单击关闭

  3. 从列表中选择新的部署空间。

  4. 选择 提升模型后转至空间中的模型 选项。

  5. 单击提升

    注: 如果在提升空间后未选择转至该空间中的模型的选项,那么可以使用导航菜单浏览至 部署 以选择部署空间和模型。
  6. 打开模型后,单击 新建部署

    1. 选择 联机 作为 部署类型

    2. 指定部署名称。

    3. 单击创建

  7. 部署完成后,单击部署名称以查看部署详细信息页面。

检查点图标 检查您的进度

下图显示了新部署。

下图显示了新部署。




任务 4: 测试已部署的模型

现在,您已部署模型,可以使用用户界面或通过 Watson Machine Learning API 测试该联机部署。 遵循以下步骤以使用用户界面通过新数据测试模型:

  1. 单击测试选项卡。 您可以通过两种方式从部署详细信息页面测试已部署模型:使用表单测试或使用 JSON 代码测试。

  2. 单击 JSON 输入 选项卡,复制以下测试数据,并将其粘贴以替换现有 JSON 文本:

    {
       "input_data": [
          {
             "fields": [
                   "age",
                   "job",
                   "marital",
                   "education",
                   "default",
                   "balance",
                   "housing",
                   "loan",
                   "contact",
                   "day",
                   "month",
                   "duration",
                   "campaign",
                   "pdays",
                   "previous",
                   "poutcome"
                ],
             "values": [
                   [
                   27,
                   "unemployed",
                   "married",
                   "primary",
                   "no",
                   1787,
                   "no",
                   "no",
                   "cellular",
                   19,
                   "oct",
                   79,
                   1,
                   -1,
                   0,
                   "unknown"
                   ]
                ]
          }
       ]
    }
    
  3. 单击预测,以预测具有所指定属性的客户是否有可能注册特定种类的帐户。 生成的预测会指出,此客户极有可能不参与营销促销。

  4. 单击 X 以关闭 " 预测结果 " 窗口。

检查点图标 检查您的进度

下图显示了测试部署的结果。 预测值可能与下图中的值不同。

下图显示了测试部署的结果。




任务 5: 创建批处理作业以对模型进行评分

现在,您已使用单个预测测试了已部署的模型,可以创建批处理部署以同时对多条记录进行评分。

任务 5a: 设置批处理部署

对于批量部署,您可以在 CSV 文件中提供输入数据 (也称为模型有效内容)。 数据的结构必须与训练数据一样,具有相同的列标题。 批处理作业处理每行数据并创建相应的预测。 执行以下步骤以将有效内容数据上载到部署空间:

  1. 将以下文本复制并粘贴到文本编辑器中,然后将文件另存为 bank-payload.csv

    age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome
    30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown
    33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure
    35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure
    30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown
    59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown
    35,management,single,tertiary,no,747,no,no,cellular,23,feb,141,2,176,3,failure
    36,self-employed,married,tertiary,no,307,yes,no,cellular,14,may,341,1,330,2,other
    39,technician,married,secondary,no,147,yes,no,cellular,6,may,151,2,-1,0,unknown
    41,entrepreneur,married,tertiary,no,221,yes,no,unknown,14,may,57,2,-1,0,unknown
    43,services,married,primary,no,-88,yes,yes,cellular,17,apr,313,1,147,2,failure
    39,services,married,secondary,no,9374,yes,no,unknown,20,may,273,1,-1,0,unknown
    43,admin.,married,secondary,no,264,yes,no,cellular,17,apr,113,2,-1,0,unknown
    36,technician,married,tertiary,no,1109,no,no,cellular,13,aug,328,2,-1,0,unknown
    20,student,single,secondary,no,502,no,no,cellular,30,apr,261,1,-1,0,unknown
    31,blue-collar,married,secondary,no,360,yes,yes,cellular,29,jan,89,1,241,1,failure
    40,management,married,tertiary,no,194,no,yes,cellular,29,aug,189,2,-1,0,unknown
    56,technician,married,secondary,no,4073,no,no,cellular,27,aug,239,5,-1,0,unknown
    37,admin.,single,tertiary,no,2317,yes,no,cellular,20,apr,114,1,152,2,failure
    25,blue-collar,single,primary,no,-221,yes,no,unknown,23,may,250,1,-1,0,unknown
    31,services,married,secondary,no,132,no,no,cellular,7,jul,148,1,152,1,other
    
  2. 单击导航跟踪中的部署空间。

    导航跟踪

  3. 单击“资产”选项卡

  4. bank-payload.csv 文件拖到侧面板中,然后等待文件上载。

检查点图标 检查您的进度

下图显示了部署空间中的 资产 选项卡。

部署空间中的 "资产" 选项卡

任务 5b: 创建批处理部署

要处理一批输入,并将输出写入文件而非实时显示,请创建批量部署作业。

  1. 转至部署空间中的 资产 选项卡。

  2. 单击模型的 溢出菜单 Overflow 菜单,然后选择部署

  3. 对于 部署类型,选择 批处理

  4. 输入部署的名称。

  5. 选择最小硬件规范。

  6. 单击创建

检查点图标 检查您的进度

下图显示了批处理部署。

批量部署

任务 5c: 创建批处理作业

批处理作业运行部署。 要创建作业,请指定输入数据和输出文件的名称。 您可以建立要按时间表运行或立即运行的作业。 执行以下步骤以创建批处理作业:

  1. 在部署页面上,单击 新建作业

  2. 指定作业的名称,然后单击 下一步

  3. 选择最小的硬件规范,然后单击 下一步

  4. 可选: 设置调度,然后单击 下一步

  5. 可选: 选择接收通知,然后单击 下一步

  6. 在 " 选择数据 " 屏幕上,选择 输入 数据:

    1. 单击 选择数据源

    2. 选择 数据资产> bank-payload.csv

    3. 单击确认

  7. 返回到 " 选择数据 " 屏幕,指定 输出 文件:

    1. 单击添加

    2. 单击 选择数据源

    3. 确保选择了 新建 选项卡。

    4. 对于 名称,输入 bank-output.csv

    5. 单击确认

  8. 单击 下一步 以执行最终步骤。

  9. 查看设置,然后单击 创建并运行 以立即运行作业。

检查点图标 检查您的进度

下图显示了批处理部署的作业详细信息。

为批处理部署创建作业

任务 5d: 查看输出

执行以下步骤以查看批处理作业的输出文件。

  1. 单击作业名以查看状态。

  2. 当状态更改为 已完成时,单击导航跟踪中的部署空间名称。

  3. 单击“资产”选项卡

  4. 单击 bank-output.csv 文件以查看针对批处理提交的客户信息的预测结果。 对于每个案例,返回的预测表示这些客户不太可能预订银行促销。

检查点图标 检查您的进度

下图显示了批处理部署作业的结果。

下图显示了批处理部署作业的结果。



后续步骤

现在,您可以使用此数据集开展进一步分析。 例如,您或其他用户可以执行以下任何任务:

其他资源

父主题: 快速入门教程