AutoAI 教程:构建二元分类模型
本教程将指导您完成对模型的训练,以预测客户是否可能预订银行促销。 在本教程中,您将创建 AutoAI 试验,以分析数据并选择最佳模型类型和算法来生成,训练和优化管道,这些管道是模型候选项。 复审管道后,将一个管道另存为模型,对其进行部署,然后对其进行测试以获取预测。
观看此视频以查看此教程中步骤的预览。
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频脚本 时间 脚本 00:00 在此视频中,您将看到如何构建二元分类模型,以评估室外设备公司的客户购买帐篷的可能性。 00:11 此视频使用名为 "GoSales" 的数据集,您可以在 Resource Hub 中找到该数据集。 00:16 查看数据集。 00:20 功能部件列为 "GENDER" , "AGE" , "MARITAL_STATUS" 和 "专业" ,并包含机器学习模型将作为预测基础的属性。 00:31 标签列为 "IS_TENT" , "PRODUCT_LINE" 和 "PURCHASE_AMOUNT" ,并包含可训练模型以进行预测的历史结果。 00:44 将此数据集添加到 "Machine Learning" 项目,然后转至该项目。 00:56 您将找到包含其他数据资产的 GoSales.csv 文件。 01:02 向项目添加 "AutoAI 试验"。 01:08 此项目已关联 Watson Machine Learning 服务。 01:13 如果尚未执行此操作,请首先观看显示如何根据样本运行 AutoAI 试验的视频。 01:22 只需提供实验的名称,然后单击 "创建"。 01:30 此时将显示 AutoAI 试验构建器。 01:33 首先需要装入训练数据。 01:36 在这种情况下,数据集将来自项目。 01:40 从列表中选择 GoSales.csv 文件。 01:45 AutoAI 读取数据集并列出在数据集中找到的列。 01:50 由于您希望模型预测给定客户购买帐篷的可能性,请选择 "IS_TENT" 作为要预测的列。 01:59 现在,编辑试验设置。 02:03 首先,查看数据源的设置。 02:06 如果您具有大型数据集,那么可以在行的子样本上运行试验,并且可以配置将用于训练的数据量以及将用于评估的数据量。 02:19 缺省值为 90% /10% 分割,其中 10% 的数据保留用于评估。 02:27 您还可以在运行试验时从数据集中选择要包含的列。 02:35 在 "预测" 面板上,可以选择预测类型。 02:39 在这种情况下, AutoAI 分析了您的数据,并确定 "IS_TENT" 列包含真实-虚假信息,从而使此数据适用于 "二元分类" 模型。 02:52 正类为 "TRUE" ,建议的度量为 "准确性"。 03:01 如果您愿意,可以选择要为此试验考虑的特定算法以及要测试的 AutoAI 的顶级算法数,这将确定生成的管道数。 03:16 在 "运行时" 面板上,您可以查看有关试验的其他详细信息。 03:21 在这种情况下,接受缺省设置最有意义。 03:25 现在,运行实验。 03:28 AutoAI 首先装入数据集,然后将数据分割为训练数据和保留数据。 03:37 然后,在 "管道排行榜" 填写时等待,以使用不同的估计量 (例如 XGBoost 分类器) 或增强 (例如超参数优化和特征工程) 来显示生成的管道,并根据准确性指标对这些管道进行排名。 03:58 超参数优化是一种机制,用于自动探索潜在超参数的搜索空间,构建一系列模型并使用感兴趣的度量对模型进行比较。 04:10 特征工程会尝试将原始数据变换为最能代表该问题的特征组合,以实现最准确的预测。 04:21 好了跑完了 04:24 缺省情况下,您将看到 "关系映射"。 04:28 但您可以交换视图以查看 "进度图"。 04:32 您可能希望从比较管道开始。 04:36 此图表提供按交叉验证分数或暂挂分数查看的八个管道的度量。 04:46 您可以看到根据其他度量 (例如,平均精度) 排名的管道。 04:55 返回到 "试验摘要" 选项卡上,展开管道以查看模型评估度量和 ROC 曲线。 05:03 在 AutoAI 训练期间,数据集分为两部分: 训练数据和保留数据。 05:11 AutoAI 训练阶段使用训练数据来生成模型管道,并使用交叉验证分数对其进行排名。 05:21 训练后,将坚持数据用于生成的管道模型评估和性能信息的计算,例如 ROC 曲线和混淆矩阵。 05:33 除了混淆矩阵,精确召回曲线,模型信息和特征重要性之外,您还可以查看单个管道以查看更多详细信息。 05:46 此管道的排名最高,因此您可以将其保存为机器学习模型。 05:52 只需接受缺省值并保存模型即可。 05:56 现在,您已训练模型,准备好查看模型并进行部署。 06:04 "概述" 选项卡显示模型摘要和输入模式。 06:09 要部署模型,您需要将其提升到部署空间。 06:15 从列表中选择部署空间,添加模型的描述,然后单击 "提升"。 06:24 使用链接转至部署空间。 06:28 这是您刚刚创建的模型,现在可以部署该模型。 06:33 在这种情况下,将是在线部署。 06:37 只需提供部署的名称,然后单击 "创建"。 06:41 然后等待,同时部署模型。 06:44 模型部署完成后,查看部署。 06:49 在 "API 参考" 选项卡上,您将找到评分端点以供将来参考。 06:56 您还将找到各种编程语言的代码片段,以利用应用程序中的此部署。 07:05 在 "测试" 选项卡上,可以测试模型预测。 07:09 您可以输入测试输入数据或粘贴 JSON 输入数据,然后单击 "预测"。 07:20 这说明第一个客户买帐篷的概率非常高,第二个客户买不到帐篷的概率非常高。 07:33 回到项目中,您将在 "资产" 选项卡上找到 AutoAI 试验和模型。 07:44 在 Cloud Pak for Data as a Service 文档中查找更多视频。
数据集概述
预览样本数据时,您可以看到这是以行列组织的结构化人口统计数据,并保存在 .csv 文件中。

数据集来自一家葡萄牙银行机构的直接市场营销活动(电话通话)。 分类目标是训练可以预测新客户是否预订 (是或否) 定期存款 (变量 y) 的模型。
任务概述
本教程介绍了使用 AutoAI构建和训练机器学习模型的基本步骤:
您可能会看到基于您使用的 Cloud Pak for Data 平台和版本的图形中显示的结果略有差异。
任务 1: 创建项目
任务 2: 创建 AutoAI 试验
在银行数据上定义并运行试验,以生成管道或模型候选项。
- 在项目中的 资产 选项卡上,单击 新建资产> AutoAI。
- 为您的新实验指定名称和可选描述,然后单击 创建。
- 要添加数据源,您可以选择下列其中一个选项:
- 要以本地方式下载文件,请从本地计算机上载训练数据文件 bank-full.csv,方法是将该文件拖到数据面板上,或者单击 浏览 ,然后遵循提示。
- 如果已将文件上载到项目,请单击 从项目中选择,然后选择 数据资产 选项卡,然后选择 bank-full.csv。
- 要以本地方式下载文件,请从本地计算机上载训练数据文件 bank-full.csv,方法是将该文件拖到数据面板上,或者单击 浏览 ,然后遵循提示。
任务 3: 训练实验
添加数据之后,请选择预测列,它表示您尝试使用该试验求解的问题。 对于此试验,我们希望了解新银行客户是否将预订由标记为 y的列表示的银行促销。
在 配置详细信息中,针对用于创建时间序列预测的选项选择 没有 。
选择 y 作为要预测的列。 您可以看到,当您选择要预测的列时,AutoAI 会选择与数据匹配的模型类型。 AutoAI 会分析数据并确定 y 列包含 Yesor No 信息,从而使此数据适用于二元分类模型。
单击运行试验。 在模型训练时,您会看到一个信息图,其中显示了构建管道的过程。
有关可用于 AutoAI中每种机器学习技术的算法或估计量的列表,请参阅 AutoAI 实现详细信息。创建所有管道后,可以在 管道排行榜上比较其准确性。

- 您还可以单击管道的名称以查看有关如何生成管道的详细信息。 完成复查管道后,请选择一个管道以另存为模型。

- 选择 Rank 1 的管道,然后单击 另存为 以创建模型。 然后,选择 创建。 这会将管道保存在 资产 选项卡中的 模型 部分下。
任务 4: 部署经过训练的模型
- 可以从模型详细信息页面部署模型。 您可通过下列其中一种方式访问模型详细信息页面:
- 在保存模型时显示的通知中单击该模型的名称。
- 打开项目的 资产 选项卡,然后选择模型的名称。
- 单击 提升到部署空间
图标,然后选择现有空间,或者创建将在其中部署模型的新空间。
- 输入部署空间的名称。
- 单击创建。
- 创建部署空间或选择现有部署空间后,请选择 提升。
- 单击通知中的部署空间链接。
- 从部署空间执行下列其中一个选项:
- 单击 *新建部署。
- 将鼠标悬停在模型的名称上,然后单击部署图标
。
- 在打开的页面中,填写字段:
- 选择 联机 作为 部署类型。
- 指定部署名称。
- 单击创建。
在部署完成后,单击部署名称以查看详细信息页面。
任务 5: 测试已部署的模型
您可以从部署详细信息页面中测试已部署的模型。
- 在部署详细信息页面的 测试 选项卡上,浏览以查找在设置过程中下载的有效内容文件
bank_payload.csv。 CSV 中的值将填充测试界面,从而为部署提供值。

- 单击 预测 ,并且生成的预测指示具有输入的属性的客户注册银行促销的可能性较低。

任务 6: 创建批处理作业以对模型进行评分
对于批量部署,您可以在 CSV 文件中提供输入数据 (也称为模型有效内容)。 数据的结构必须与训练数据相同,并且具有相同的列标题。 批处理作业处理每行数据并创建相应的预测。
在实际场景中,您将向模型提交新数据以获取分数。 但是,本教程将创建并运行批处理部署,该部署使用您在教程设置过程中下载的训练数据 bank-payload.csv 。 部署模型时,可以将有效内容数据添加到项目,将其上载到空间,或者在存储库 (例如, Cloud Object Storage 存储区) 中链接到该数据。 在这种情况下,您可以将文件直接上载到部署空间。
步骤 1: 设置批处理部署
- 打开训练数据的本地副本。
- 删除 y 列。
- 将文件另存为 bank-payload.csv。
- 上载本地保存的 bank-payload.csv 文件。
步骤 2:创建批量部署
现在,您可以定义批量部署。
- 转至 资产 选项卡,并将鼠标悬停在模型的名称上,单击部署图标
。 - 输入一个名称作为部署的名称。
- 选择 批处理 作为 部署类型。
- 选择最小硬件规范。
- 单击创建。
步骤 3: 创建批处理作业
批处理作业执行部署。 要创建作业,您必须指定输出文件的输入数据和名称。 您可以将作业设置为按调度运行,或者立即运行。
- 单击 新作业。
- 指定该作业的名称
- 配置为最小硬件规范
- (可选): 设置调度和接收通知。
- 上载输入文件: bank-payload.csv
- 将输出文件命名为: bank-tutorial-output.csv
- 查看并单击 创建 以运行作业。
步骤 4:查看输出
当部署状态更改为 已部署时,请确认已创建文件 bank-tutorial-output.csv 并将其添加到资产列表中。
单击文件名以查看为进行批处理而提交的客户信息的预测结果。

对于每个案例,返回的预测指示客户是否将加入促销的置信度分数。
后续步骤
父主题: AutoAI 概述