监督式学习
云和数据
监督式学习

了解监督式学习工作原理以及如何使用它来构建高度准确的机器学习模型。

特色产品

Watson Studio

SPSS Statistics

https://www.ibm.com/cn-zh/products/cloud-pak-for-data


什么是监督式学习?

监督式学习又称为监督式机器学习,是 机器学习 和 人工智能的一个子类别。 其定义为通过使用带标签的数据集训练算法,以达到准确分类数据或预测结果的目的。 输入数据被馈送到模型时,它会调整其权重,直到正确地适合模型为止,这一切发生在交叉验证过程中。 监督式学习有助于组织大规模解决各种现实问题,例如将垃圾邮件归类到收件箱中的单独文件夹中。

相关链接

线性回归

逻辑回归

数据科学


监督式学习工作原理

监督式学习使用训练集训练模式以产出预期输出。 该训练数据集包括输入和正确输出,允许模型随着时间逐步学习。 该算法通过损失函数衡量其准确性,并进行调整,直到将错误最小化到可接受的范围。

在进行数据挖掘时,监督式学习可以分为两种类型的问题 - 分类和回归:

  • 分类使用算法将测试数据准确地分配到指定类别。 它识别数据集中的特定实体,并尝试关于应如何对这些实体进行标注或定义得出一些结论。 常见的分类算法是线性分类器、支持向量机 (SVM)、决策树、k 最近邻算法和随机林,下文对这些算法进行了更详细介绍。
  • 回归用于理解从属变量与独立变量之间的关系 它通常用于预测,例如预测指定业务的销售收入。线性回归逻辑回归和多项式回归是流行的回归算法。

监督式学习算法

监督式学习过程中使用各种算法和计算方法。 下面是对一些最常用学习算法的简单解释,通常是通过使用 R 或 Python 程序计算:

 

神经网络

 

 神经网络 主要利用深度学习算法,通过节点层模拟人脑的互联性来处理训练数据。 每个节点由输入、权重、偏差(或阈值)和输出组成。 如果输出超过给定阈值,就会"触发"(或激活)节点,并将数据传递到网络中的下一层。 神经网络法通过监督学习来学习映射函数,基于损失函数通过梯度下降过程来进行调整。 当成本函数等于或接近于零,我们可以相信模型的准确度,从而得出正确答案。

朴素贝叶斯

 

朴素贝叶斯是采用贝叶斯定理中的类条件独立性定律的分类方法。 这意味着一个特征的存在不影响指定结果概率中另一个特征的存在,并且每个预测变量对该结果具有等效影响。 朴素贝叶斯有三种类型的分类器:多项式朴素贝叶斯、伯努利朴素贝叶斯和高斯朴素贝叶斯。 这种方法主要用于文本分类、垃圾邮件标识和推荐系统。

线性回归

 

线性回归用于识别从属变量与一个或多个独立变量之间的关系,通常用于对未来结果进行预测。 当只有一个独立变量和一个从属变量时,称为简单线性回归。 随着独立变量数量的增加,称为多元线性回归。 每个类型的线性回归都试图绘制一条最佳拟合线,这是通过最小平方方法计算得出的。 但是,不同于其他回归模型,在图形上绘制时,这条线是笔直的。

逻辑回归

 

从属变量为连续时使用线性回归,从属变量为无条件时使用逻辑回归,这意味着它们都使用二进制输出,如“true”和“false”或“yes”和“no”。虽然两个回归模型都试图了解数据输入之间的关系,但逻辑回归主要用于解决二进制分类问题,例如垃圾邮件识别。

支持向量机 (SVM)

 

支持向量机是流行的监督式学习模型,由 Vladimir Vapnik 开发,主要用于数据分类和回归。 也就是说,它通常用于分类问题,构造一个超平面,其中两类数据点保持最大距离。 这种超平面称为决策边界,将数据点类别(例如,橙子和苹果)分隔在平面两端。

K 最近邻算法

 

K 最近邻算法又称 KNN 算法,是一种非参数算法,根据数据点的邻近程度和与其他可用数据的关联程度对数据点进行分类。 这个算法假设相似的数据点可以在彼此的附近找到。 因此,它通常通过欧氏距离计算数据点之间的距离,然后根据出现频率最多的类别或平均值来分配类别。

它容易使用,计算时间短,因此是数据科学家最喜欢的算法,但随着测试数据集的增长,处理时间会延长,因此不太适合分类任务。 KNN 通常用于推荐引擎和图像识别。

随机林

 

随机林是另一种用于分类和回归目的的灵活得监督式机器学习算法。 这里的“林”指的是无关决策树的一个集合,这些决策树合并在一起,以减少差异并产出更准确的数据预测。


无监督、 有监督、半监督学习的对比

人们经常会将无监督机器学习 和监督式机器学习一起讨论。 与监督式学习不同,无监督学习使用未标记的数据。 从这些数据中,它发现能够帮助解决集群或关联问题的模式。 主题专家不确定数据集中的共同属性时,这种方法特别有用。 常见的集群算法是分层、k 均值和高斯混合模型。

如果给定输入数据中只有一部分被标记,就会进行半监督学习。 无监督学习和半监督学习可能是更具吸引力的替代方案,因为依赖领域专业知识为有监督学习恰当标记数据可能既耗时又成本高昂。

要深入了解这些方法之间的差异,请查看"有监督与无监督学习:有什么区别?"


监督式学习示例

监督使学习模型可用于构建和推动一些业务应用,包括:

  • 图像和对象识别: 监督式学习算法可以用于从视频或图像中查找、隔离和分类对象,因此非常适合各种计算机视觉技术和图像分析。
  • 预测分析: 监督式学习模型的一个广泛用例是创建预测性分析系统,为各个业务数据点提供深入洞察。 这使得企业能够根据给定输出变量预测特定结果,帮助企业领导者证明决策的合理性或围绕组织利益做出决策。
  • 客户观点分析: 利用监督式机器学习算法,组织可以从大量数据集中抽取和分类重要信息,包括上下文、情绪和意图,而几乎无需人为干预。 这在更好地了解客户互动时非常有用,可用于改进品牌参与度工作。
  • 垃圾邮件检测: 垃圾邮件检测是另一个监督式学习模型示例。 使用监督式分类算法,组织可以训练数据集识别新数据中的模式或异常,以有效地对垃圾邮件和非垃圾邮件相关的信件分类。

监督式学习面临的挑战

虽然监督式学习可以提供深度数据洞察、改进自动化等业务优势,但构建可持续的监督式学习模型也面临着一些挑战。 以下是其中一些挑战:

  • 监督式学习模型需要一定的专业知识水平才能准确构建。
  • 训练监督式学习模型可能非常耗时。
  • 数据集很有可能存在人为错误,导致算法学习错误。
  • 不同于无监督学习模型,监督式学习不能独自构建数据集群或对集群分类。

监督式学习和 IBM

监督式学习模型是一种非常宝贵的解决方案,可以消除手动分类工作,并根据带有标签的数据做出未来预测。 但是,设计机器学习算法要求具备人类知识和专业技能,以避免数据模型过度拟合。

IBM 及其数据科学和人工智能团队花费了数年时间完善监督式学习模型的开发和部署以及大量业务用例。 借助  IBM Watson Studio on IBM Cloud Pak for Data 等强大工具,组织可以创建高度可扩展的机器学习模型,无论数据位于何处,IBM 强大的混合式多云环境都能提供支持。

有关 IBM 如何帮助您创建自己的监督式机器学习模型的更多信息,请浏览 IBM Watson Studio

 

注册一个 IBMid 并 创建 IBM Cloud 账户


相关解决方案

IBM Watson Studio

在任何云中构建和扩展可信 AI。 针对 ModelOps 实现 AI 生命周期自动化。


Cloud Pak for Data

在适当的时间将适当的数据连接到任何地点的适当人员。


IBM Cloud 解决方案

混合云以及 开放。 永续。 您的数字化转型平台和合作伙伴。