什么是监督学习？| IBM

主页

topics

supervised learning

什么是监督学习？

使用 watsonx.ai 应用监督学习

订阅 AI 最新消息

包含云朵、饼图、象征符号图形的拼贴插图

什么是监督学习？

监督学习，也称为监督机式器学习，是机器学习和人工智能的一个子类别。它的定义是使用标记的数据集来训练算法，以准确分类数据或预测结果。

当输入数据进入到模型中时，该方式会调整数据权重，直到模型得到适当的拟合，这是交叉验证过程的一部分。监督学习可帮助组织大规模解决各种实际问题，例如将垃圾邮件分类到收件箱之外的其他文件夹中。它可用于构建高度准确的机器学习模型。

为什么 AI 治理是扩展企业 AI 的当务之急

了解采用 AI 的障碍，特别是缺乏 AI 治理和风险管理解决方案。

相关内容

立即注册，获取 IDC 报告

开启 AI 之旅

了解如何扩展 AI

深入了解 AI Academy

监督学习如何运作

监督学习使用训练集来教导模型以产生所需的输出。该训练数据集包括输入和正确的输出，可支持模型长期进行学习。此算法通过损失函数来评估其准确性，并进行调整，直到误差充分最小化。

在进行数据挖掘时，监督学习可以分为两类问题：分类和回归。

分类使用算法将测试数据准确分配到特定类别。它可识别数据集中的特定实体，并尝试就如何标记或定义这些实体得出一些结论。常见的分类算法有线性分类器、支持向量机 (SVM)、决策树、K 最近邻和随机森林，下面将做详细介绍。
回归用于理解因变量和自变量之间的关系。其通常用于进行预测，例如指定业务的销售收入。线性回归、逻辑回归和多元回归是流行的回归算法。

监督学习算法

监督式机器学习过程中使用了各种算法和计算技术。以下是一些最常用的学习方法的简要说明，这些方法通常通过使用 R 或 Python 等程序进行计算：

神经网络：主要用于深度学习算法，神经网络通过节点层来模仿人脑的互连性，进而处理输入训练数据。每个节点由输入、权重、偏差（或阈值）和输出组成。如果该输出值超过给定阈值，将“触发”或激活节点，并将数据传递到网络中的下一层。神经网络通过监督学习来学习此映射函数，并通过梯度下降过程，基于损失函数执行调整。当成本函数为零或接近零时，我们可以确信该模型准确度足以获得正确答案。
朴素贝叶斯：朴素贝叶斯分类方法采用类条件独立原则，该原则来自贝叶斯定理。这意味着在给定结果的概率中，一个特征的存在不会影响另一个特征的存在，并且每个预测变量对该结果具有相同的影响。朴素贝叶斯分类器分为三种类型：多元朴素贝叶斯、伯努利朴素贝叶斯和高斯朴素贝叶斯。这种技术主要用于文本分类、垃圾邮件识别和推荐系统。
线性回归：线性回归用于识别因变量与一个或多个自变量之间的关系，通常用于预测未来结果。当只有一个自变量和一个因变量时，称为简单线性回归。若自变量数量的增加，它被称为多元线性回归。每种类型的线性回归都会试图绘制一条最佳拟合线，该线使用最小二乘法计算。但是，与其他回归模型不同，在图形上绘制时，这条线是直线。
逻辑回归：当因变量为连续变量时，采用线性回归；当因变量为分类变量时（即存在二元输出，例如“真”和“假”或“是”和“否”），采用逻辑回归。虽然这两种回归模型都试图理解数据输入之间的关系，但逻辑回归主要用于解决二元分类问题，例如垃圾邮件识别。
支持向量机 (SVM)：支持向量机是由 Vladimir Vapnik 开发的一种流行的监督学习模型，用于数据分类和回归。也就是说，它通常用于分类问题，构建一个两类数据点之间的距离最大的超平面。这个超平面被称为决策边界，将平面两侧的数据点类别（例如，橙子与苹果）分开。
K 最近邻：K 最近邻算法又称 KNN 算法，是一种非参数算法，它根据数据点与其他可用数据的接近程度和关联性对数据点进行分类。这种算法假定相似的数据点可以在彼此附近找到。因此，此算法试图计算数据点之间的距离（通常通过欧几里德距离计算），然后根据最常见的类别或平均值来指定类别。它易于使用且计算时间短，使其成为数据科学家的首选算法，但随着测试数据集的增长，处理时间也会延长，从而使其对分类任务的吸引力降低。KNN 通常用于推荐引擎和图像识别。
随机森林：随机森林是另一种灵活的监督式机器学习算法，可用于分类和回归。“森林”引用了一组不相关的决策树，然后将它们合并在一起以降低变化幅度，并创建更准确的数据预测。

无监督学习、监督学习与半监督学习

无监督式机器学习和监督式机器学习经常被一起讨论。与监督学习不同，无监督学习使用未标记的数据。从这些数据中，它发现有助于解决聚类或关联问题的模式。当主题专家不确定数据集中的共同属性时，这尤其有用。常见的聚类算法有层次模型、k 均值模型和高斯混合模型。

当给定输入数据中只有一部分被标记时，就会执行半监督学习。无监督和半监督学习可能是更具吸引力的替代方案，因为依靠领域专业知识为监督学习适当标记数据可能既耗时又昂贵。

要深入了解这些方法之间的差异，请查看“监督学习与无监督学习：有什么区别？”

监督学习示例

监督学习模型可用于构建和推进许多业务应用，包括：

图像和物体识别：监督学习算法可用于定位、隔离和分类视频或图像中的对象，使其在应用于各种计算机视觉技术和图像分析时非常有用。
预测分析：监督学习模型的一个广泛用例是创建预测分析系统，以提供对各种业务数据点的深入见解。这使企业能够根据给定的输出变量预测某些结果，帮助企业领导者证明决策的合理性或为组织的利益而进行调整。
客户情绪分析：使用监督式机器学习算法，组织可以从大量数据（包括背景、情感和意图）中提取和分类重要信息，而几乎无需人工干预。这在更好地了解客户互动时非常有用，并可用于改善品牌参与工作。
垃圾邮件检测：垃圾邮件检测是监督学习模型的另一个例子。使用监督分类算法，组织可以训练数据库识别新数据中的模式或异常，以有效地组织垃圾邮件和非垃圾邮件相关的通信。

监督学习的挑战

尽管监督学习可以为企业提供优势，例如深入的数据洞察和改进的自动化流程，但在构建可持续的监督学习模型时仍存在一些挑战。以下是其中一些挑战：

监督学习模型可能需要一定程度的专业知识才能准确构建。
训练监督学习模型可能非常耗时。
数据集可能更容易出现人为错误，导致算法学习错误。
与无监督学习模型不同，监督学习不能自行对数据进行聚类或分类。

相关解决方案

IBM Watson Studio

在任何云端构建和扩展可信 AI。实现 ModelOps 的 AI 生命周期自动化。

深入了解 IBM Watson Studio

IBM Cloud Pak for Data

在正确的时间将正确的数据提供给某处的适当人员。

深入了解 Cloud Pak for Data

IBM Cloud 解决方案

混合。开放。弹性。您的数字化转型平台与合作伙伴。

深入了解云解决方案

资源

生成式 AI 技术的免费实践学习

了解 AI 和生成式 AI 的基本概念，包括提示工程、大型语言模型和最佳开源项目。

监督学习与无监督学习：有何区别？

在本文中，我们将深入了解两种数据科学方法的基础知识：监督和非监督学习。

监督学习模型

深入了解一些监督学习方法，例如支持向量机和概率分类器

采取后续步骤

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai

预约实时演示