监督学习与无监督学习:有何区别?

分形结构看起来像有许多神经末梢的神经突触

作者

Julianna Delua

SME, IBM Analytics, Data Science/Machine Learning

世界正变得越来越“智能”,为了满足消费者的期望,企业越来越多地使用机器学习算法来简化流程。您可以在终端用户设备中看到它们的应用(例如通过面部识别解锁智能手机)或用于检测信用卡欺诈(例如触发异常购买警报)。

人工智能 (AI) 和机器学习领域,有两种基本方法:监督学习和无监督学习。主要区别在于,一种方法使用标记数据来帮助预测结果,而另一种方法则不使用该方式。然而,这两种方法之间存在一些细微差别,并且在某些关键领域,一种方法优于另一种方法。本篇文章将阐明其中的差异,以便您根据自身情况选择最佳方法。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

什么是监督学习?

监督学习是一种机器学习方法,其特点是使用带标记的数据集。这些数据集旨在训练或“监督”算法,以准确分类数据或预测结果。使用标记的输入和输出,该模型可以衡量其准确性并随时间推移进行学习。

在进行数据挖掘时,监督学习可以分为两类问题:分类和回归。

  • 分类问题使用算法将测试数据准确地分配到特定类别中,例如将苹果和橘子分开。或者,在现实世界中,监督学习算法可用于将垃圾邮件分类到收件箱之外的单独文件夹中。线性分类器、支持向量机、决策树和随机森林都是常见的分类算法类型。

  • 回归是另一种监督学习方法,它使用算法来理解因变量和自变量之间的关系。回归模型有助于根据不同的数据点预测数值,例如对特定企业的销售收入进行预测。一些常用的回归算法有线性回归、逻辑回归和多项式回归。
AI 学院

让 AI 服务于客户服务

了解生成式 AI 如何提供更加无缝、令人满意的客户体验,并在以下三个关键领域提高组织的工作效率:自助服务、人工客服和联络中心运营。

什么是无监督学习?

无监督学习利用机器学习算法来分析和聚类未标记的数据集。这些算法无需人工干预,即可发现数据中隐藏的模式(因此,它们是“无监督的”)。

无监督学习模型用于三项主要任务:聚类、关联和降维。

  • 聚类是一种数据挖掘技术,它根据未标记数据的相似性或差异对其进行分组。例如,K 均值聚类算法将相似的数据点分配到不同的簇中,其中 K 值代表簇的大小和粒度。这种技术有助于市场细分、图像压缩等。

  • 关联是另一种无监督学习方法,它使用不同的规则来查找给定数据集中变量之间的关系。这些方法常用于市场篮分析和推荐引擎,类似于“购买此商品的客户也购买了”推荐。

  • 降维是一种学习技术,用于处理给定数据集中的特征(或维度)数量过高的情况。它将数据输入数量减少到可管理的大小,同时保持数据完整性。这种技术通常用于预处理数据阶段,例如,当自编码器从视觉数据中消除噪声以提高图片质量时。

主要区别:标记数据

这两种方法之间的主要区别在于标记数据集的使用。简单来说,监督学习使用带标记的输入和输出数据,而无监督学习算法则不使用。

在监督学习中,算法通过迭代对数据进行预测并调整正确答案,从而从训练数据集中“学习”。虽然监督学习模型往往比无监督学习模型更准确,但它们需要预先人工干预以适当地标记数据。例如,监督学习模型可以根据一天中的时间、天气状况等因素预测通勤时间。但是首先,您必须训练它,让它知道雨天天气会延长驾驶时间。

相比之下,无监督学习模型会自行发现无标记数据的内在结构。请注意,它们仍然需要某些人工干预来验证输出变量。例如,无监督学习模型可以识别在线购物者经常同时购买多组产品的情况。然而,数据分析师需要验证推荐引擎将婴儿服装与尿布、苹果酱和吸管杯的订单归为一类是否合理。

其他主要区别

  • 目标:在监督学习中,目标是预测新数据的结果。您事先就知道会得到什么样的结果。使用无监督学习算法,目标是从大量新数据中获得洞察分析。机器学习本身会判断数据集中哪些内容与众不同或有趣。

  • 应用:监督学习模型非常适合垃圾邮件检测、情绪分析、天气预测和价格预测等。相比之下,无监督学习非常适合异常检测、推荐引擎、客户画像和医学成像。

  • 复杂性:监督学习是一种简单的机器学习方法,通常使用 R 或 Python 等程序进行计算。在无监督学习中,您需要强大的工具来处理大量未分类的数据。无监督学习模型的计算复杂度很高,因为它们需要大量的训练集才能产生预期的结果。

  • 缺点:监督学习模型的训练可能很耗时,而且输入和输出变量的标记需要专业知识。同时,除非有人干预来验证输出变量,否则无监督学习方法可能会产生非常不准确的结果。

监督学习与无监督学习:哪种最适合您?

选择适合您情况的正确方法取决于您的数据科学家如何评估您的数据结构和规模以及用例。为了做出决定,请务必执行以下操作:

  • 评估您的输入数据:带标记的数据,还是不带标记的数据?您是否有专家可以支持额外标记?

  • 确定目标:您是否有一个反复出现、定义明确的问题需要解决?算法是否需要预测新问题?

  • 检查算法选项:是否存在与您所需维度(特征、属性或特性的数量)相同的算法?它们能否支持您的数据量和结构?

在监督学习中,对大数据进行分类可能是一项真正的挑战,但结果却非常准确可靠。相比之下,无监督学习可以实时处理大量数据。但是,数据的聚类方式缺乏透明度,结果不准确的风险更高。这就是半监督学习的作用所在。

半监督学习:两全其美

无法决定使用监督学习还是无监督学习?半监督学习是一种令人满意的学习方法,它使用的训练数据集既有标记数据,也有未标记数据。当难以从数据中提取相关功能,以及在拥有大量数据时,它特别有用。

半监督学习非常适合医学图像,因为少量的训练数据可以显著提高准确性。例如,放射科医生可以标记一小部分 CT 扫描图像中的肿瘤或疾病,以便机器能够更准确地预测哪些患者可能需要更多的医疗护理。

详细了解监督学习和无监督学习

机器学习模型是获取洞察分析、改善我们世界的强大工具。详细了解监督学习和非监督学习中使用的具体算法,我们鼓励您深入阅读 Learn Hub 上有关这些技术的文章。我们还建议您查看这篇博客文章,它更进一步,详细介绍了深度学习和神经网络。

 

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示