无监督学习
人工智能
Abstract green line, wave, element, isolated on black background illustration
无监督学习

了解无监督学习的工作原理以及如何使用它来发掘和聚类数据

特色产品

Watson Studio

IBM Cloud Pak for Data


什么是无监督学习?

无监督学习也称为无监督机器学习,使用机器学习算法来分析未标签化数据集并形成聚类。 这些算法发现隐藏的模式或数据分组,无需人工干预。 这种方法能够发现信息的相似性和差异,因此是探索性数据分析、交叉销售策略、客户细分和图像识别的理想解决方案。

相关链接

线性回归

逻辑回归

预测性分析


常见的无监督学习方法

无监督学习模型用于三个主要任务:聚类、关联和降维。 下面我们将定义每种学习方法,并重点介绍有效执行这些学习方法的常用算法和途径。

集群

聚类是一种数据挖掘技术,该技术根据未标记数据的相似性或差异性对其进行分组。 聚类算法用于将原始的、未分类的数据对象处理为组,这些组通过信息的结构或模式来表示。 聚类算法可以分为几种类型,特别是独占、重叠、分层和概率。

独占和重叠聚类

独占聚类是一种分组形式,它规定一个数据点只能存在于一个聚类中。 这也可以称为“硬”聚类。 K-means 聚类算法是独占聚类的一个例子。

  • K-means 聚类是独占聚类方法的一个常见示例,其中数据点被分配到 K 个组中,K 表示基于距每个组质心的距离的聚类数。 最接近给定质心的数据点将在同一类别下聚类。 K 值较大指示分组较小,粒度更大,而 K 值较小则表明分组较大,粒度较小。 K-means 聚类常用于市场细分、文档聚类、影像分割和影像压缩。

重叠聚类与独占聚类的不同之处在于,重叠聚类允许数据点属于具有不同隶属程度的多个聚类。 “软”或模糊 k-means 聚类是重叠聚类的一个示例。

层级聚类

层级聚类也称为层级聚类分析 (HCA),这是一种无监督的聚类算法,可以分为两种方式:凝聚和分裂。 凝聚聚类被认为是一种“自下而上的方法”。 凝聚聚类的数据点最初被隔离为单独的分组,然后根据相似性将它们迭代合并在一起,直到实现一个聚类。 通常使用四种不同的方法来衡量相似度:

  1. Ward 连锁: 该方法规定,两个聚类之间的距离定义是聚类合并后平方和的增加值。
  2. 平均连锁:该方法的定义是每个聚类中两点之间的平均距离
  3. 完全(或最大)连锁:此方法的定义是每个聚类中两点之间的最大距离
  4. 单一(或最小)链接:此方法的定义是每个聚类中两点之间的最短距离

欧几里得距离是用于计算这些距离的最常用指标;然而,聚类文献中也会引用曼哈顿距离等其他指标。

分裂聚类的定义方式刚好与凝聚聚类相反;分裂聚类采用“自上而下”的方法。 在这种情况下,将根据数据点之间的差异来划分单个数据聚类。 分裂聚类并不常用,但在层级聚类的上下文中仍然值得注意。 这些聚类过程通常使用谱系图(一种类似树形的图)进行可视化,谱系图记录了每次迭代中数据点的合并或拆分。

概率聚类

概率模型是一种无监督技术,可帮助我们解决密度估计或“软”聚类问题。 在概率聚类中,数据点根据它们属于特定分布的可能性来进行聚类。 高斯混合模型 (GMM) 是最常用的概率聚类方法之一。

  • 高斯混合模型被归类为混合模型,这意味着它们由不确定数量的概率分布函数组成。 GMM 主要用于确定给定数据点属于哪个高斯或正态概率分布。 如果均值或方差已知,我们便可以确定给定数据点属于哪个分布。 但在 GMM 中,这些变量是未知的,因此我们假设存在一个潜在的或隐藏的变量来恰当地对数据点进行聚类。 虽然使用期望最大化 (EM) 算法时不一定需要这个变量,但该变量通常用于估计给定数据点到特定数据集群的分配概率。   

关联规则法

关联规则法是一种基于规则的方法,用于发现给定数据集中各变量之间的关系。 这些方法常用于市场购物篮分析,使企业能够更好地了解不同产品之间的关系。 了解顾客的消费习惯有助于企业制定更好的交叉销售策略和推荐引擎。 这方面的例子可以在亚马逊的“购买此商品的客户也购买了”或 Spotify 的“每周发现”播放列表中看到。 虽然有几种不同的算法用于生成关联规则法,例如 Apriori、Eclat 和 FP-Growth,但 Apriori 算法使用最为广泛。

Apriori 算法

Apriori 算法由于购物篮分析而得到普及,进而产生了面向音乐平台和在线零售商的不同推荐引擎。 这些算法在事务数据集中用于识别频繁出现的项集(也称为项集合),从而确定在已经消费了某种产品的情况下消费另一种产品的可能性。 例如,如果我在 Spotify 上播放 Black Sabbath 的电台,从他们的歌曲“Orchid”开始,这个频道上的其他歌曲之一可能是 Led Zeppelin 的歌曲,例如“Over the Hills and Far Away”。 这是基于我之前的聆听习惯以及其他人的聆听习惯。 Apriori 算法使用哈希树来计算项集,以广度优先的方式浏览数据集。

 

降维

虽然更多的数据通常会产生更准确的结果,但这也会影响机器学习算法的性能(例如过度拟合),并且还会造成数据集可视化的难度提高。 如果在给定数据集中的特征或维度数量过多,便会用到降维这种技术。 降维可将数据输入的数量减少到可管理的大小,同时尽可能地保持数据集的完整性。 通常是在预处理数据阶段使用降维技术,可以采用几种不同的降维方法,例如:

主成分分析

主成分分析 (简称 PCA) 是一种降维算法,用于减少冗余并通过特征提取来压缩数据集。 这种方法使用线性变换来创建新的数据表示,从而产生一组“主成分”。第一个主成分是使数据集方差最大化的方向。 虽然第二个主成分也找到了数据中的最大方差,但它与第一个主成分完全不相关,产生的方向与第一个成分垂直或正交。 这个过程根据维数进行重复,其中下一个主成分是与具有最大方差的先验成分正交的方向。

奇异值分解

奇异值分解(简称 SVD)是另一种降维方法,它将矩阵A 分解为三个低秩矩阵。 SVD 由公式 A = USVT 表示,其中 U 和 V 是正交矩阵。 S 是一个对角矩阵,S 值被认为是矩阵 A 的奇异值。与 PCA 类似,这种方法通常用于降噪和压缩数据,例如影像文件。

自编码器

自编码器利用神经网络来压缩数据,然后重新创建原始数据输入的新表示形式。 查看下图,可以看到隐藏层专门充当瓶颈,以在输出层内重建之前压缩输入层。 从输入层到隐藏层的阶段称为“编码”,而从隐藏层到输出层的阶段称为“解码”。


无监督学习的应用

机器学习技术已成为改善产品用户体验和测试系统质量保证的常用方法。 与手动观察相比,无监督学习提供了探索性的查看数据途径,让企业能够更快地识别大量数据中的模式。 无监督学习在现实世界的一些最常见应用是:

  • 新闻栏目:Google 新闻使用无监督学习对来自各种在线新闻媒体的同一故事的文章进行分类。 例如,可以将总统选举的结果归类到“美国”新闻的标签下。
  • 计算机视觉:无监督学习算法用于视觉感知任务,例如物体识别。  
  • 医学成像:无监督机器学习为医学成像设备提供基本功能,例如图像检测、分类和分割,用于放射学和病理学以快速准确地诊断患者。
  • 异常检测:无监督学习模型可以梳理大量数据并发现数据集中的非典型数据点。 这些异常现象可以提高人们对故障设备、人为错误或安全违例的认知。
  • 客户角色:定义客户角色可以更轻松地了解共同特征和商业客户的购买习惯。 无监督学习使企业能够建立更完善的买家角色档案,让组织能够更恰当地调整自己的产品讯息传达。
  • 建议引擎:无监督学习使用过去的消费行为数据,能够帮助发现可用于制定更有效的交叉销售策略的数据趋势。 这用于在在线零售商的结账流程中向客户提供相关的附加建议。

无监督、 有监督、半监督学习的对比

人们经常会将无监督学习和有监督学习一起讨论。 与无监督学习算法不同的是,有监督学习算法使用标记数据。 有监督学习可以通过这些数据来预测未来的结果,或是根据试图解决的回归或分类问题将数据分配到特定类别。 虽然有监督学习算法往往比无监督学习模型更准确,但有监督学习需要事先人工干预来恰当地标记数据。 然而,这些标记数据集能够让有监督学习算法避免计算复杂性,因为不需要大型训练集就能产生预期结果。 常见的回归和分类技术包括线性和逻辑回归、朴素贝叶斯、KNN 算法和随机森林。

如果给定输入数据中只有一部分被标记,就会进行半监督学习。 无监督学习和半监督学习可能是更具吸引力的替代方案,因为依赖领域专业知识为有监督学习恰当标记数据可能既耗时又成本高昂。

要深入了解这些方法之间的差异,请查看“有监督与无监督学习:有什么区别?


无监督学习的面临的难题

虽然无监督学习有很多好处,但在允许机器学习模型在没有任何人为干预的情况下执行时,可能会遇到一些难题。 其中的一些难题包括:

  • 大量训练数据导致的计算复杂性
  • 训练时间更长
  • 结果不准确的风险较高
  • 人工干预以验证输出变量
  • 对数据聚类的基础缺乏透明度

 


IBM 和无监督学习

处理大量数据时,无监督机器学习模型是强大的工具。 对于希望加速其无人监督机器学习部署的数据科学家和开发人员,IBM Cloud Pak for Data 上的 IBM Watson Studio 提供了一个开源解决方案。 在任何云环境中扩展你的学习模型,并从 IBM 资源和专业知识中受益,从而充分利用你的无监督机器学习模型。

有关 IBM 如何帮助你创建自己的无监督机器学习模型的更多信息,请浏览 IBM Watson Studio

 

注册一个 IBMid 并创建 IBM Cloud 帐户


相关解决方案

IBM Watson Studio

在任何云中构建和扩展可信 AI。 针对 ModelOps 实现 AI 生命周期自动化。


Cloud Pak for Data

在适当的时间将适当的数据连接到任何地点的适当人员。


IBM Cloud 解决方案

混合。 开放。 永续。 您的数字化转型平台和合作伙伴。