无监督学习能够发现信息的相似性和差异性,使其成为探索性数据分析、交叉销售策略、客户细分和图像识别的理想解决方案。
无监督学习模型用于三项主要任务:聚类、关联和降维。下面,我们将定义每种学习方法,并重点介绍常用算法和有效进行学习的方法。
聚类是一种数据挖掘技术,它根据未标记数据的相似性或差异对其进行分组。聚类算法用于将原始的、未分类的数据对象处理成由信息中的结构或模式表示的组。聚类算法可分为几种类型,具体包括排他、重叠、层次和概率型。
层次聚类,也称为层次聚类分析 (HCA),是一种无监督聚类算法,可以通过两种方式进行分类:凝聚式或分裂式。
凝聚聚类被视为“自下而上的方法”。其数据点最初被隔离为单独的分组,然后根据相似性迭代地合并在一起,直到获得一个聚类。通常使用四种不同的方法来衡量相似度:
欧几里得距离是用于计算这些距离的最常见指标;不过,聚类文献中也引用了其他指标,例如曼哈顿距离。
分裂聚类可以定义为凝聚聚类的对立面;它采用“自上而下”的方法。这种情况下,将根据数据点之间的差异分割单个数据聚类。分裂聚类并不常用,但在层次聚类中仍值得注意。这些聚类过程通常使用聚类树图来可视化;聚类树图是一种树状图,记录每次迭代时数据点的合并或分裂。
概率模型是一种无监督技术,可以帮助我们解决密度估计或“软”聚类问题。在概率聚类中,数据点根据其属于特定分布的可能性进行聚类。高斯混合模型 (GMM) 是最常用的概率聚类方法之一。
关联规则是一种基于规则的方法,用于查找给定数据集中的变量之间的关系。这些方法经常用于购物篮分析,使公司能够更好地了解不同产品之间的关系。了解客户的消费习惯使企业能够开发更好的交叉销售策略和推荐引擎。这方面的示例包括 Amazon 的“购买此商品的顾客也购买了”或 Spotify 的“每周发现”播放列表。虽然有几种不同的算法用于生成关联规则(例如 Apriori、Eclat 和 FP-Growth),但 Apriori 算法使用最广泛。
借由购物篮分析,Apriori 算法得到了普及,为音乐平台和在线零售商提供了不同的推荐引擎。它们用于交易数据集中,以识别频繁的项目集或物品集合,以确定在消费一种产品的情况下消费另一种产品的可能性。例如,如果我在 Spotify 上播放 Black Sbbath 的电台,从他们的歌曲“Orchid”开始,这个频道上的其他歌曲可能是 Led Zeppelin 的歌曲,例如“Over the Hills and Far Away”。这是根据我和其他人之前的收听习惯得出的结论。Apriori 算法使用哈希树来计数项目集,以广度优先的方式浏览数据集。
虽然更多数据通常会产生更准确的结果,但它也会影响机器学习算法的性能(例如过拟合),还可能使数据集难以可视化。当给定的数据集中的特征或维度数量过高时,可以使用降维技术。它将数据输入的数量减少到可管理的大小,同时尽可能地保持数据集的完整性。它通常用于数据预处理阶段,有几种不同的降维方法可供选择,例如:
主成分分析 (PCA) 是一种降维算法,用于通过提取特征来减少冗余并压缩数据集。该方法使用线性变换来创建新的数据表示,从而产生一组“主成分”。第一主成分是最大化数据集方差的方向。虽然第二主成分也寻找数据中的最大方差,但它与第一个主成分完全不相关,产生与第一个成分垂直或正交的方向。此过程根据维度数重复,下一个主成分是与具有最大方差的先前成分正交的方向。
奇异值分解 (SVD) 是另一种降维方法,它将矩阵 A 分解为三个低秩矩阵。SVD 可以用公式 A = USVT 表示,其中 U 和 V 是正交矩阵。S 是对角矩阵,S 值被视为矩阵 A 的奇异值。与 PCA 类似,它通常用于减少噪声和压缩数据,例如图像文件。
自编码器充分利用神经网络压缩数据,然后重新创建原始数据输入的新表示形式。从下面的图片可以看到,在输出层内进行重建之前,隐藏层尤其成为压缩输入层的瓶颈。从输入层到隐藏层的阶段被称为“编码”,而从隐藏层到输出层的阶段被称为“解码”。
机器学习技术已成为提升产品用户体验和测试系统以保证质量的常用方法。与人工观察相比,无监督学习提供了一种探索性的数据查看路径,使企业能够更快地识别大量数据中的模式。无监督学习最常见的实际应用包括:
无监督学习和监督学习经常一起讨论。与无监督学习算法不同,监督学习算法使用标记数据。根据这些数据,它要么预测未来的结果,要么根据它试图解决的回归或分类问题,将数据分配到特定类别。
虽然监督学习算法往往比无监督学习模型更准确,但它们需要预先人工干预以适当地标记数据。但是,这些带标签的数据集允许监督学习算法避免计算复杂性,因为它们不需要大型训练集即可产生预期的结果。常见的回归和分类技术包括线性和逻辑回归、朴素贝叶斯、KNN 算法和随机森林。
当给定输入数据中只有一部分被标记时,就会执行半监督学习。无监督和半监督学习可能是更具吸引力的替代方案,因为依靠领域专业知识为监督学习适当标记数据可能既耗时又昂贵。
要深入了解这些方法之间的差异,请查看“监督学习与无监督学习:有什么区别?”。
虽然无监督学习具有很多优点,但当它允许机器学习模型在没有任何人工干预的情况下执行时,可能会出现一些挑战。其中一些挑战可能包括: