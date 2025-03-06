降维是一种用于机器学习预处理步骤的数据科学技术。6在此过程中，无关数据和冗余数据会被删除，同时保留原始数据集的相关信息。



特征可被视为数据对象的属性。例如，在动物数据集中，您可能会看到一些数值型特征（年龄、身高、体重）和类别型特征（颜色、物种、品种）。特征提取是模型神经网络架构（如卷积神经网络CNN）的一部分。



首先，模型接收输入数据，然后特征提取器将数据转换为数字表示，用于计算特征提取的降维方法。这些表示被存储在特征向量中，供模型执行数据缩减算法。

提取后，有时需要通过特征归一化对数据进行标准化，尤其是在使用某些对变量大小和尺度敏感的算法时（例如基于梯度的下降算法、K 均值聚类）。



根据具体任务的不同，可采用不同的方法以实现特定结果。所有方法都旨在简化数据，同时保留最有价值的信息。



大多数现代 AI 模型执行自动特征提取，但了解处理特征提取的各种方法仍然非常有用。以下是一些常用的维度特征提取方法：

主成分分析 (PCA)：该技术将大型数据集中的特征数量减少至主成分或新特征，供模型的分类器用于其特定任务。



PCA 之所以流行，是因为它能够生成不相关的原始数据，这意味着 PCA 创建的新维度彼此独立。7由于每个特征都是唯一的，避免了数据冗余，使得 PCA 成为解决过拟合问题的有效方案。



线性判别分析 (LDA)：此技术通常用于监督机器学习中，用于分离多个类别和特征，从而解决分类问题。



该技术通常用于优化机器学习模型。新数据点通过贝叶斯统计进行分类，以建立每个类别的数据分布模型。

T-分布式随机近邻嵌入 (t-SNE)：这种机器学习技术通常应用于深度学习中的特征可视化等任务。 8当任务是以二维或三维方式呈现高维数据的可视化效果时，这一点尤其有用。



这通常用于分析数据科学中的模式和关系。由于其非线性特性，t-SNE 的计算成本很高，通常仅用于可视化任务。

词频-逆文档频率 (TF-IDF)：这种统计方法根据词语出现的频率来评估词语的重要性。特定文档中的词频根据该词在集合或语料库中的所有文档中出现的频率加权得出。9



该技术通常用于 NLP 中的分类、聚类和信息检索。Bag of words (BoW) 是一种类似的技术，但它并不考虑词的相关性，而是对所有词一视同仁。