特征提取是一种降低数据的维度或复杂性,以提高机器学习 (ML) 算法的性能和效率的技术。该过程通过将数据集简化为仅包含其重要变量或属性,从而促进 ML 任务并改进数据分析。
人工智能 (AI) 模型的性能取决于其训练数据的质量。机器学习模型需经过预处理,以确保数据采用适合高效模型训练和性能优化的格式。特征提取是预处理工作流中的关键环节。
在提取过程中,非结构化数据被转换为更结构化、更可用的格式,以提升数据质量及模型可解释性。特征提取是特征工程的一个子集,而特征工程是指在原始数据中创建、修改和选择特征以优化模型性能的更广泛过程。
自模式识别的早期研究以来,学者们不断探索新的方法和技术,旨在利用 AI 通过启发式方法提取数据集中最相关的特征。1随着研究的进展,自编码器传统上被用于特征学习的降维。2
当特征或协变量的数量超过独立数据点的数量时,数据处理会变得困难。此类数据被视为高维数据。3特征提取可被视为一种降维技术。4
当处理大型数据集或来自多模态的数据集时,这一点至关重要。模型需要管理的提取特征越多,其熟练程度和性能就越低。5依赖高效特征提取的常见任务包括图像处理、自然语言处理 (NLP) 和信号处理。
降维是一种用于机器学习预处理步骤的数据科学技术。6在此过程中,无关数据和冗余数据会被删除,同时保留原始数据集的相关信息。
特征可被视为数据对象的属性。例如,在动物数据集中,您可能会看到一些数值型特征(年龄、身高、体重)和类别型特征(颜色、物种、品种)。特征提取是模型神经网络架构(如卷积神经网络CNN)的一部分。
首先,模型接收输入数据,然后特征提取器将数据转换为数字表示,用于计算特征提取的降维方法。这些表示被存储在特征向量中,供模型执行数据缩减算法。
提取后,有时需要通过特征归一化对数据进行标准化,尤其是在使用某些对变量大小和尺度敏感的算法时(例如基于梯度的下降算法、K 均值聚类)。
根据具体任务的不同,可采用不同的方法以实现特定结果。所有方法都旨在简化数据,同时保留最有价值的信息。
大多数现代 AI 模型执行自动特征提取,但了解处理特征提取的各种方法仍然非常有用。以下是一些常用的维度特征提取方法:
主成分分析 (PCA):该技术将大型数据集中的特征数量减少至主成分或新特征,供模型的分类器用于其特定任务。
PCA 之所以流行,是因为它能够生成不相关的原始数据,这意味着 PCA 创建的新维度彼此独立。7由于每个特征都是唯一的,避免了数据冗余,使得 PCA 成为解决过拟合问题的有效方案。
线性判别分析 (LDA):此技术通常用于监督机器学习中,用于分离多个类别和特征,从而解决分类问题。
该技术通常用于优化机器学习模型。新数据点通过贝叶斯统计进行分类,以建立每个类别的数据分布模型。
T-分布式随机近邻嵌入 (t-SNE):这种机器学习技术通常应用于深度学习中的特征可视化等任务。 8当任务是以二维或三维方式呈现高维数据的可视化效果时,这一点尤其有用。
这通常用于分析数据科学中的模式和关系。由于其非线性特性,t-SNE 的计算成本很高,通常仅用于可视化任务。
词频-逆文档频率 (TF-IDF):这种统计方法根据词语出现的频率来评估词语的重要性。特定文档中的词频根据该词在集合或语料库中的所有文档中出现的频率加权得出。9
该技术通常用于 NLP 中的分类、聚类和信息检索。Bag of words (BoW) 是一种类似的技术,但它并不考虑词的相关性,而是对所有词一视同仁。
图像处理和计算机视觉:特征提取过程可识别并提取图像和视频的关键特征。原始图像数据(像素)被转化为机器可以应用算法提取和分类一组新特征的特征。例如,定向梯度直方图 (HOG) 是一种用于对象检测的特征提取算法。
自然语言处理:特征提取将原始文本数据转换成机器学习模型可以处理的格式结构。这对于分类、情感分析或命名实体识别 (NER) 等任务非常有用。这项技术可应用于各个行业,包括聊天界面甚至行为健康领域。这项研究表明,特征提取有助于多模态情感识别,从而监测患者的行为健康。10
信号处理:该技术用于从原始信号数据(音频、图像甚至时序数据)中分析和提取有意义的信息,促进分类、检测或预测等任务。虽然信号处理传统上与语音识别、音频处理和图像分析等领域相关,但它也可以应用于许多其他领域。例如在医学环境中,可使用心理信号(例如心电图读数)来检测趋势。11
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1 Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8-30. https://rodsmith.nz/wp-content/uploads/Minsky-steps-towards-artificial-intelligence-1.pdf.
2 Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning (Cambridge, MA: MIT Press, 2016). https://www.deeplearningbook.org/contents/autoencoders.html.
3 Narisetty, Naveen Naidu. "Bayesian model selection for high-dimensional data." In Handbook of statistics, vol. 43, pp. 207-248. Elsevier, 2020. https://www.sciencedirect.com/science/article/abs/pii/S0169716119300380.
4 de-la-Bandera, Isabel, David Palacios, Jessica Mendoza, and Raquel Barco. "Feature extraction for dimensionality reduction in cellular networks performance analysis." Sensors 20, no. 23 (2020): 6944. https://pmc.ncbi.nlm.nih.gov/articles/PMC7730729.
5 https://www.sciencedirect.com/topics/computer-science/feature-extraction.
6 Khalid, Samina, Tehmina Khalil, and Shamila Nasreen. "A survey of feature selection and feature extraction techniques in machine learning." In 2014 science and information conference, pp. 372-378. IEEE, 2014. https://ieeexplore.ieee.org/abstract/document/6918213.
7 Kuhn, Max, and Kjell Johnson. Applied predictive modeling. Vol. 26. New York: Springer, 2013.
8 Zhou, Yuansheng, and Tatyana O. Sharpee. "Using global t-SNE to preserve intercluster data structure." Neural computation 34, no. 8 (2022): 1637-1651. https://pmc.ncbi.nlm.nih.gov/articles/PMC10010455/.
9 Sammut, Claude, and Geoffrey I. Webb, eds. Encyclopedia of machine learning. Springer Science & Business Media, 2011.
10 Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8 30. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.
11 Geetha, A. V., T. Mala, D. Priyanka, and E. Uma. "Multimodal emotion recognition with deep learning: advancements, challenges, and future directions." Information Fusion 105 (2024): 102218. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.