机器学习中的分类是一种预测建模过程,其中机器学习模型使用分类算法来预测输入数据的正确标签。
分类模型是一种机器学习模型,它将数据点划分为称为类的预定义组。分类器从输入数据中学习各类的特征,然后根据这些学到的特征将可能的类别分配给新的未见数据。1
虽然没有两个机器学习分类算法完全相同,但它们都遵循相同的一般两步数据分类流程:
分类传统上是一种监督式机器学习,这意味着它使用带标签的数据来训练模型。在监督学习中,训练数据中的每个数据点都包含输入变量(也称为自变量或特征)和输出变量或标签。
在分类训练中,模型的任务是理解特征与类标签之间的关系,然后将这些标准应用于未来的数据集。分类模型使用每个数据点的特征及其类标签来解读每个类的特征。用数学术语来说,该模型将每个数据点视为一个元组 x。元组是一种有序的数值序列,表示为 x = (x1, x2, x3…xn)。
元组中的每个值都是数据点的特征。通过使用该方程对训练数据进行映射,模型能够学习哪些特征与每个类标签相关联。
训练的目的是尽量减少预测建模过程中的误差。梯度下降算法通过最小化预测结果与实际结果之间的差异来训练模型。之后模型可以通过更多训练进行微调,以执行更具体的任务。
无监督学习方法在分类问题上一直是近期研究的重点。无监督学习方法使模型能够自主发现未标记数据中的模式。标签的缺失是无监督学习与监督学习的主要区别。
同时,半监督学习结合标记数据和未标记数据,用于训练模型以进行分类和回归。在无法获得大量标记数据集的情况下,半监督学习是一种可行的替代方法。
基于分类的预测建模任务可根据类别数量以及类别的排他程度进行区分:
二分类将数据划分为两个互斥的类别。
多类分类将数据划分为两个以上的互斥类别。
多标签分类将数据分成若干个非互斥的类别。
不平衡分类指各类别中的数据点分布不均。
多类分类问题对数据进行分类,类标签超过两个,且各类别互相排斥。因此,多类分类问题与二分类任务类似,只是类更多。
多类分类模型在现实世界中有许多应用场景。除了判断电子邮件是否为垃圾邮件之外,多类分类解决方案还可以判断电子邮件是促销邮件还是高优先级邮件。图像分类器可能会使用多种类标签对宠物图片进行分类,例如狗、猫、羊驼、鸭嘴兽等。
多类分类学习方法的目标是训练模型能够将输入数据准确分配到更广泛的可能类别中。多类分类训练中常用的目标函数是类别交叉熵损失,它用于评估模型对测试数据的预测结果与每个数据点的正确标签之间的差距。
多标签分类用于每个数据点可以被分配多个非排他性标签的情况。与基于排他性的分类类型不同,多标签分类允许数据点同时具备多个类别的特征,更贴近大数据集合中现实世界的不确定性。
多标签分类任务通常通过结合多个二分类或多分类模型的预测结果来完成。
不平衡分类,即某些类别的数据点比其他类别多,需要采用专门的方法。随着某些组的数据点增多,部分分类模型会对这些组产生偏向,并越来越倾向于预测有利于它们的结果。
应对措施包括:配置算法以更重视错误预测的代价,或使用采样方法,删除多数类样本或对少数类样本进行过采样。
预测模型输出两种类型的预测结果:
离散预测能够明确地将数据划分成不同的类别。
连续预测根据概率分配类别。
离散预测是每个数据点的预测类标签。例如,医疗预测器可以根据健康数据将患者分类为糖尿病患者或非糖尿病患者。糖尿病 和非糖尿病 是离散分类预测。
连续分类器将类预测分配为称为置信度分数的连续概率。这些概率是介于 0 和 1 之间的值,表示百分比。糖尿病预测模型可能会以 0.82 的概率将某位患者分类为糖尿病患者。该模型认为,患者患糖尿病的几率为 82%。
研究人员通常在使用连续预测作为阈值的同时使用离散预测来评估模型。分类器会忽略某个阈值以下的任何预测。如果我们的糖尿病预测器的阈值为 0.4 (40%),而某位患者被预测为糖尿病的概率为 0.35 (35%),那么模型将忽略该标签,不会将该患者归入糖尿病患者类别。3
分类和回归的区别在于,分类预测数据点的类别,而回归预测相关的实际数值。分类和回归都是预测建模的类型,但具有不同的用例。
分类模型将数据点归入不同的类别。分类就是训练一个深度学习模型,让它学会如何将数据点分类。
回归模型考虑各种数据点来预测另一个变量的连续数值。例如,职场中的回归模型可以根据员工的年龄、工作经验、所在地及教育背景来预测其薪资水平。
在实践中,这两者往往密切相关。例如,逻辑回归算法使用回归来完成分类任务。
有许多不同类型的分类算法。尽管它们有重叠的用例,但有些比其他用例更适合特定的应用。一些最常用的分类算法包括:
逻辑回归
决策树
随机森林
支持向量机(SVM)
K 最近邻
朴素贝叶斯
通过使用 scikit-learn 库,许多这样的算法都可以轻松地在 Python 中实现。与此同时,集成学习方法与转换器模型等新兴技术也正被应用于分类任务领域。
逻辑回归模型用于多变量回归问题中的二分类:在考虑多个变量时,数据点属于哪一类?常见应用是欺诈检测和生物医学预测。例如,逻辑回归已被用于帮助预测创伤和冠心病引发的患者死亡率。5
可用于分类和回归,决策树通过一系列二分类判断,将数据集逐步拆分为更小的子集。由此生成的结构类似于一棵树,从初始判断向外分支,延伸至后续的叶子节点或分支节点。
决策树类似流程图的特性使其成为商业用户较容易理解的模型之一。易于可视化,决策树通过清晰地展示用于分类数据的决策流程和标准,为分类过程带来了透明性。
随机森林是一种将多个决策树的输出组合成一个结果的集成技术。由此产生的“森林”在提高预测准确性的同时,还能有效抵御过拟合,相较于单棵决策树表现更优。与决策树类似,随机森林同样可以处理分类和回归任务。
随机森林算法为每个任务创建多个决策树,聚合所有决策树的预测,然后选择最受欢迎的答案作为最终结果。每棵树都考虑数据功能的随机子集,有助于确保树之间的低相关性。
支持向量机 (SVM) 算法将数据点绘制到多维空间中,维度的数量对应于数据中的特征数量。该算法的目标是寻找最佳分割线,也称为超平面或决策边界,以将数据点最佳地划分为不同类别。
最优超平面是具有最大间隔的超平面,即超平面与每个类别中最近数据点之间的距离。这些靠近超平面的数据点称为支持向量。通过超平面分隔数据的模型属于线性模型,但 SVM 算法也能处理更复杂数据集中的非线性分类任务。
逻辑回归、决策树、随机森林和 SVM 算法都是主动学习器的例子:这些算法会从训练数据构建模型,然后将该模型用于未来的预测。训练需要更长的时间,但在算法构建一个好的模型后,预测会更快。
K 最近邻 (KNN) 算法会将数据点映射到多维空间。然后,它将具有相似特征值的数据点分组到单独的组或类中。为了对新的数据样本进行分类,分类器会查看与新数据点最近的 k 个点,统计这些邻近点中每个类别的数量,并将该比例作为新数据点的类别预测。
换句话说,该模型将新数据点分配给包含该点的大多数相邻点的类。KNN 模型属于惰性学习器:这类算法不会立即从训练数据构建模型,而是直接参考训练数据,将新数据与之进行比较。与主动学习器相比,这类模型通常需要更长的时间来进行预测。
KNN 模型通常将数据点之间的距离与欧几里得距离进行比较:6
朴素贝叶斯是一种生成式分类器。通过使用观测值的变量值,贝叶斯分类器计算哪个类最有可能生成观测值。
自然语言处理 (NLP) 研究人员已广泛将朴素贝叶斯应用于情感分析等文本分类任务。使用 bag of words 模型(每个词作为一个变量),朴素贝叶斯分类器可以预测文本是由正类还是负类生成的。9
集成方法和机器学习技术将多个较小的模型组合成一个分类器,以提高预测效果。深度集成方法将多个深度学习模型组合在一起,以创建更强大的集成分类器。结合深度学习的集成方法能够处理复杂的多标签分类任务。
梯度提升是一种集成方法,被证明能够提高预测准确性。它是一种提升技术,即一种集成方法,其中多个弱学习器按顺序相互学习,每次迭代都能改进结果。
虽然通常用于自然语言处理任务,转换器模型也被应用于分类问题。转换器模型(例如 GPT 和 Claude)使用自注意力机制来关注输入数据集中最相关的部分。位置编码用于向模型传达序列中每个数据点的位置。
研究人员和开发者会根据具体的分类任务选择相应的评估指标。所有这些指标都用于衡量学习器或分类器对模型类别的预测准确度。
一些最常用的评估指标包括:
真阳性 (TP) 是指模型在相应类别中正确预测的那些数据样本。假阳性 (FP) 是指那些被错误识别为阳性的阴性类实例。假阴性 (FN) 是指被错误地预测为阴性的实际阳性实例。真阴性 (TN) 是指被模型准确归类为阴性的实际阴性类实例。
准确性是数据集中真正例数与所有预测总数的比值。它衡量机器学习模型正确预测结果的频率,在此例中,即正确预测数据点所属的类别。
准确性提供了模型性能的总体概览,但无法显示模型是否在预测某些类别时优于其他类别。在数据集高度不平衡的情况下,仅关注准确率可能导致模型忽略较小的类别,将所有预测都归为多数类。在这种情况下,整体准确率仍然会很高。
如果垃圾邮件过滤器的大多数猜测都是正确的,即使它错过了大多数实际的垃圾电子邮件,它也会具有很高的准确性。
精度或正预测值 (PPV) 表示在模型预测为正类的样本中,实际属于该类别的样本所占的比例。精确率能够显示模型是否正确预测了目标类别,因此在类别不平衡的分类任务或误报代价较高的情况下非常有用。
在垃圾邮件过滤器中,精确度显示的是检测到的垃圾邮件中有多少是真正的垃圾邮件。错误地将数据分类为误报的模型精度较低,而误报较少的模型精度较高。10
也称为敏感性 或真正率 (TPR),表示模型检测到的类实例的百分比。召回率显示模型在数据集中检测出目标类别样本的频率。对于垃圾邮件过滤器,召回率显示模型识别为垃圾邮件的实际垃圾邮件的比例。11
精确率和召回率呈反比关系。随着分类器通过提升真正例数量来提高召回率,它也可能将非目标实例错误归类,产生假正例,进而降低精确率。F1 分数通过结合精确率和召回率来解决这一权衡,用以表示模型在各类别上的整体准确性。12
数据可视化工具有助于阐明数据分析的结果。数据科学家和机器学习研究人员使用两个主要工具来可视化分类器性能:
混淆矩阵是一张显示预测值与真实值对照的表格。
ROC 曲线是一种描绘真正例与假正例比例的图表。
受试者工作特征 (ROC) 曲线用于可视化真正与真负的比例。图中绘制了模型分类中使用的每个阈值的真正率与真负率的对比情况。曲线下面积 (AUC) 统计数据源自 ROC 曲线。
AUC 衡量的是:随机选取的一个正例比随机选取的一个负例具有更高置信度得分的概率。AUC 的值范围为 0 到 1。分数为 0 表示模型给所有负样本的评分都高于正样本,而分数为 1 表示模型给每个正样本的评分都高于负样本。14
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1. Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
2. Jaiwei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012.
3. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
4. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023
5. Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs, and Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016, pp. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590
6. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.
7. Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024, pp. 1−51, https://www.jmlr.org/papers/v25/23-0286.html
8. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad and James Curran, Introduction to Bayesian Statistics, 3rd edition, Wiley, 2016.
9. Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023.
10. Ethan Zhang and Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.
11. Ethan Zhang and Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.
12. Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.
13. Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
14. Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.