什么是机器学习中的分类?

作者

Ivan Belcic

Staff writer

什么是机器学习中的分类?

机器学习中的分类是一种预测建模过程,其中机器学习模型使用分类算法来预测输入数据的正确标签。

随着 AI 模型学习分析和分类训练数据集中的数据,它们在识别各种数据类型、发现趋势以及做出更准确预测方面变得更加熟练。

在模型训练过程结束时,通过使用测试数据来评估模型的性能。在模型表现稳定良好之后,它将被应用于未见过的真实世界数据。经过训练的神经网络将训练中学到的知识应用于新数据,从而做出准确的预测。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

什么是分类模型?

分类模型是一种机器学习模型,它将数据点划分为称为类的预定义组。分类器从输入数据中学习各类的特征,然后根据这些学到的特征将可能的类别分配给新的未见数据。1

AI 学院

让 AI 服务于客户服务

了解生成式 AI 如何提供更加无缝、令人满意的客户体验,并在以下三个关键领域提高组织的工作效率:自助服务、人工客服和联络中心运营。

什么是分类算法

分类算法是一种以分类为中心的机器学习算法,它将输入数据分类到不同的类别中。人工智能 (AI) 模型使用分类算法处理输入数据集,并依据指定的分类器设定的数据排序标准进行分类。分类算法在数据科学中被广泛用于预测模式和预测结果。

分类模型如何工作

虽然没有两个机器学习分类算法完全相同,但它们都遵循相同的一般两步数据分类流程:

  1. 学习
  2. 分类

第 1 步:学习

分类传统上是一种监督式机器学习,这意味着它使用带标签的数据来训练模型。在监督学习中,训练数据中的每个数据点都包含输入变量(也称为自变量或特征)和输出变量或标签。

在分类训练中,模型的任务是理解特征与类标签之间的关系,然后将这些标准应用于未来的数据集。分类模型使用每个数据点的特征及其类标签来解读每个类的特征。用数学术语来说,该模型将每个数据点视为一个元组 x。元组是一种有序的数值序列,表示为 x = (x1, x2, x3…xn)

元组中的每个值都是数据点的特征。通过使用该方程对训练数据进行映射,模型能够学习哪些特征与每个类标签相关联。

训练的目的是尽量减少预测建模过程中的误差。梯度下降算法通过最小化预测结果与实际结果之间的差异来训练模型。之后模型可以通过更多训练进行微调,以执行更具体的任务。

无监督学习方法在分类问题上一直是近期研究的重点。无监督学习方法使模型能够自主发现未标记数据中的模式。标签的缺失是无监督学习与监督学习的主要区别。

同时,半监督学习结合标记数据和未标记数据,用于训练模型以进行分类和回归。在无法获得大量标记数据集的情况下,半监督学习是一种可行的替代方法。

第 2 步:分类

分类任务的第二步是分类本身。在此阶段,用户在新数据测试集上部署模型。之前未使用的数据用于评估模型性能,以避免过拟合:当模型过度依赖训练数据,导致在真实环境中无法做出准确预测时。

模型利用其学到的预测函数,根据每个样本的特征将新数据分类到不同的类别中。随后,用户根据正确预测的测试数据样本数量来评估模型的准确性。2

有哪些类型的分类?

基于分类的预测建模任务可根据类别数量以及类别的排他程度进行区分:

  • 二分类将数据划分为两个互斥的类别。

  • 多类分类将数据划分为两个以上的互斥类别。

  • 多标签分类将数据分成若干个非互斥的类别。

  • 不平衡分类指各类别中的数据点分布不均。

二元分类

在二分类问题中,模型预测数据属于两个类别中的哪一个。在训练过程中应用的学习技术使模型评估训练数据中的特征,并预测每个数据点适用的两个可能标签之一:正或负、真或假、是或否。

例如,垃圾邮件过滤器将电子邮件分类为垃圾邮件非垃圾邮件。除了垃圾邮件检测之外,二分类模型还能作为可靠的行为预测工具:潜在客户会流失还是会购买某种产品?它们在自然语言处理 (NLP)、情感分析、图像分类以及欺诈检测中也非常有用。

多类分类

多类分类问题对数据进行分类,类标签超过两个,且各类别互相排斥。因此,多类分类问题与二分类任务类似,只是类更多。

多类分类模型在现实世界中有许多应用场景。除了判断电子邮件是否为垃圾邮件之外,多类分类解决方案还可以判断电子邮件是促销邮件还是高优先级邮件。图像分类器可能会使用多种类标签对宠物图片进行分类,例如羊驼鸭嘴兽等。

多类分类学习方法的目标是训练模型能够将输入数据准确分配到更广泛的可能类别中。多类分类训练中常用的目标函数是类别交叉熵损失,它用于评估模型对测试数据的预测结果与每个数据点的正确标签之间的差距。

多标签分类

多标签分类用于每个数据点可以被分配多个非排他性标签的情况。与基于排他性的分类类型不同,多标签分类允许数据点同时具备多个类别的特征,更贴近大数据集合中现实世界的不确定性。

多标签分类任务通常通过结合多个二分类或多分类模型的预测结果来完成。

分类不平衡

不平衡分类,即某些类别的数据点比其他类别多,需要采用专门的方法。随着某些组的数据点增多,部分分类模型会对这些组产生偏向,并越来越倾向于预测有利于它们的结果。

应对措施包括:配置算法以更重视错误预测的代价,或使用采样方法,删除多数类样本或对少数类样本进行过采样。

离散和连续预测

预测模型输出两种类型的预测结果:

  • 离散预测能够明确地将数据划分成不同的类别。

  • 连续预测根据概率分配类别。

离散预测

离散预测是每个数据点的预测类标签。例如,医疗预测器可以根据健康数据将患者分类为糖尿病患者非糖尿病患者糖尿病非糖尿病 是离散分类预测。

连续预测

连续分类器将类预测分配为称为置信度分数的连续概率。这些概率是介于 0 和 1 之间的值,表示百分比。糖尿病预测模型可能会以 0.82 的概率将某位患者分类为糖尿病患者。该模型认为,患者患糖尿病的几率为 82%。

研究人员通常在使用连续预测作为阈值的同时使用离散预测来评估模型。分类器会忽略某个阈值以下的任何预测。如果我们的糖尿病预测器的阈值为 0.4 (40%),而某位患者被预测为糖尿病的概率为 0.35 (35%),那么模型将忽略该标签,不会将该患者归入糖尿病患者类别。3

分类与回归

分类和回归的区别在于,分类预测数据点的类别,而回归预测相关的实际数值。分类和回归都是预测建模的类型,但具有不同的用例。

分类模型将数据点归入不同的类别。分类就是训练一个深度学习模型,让它学会如何将数据点分类。

回归模型考虑各种数据点来预测另一个变量的连续数值。例如,职场中的回归模型可以根据员工的年龄、工作经验、所在地及教育背景来预测其薪资水平。

在实践中,这两者往往密切相关。例如,逻辑回归算法使用回归来完成分类任务。

分类算法类型

有许多不同类型的分类算法。尽管它们有重叠的用例,但有些比其他用例更适合特定的应用。一些最常用的分类算法包括:

  • 逻辑回归

  • 决策树

  • 随机森林

  • 支持向量机(SVM)

  • K 最近邻

  • 朴素贝叶斯

通过使用 scikit-learn 库,许多这样的算法都可以轻松地在 Python 中实现。与此同时,集成学习方法与转换器模型等新兴技术也正被应用于分类任务领域。

逻辑回归

逻辑回归算法常用于执行分类任务。逻辑回归是从线性回归模型派生的概率分类器。线性回归使用一个或多个自变量来预测自变量的值。该值可以是任何连续的有理数。

逻辑回归是对线性回归的修改,例如将输出值(或自变量)限制为 0 到 1 之间的任何值。其方法是对标准线性回归公式应用 logit(也称为 log odds)转换:4

逻辑回归的 logit 方程

逻辑回归模型用于多变量回归问题中的二分类:在考虑多个变量时,数据点属于哪一类?常见应用是欺诈检测和生物医学预测。例如,逻辑回归已被用于帮助预测创伤和冠心病引发的患者死亡率。5

决策树

可用于分类和回归,决策树通过一系列二分类判断,将数据集逐步拆分为更小的子集。由此生成的结构类似于一棵树,从初始判断向外分支,延伸至后续的叶子节点或分支节点。

决策树算法示意图

决策树类似流程图的特性使其成为商业用户较容易理解的模型之一。易于可视化,决策树通过清晰地展示用于分类数据的决策流程和标准,为分类过程带来了透明性。

随机森林

随机森林是一种将多个决策树的输出组合成一个结果的集成技术。由此产生的“森林”在提高预测准确性的同时,还能有效抵御过拟合,相较于单棵决策树表现更优。与决策树类似,随机森林同样可以处理分类和回归任务。

随机森林算法示意图

随机森林算法为每个任务创建多个决策树,聚合所有决策树的预测,然后选择最受欢迎的答案作为最终结果。每棵树都考虑数据功能的随机子集,有助于确保树之间的低相关性。

支持向量机 (SVM)

支持向量机 (SVM) 算法将数据点绘制到多维空间中,维度的数量对应于数据中的特征数量。该算法的目标是寻找最佳分割线,也称为超平面或决策边界,以将数据点最佳地划分为不同类别。

最优超平面是具有最大间隔的超平面,即超平面与每个类别中最近数据点之间的距离。这些靠近超平面的数据点称为支持向量。通过超平面分隔数据的模型属于线性模型,但 SVM 算法也能处理更复杂数据集中的非线性分类任务。

逻辑回归、决策树、随机森林和 SVM 算法都是主动学习器的例子:这些算法会从训练数据构建模型,然后将该模型用于未来的预测。训练需要更长的时间,但在算法构建一个好的模型后,预测会更快。

K 最近邻 (KNN)

K 最近邻 (KNN) 算法会将数据点映射到多维空间。然后,它将具有相似特征值的数据点分组到单独的组或类中。为了对新的数据样本进行分类,分类器会查看与新数据点最近的 k 个点,统计这些邻近点中每个类别的数量,并将该比例作为新数据点的类别预测。

换句话说,该模型将新数据点分配给包含该点的大多数相邻点的类。KNN 模型属于惰性学习器:这类算法不会立即从训练数据构建模型,而是直接参考训练数据,将新数据与之进行比较。与主动学习器相比,这类模型通常需要更长的时间来进行预测。

KNN 模型通常将数据点之间的距离与欧几里得距离进行比较:6

欧几里德距离方程

近似最近邻 (ANN) 是 KNN 的一种变体。在高维数据空间中,找到数据点的确切相邻点的计算成本可能会很高降维和 ANN 是解决这个问题的两种方法。

ANN 不是找到数据点的确切最近相邻点,而是找到给定距离内的近似最近相邻点。最近的研究表明,ANN 在多标签分类领域取得了可喜的成果。7

朴素贝叶斯

基于贝叶斯定理,朴素贝叶斯分类器计算类别预测的后验概率。朴素贝叶斯会随着每条新数据的加入,更新初始类别预测,即先验概率。

在糖尿病预测器中,患者的医疗数据(血压、年龄、血糖水平等)是自变量。贝叶斯分类器将人群中糖尿病的当前患病率(先验概率)与患者医疗数据在糖尿病患者中出现的条件概率相结合。

朴素贝叶斯分类器遵循贝叶斯公式:8

贝叶斯公式

朴素贝叶斯是一种生成式分类器。通过使用观测值的变量值,贝叶斯分类器计算哪个类最有可能生成观测值。

自然语言处理 (NLP) 研究人员已广泛将朴素贝叶斯应用于情感分析等文本分类任务。使用 bag of words 模型(每个词作为一个变量),朴素贝叶斯分类器可以预测文本是由正类还是负类生成的。9

集成方法

集成方法和机器学习技术将多个较小的模型组合成一个分类器,以提高预测效果。深度集成方法将多个深度学习模型组合在一起,以创建更强大的集成分类器。结合深度学习的集成方法能够处理复杂的多标签分类任务。

梯度提升是一种集成方法,被证明能够提高预测准确性。它是一种提升技术,即一种集成方法,其中多个弱学习器按顺序相互学习,每次迭代都能改进结果。

分类中使用转换器模型

虽然通常用于自然语言处理任务,转换器模型也被应用于分类问题。转换器模型(例如 GPT 和 Claude)使用自注意力机制来关注输入数据集中最相关的部分。位置编码用于向模型传达序列中每个数据点的位置。

分类学习评估方法

研究人员和开发者会根据具体的分类任务选择相应的评估指标。所有这些指标都用于衡量学习器或分类器对模型类别的预测准确度。

一些最常用的评估指标包括:

  • 准确性
  • 精确度
  • 召回率
  • F1 分数
  • 混淆矩阵
  • ROC 曲线

真阳性 (TP) 是指模型在相应类别中正确预测的那些数据样本。假阳性 (FP) 是指那些被错误识别为阳性的阴性类实例。假阴性 (FN) 是指被错误地预测为阴性的实际阳性实例。真阴性 (TN) 是指被模型准确归类为阴性的实际阴性类实例。

准确性

准确性是数据集中真正例数与所有预测总数的比值。它衡量机器学习模型正确预测结果的频率,在此例中,即正确预测数据点所属的类别。

准确性提供了模型性能的总体概览,但无法显示模型是否在预测某些类别时优于其他类别。在数据集高度不平衡的情况下,仅关注准确率可能导致模型忽略较小的类别,将所有预测都归为多数类。在这种情况下,整体准确率仍然会很高。

如果垃圾邮件过滤器的大多数猜测都是正确的,即使它错过了大多数实际的垃圾电子邮件,它也会具有很高的准确性。

精确度

精度或正预测值 (PPV) 表示在模型预测为正类的样本中,实际属于该类别的样本所占的比例。精确率能够显示模型是否正确预测了目标类别,因此在类别不平衡的分类任务或误报代价较高的情况下非常有用。

在垃圾邮件过滤器中,精确度显示的是检测到的垃圾邮件中有多少是真正的垃圾邮件。错误地将数据分类为误报的模型精度较低,而误报较少的模型精度较高。10

精确率公式

召回率

也称为敏感性真正率 (TPR),表示模型检测到的类实例的百分比。召回率显示模型在数据集中检测出目标类别样本的频率。对于垃圾邮件过滤器,召回率显示模型识别为垃圾邮件的实际垃圾邮件的比例。11

F1 分数

精确率和召回率呈反比关系。随着分类器通过提升真正例数量来提高召回率,它也可能将非目标实例错误归类,产生假正例,进而降低精确率。F1 分数通过结合精确率和召回率来解决这一权衡,用以表示模型在各类别上的整体准确性。12

F 分数公式

数据可视化和模型评估

数据可视化工具有助于阐明数据分析的结果。数据科学家和机器学习研究人员使用两个主要工具来可视化分类器性能:

  • 混淆矩阵是一张显示预测值与真实值对照的表格。

  • ROC 曲线是一种描绘真正例与假正例比例的图表。

混淆矩阵

混淆矩阵是一种用于呈现类别预测值与实际值的表格。矩阵中的各个方格显示真正、假正、假负和真负的数量。这些值的总和是模型的预测总数。13

二元混淆矩阵示例

ROC 曲线

受试者工作特征 (ROC) 曲线用于可视化真正与真负的比例。图中绘制了模型分类中使用的每个阈值的真正率与真负率的对比情况。曲线下面积 (AUC) 统计数据源自 ROC 曲线。

AUC 衡量的是:随机选取的一个正例比随机选取的一个负例具有更高置信度得分的概率。AUC 的值范围为 0 到 1。分数为 0 表示模型给所有负样本的评分都高于正样本,而分数为 1 表示模型给每个正样本的评分都高于负样本。14

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

1. Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2. Jaiwei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012.

3. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023

5. Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs, and Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016, pp. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590

6. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

7. Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024, pp. 1−51, https://www.jmlr.org/papers/v25/23-0286.html  

8. Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad and James Curran, Introduction to Bayesian Statistics, 3rd edition, Wiley, 2016.

9. Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023.

10. Ethan Zhang and Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.

11. Ethan Zhang and Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.

12. Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.

13. Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

14. Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.