需要了解的五种机器学习类型

2023 年 12 月 20 日

阅读时长 5 分钟

作者

Chrystal R. China

Writer, automation & ITOps

机器学习 (ML) 技术几乎可以推动所有行业的决策,从医疗保健到人力资源再到金融,以及计算机视觉大型语言模型 (LLM)、语音识别、自动驾驶汽车等各种应用场景。

然而,机器学习的影响力日益增长也并非没有复杂问题。支撑 ML 技术的验证和训练数据集通常由人类汇总,而人类容易产生偏见和出错。即使 ML 模型本身没有偏见或错误,将其部署在错误的环境中也会产生错误,并导致意料之外的不良后果。

这就是企业在 AI 和 ML 方面的多样化应用对于保持竞争优势至关重要的原因所在。每种类型和子类型的 ML 算法都有其独特的优势和功能,团队可以利用这些优势和功能来完成不同的任务。接下来,我们将讨论五种主要类型及其应用。

什么是机器学习?

ML 是计算机科学、数据科学人工智能 (AI) 的子集,它使系统能够从数据中学习和改进,而无需额外的编程干预。

ML 模型不依赖用于性能优化的显示指令,而是采用算法和统计模型,以根据数据模式和推论来部署任务。换句话说,ML 利用输入数据来预测输出,并随着新数据的出现不断更新输出。

例如,在零售网站上,机器学习算法通过根据购买历史提出建议来影响消费者的购买决策。许多零售商的电子商务平台,包括 IBM、Amazon、Google、Meta 和 Netflix,都依赖人工神经网络 (ANN) 来提供个性化推荐。零售商经常利用聊天机器人和虚拟助手提供的数据,并结合 ML 和自然语言处理 (NLP) 技术,来实现用户购物体验的自动化。

机器学习类型

机器学习算法分为五大类:监督学习、无监督学习、半监督学习、自监督学习和强化学习。

1. 监督机器学习

 

监督机器学习是一种使模型在标记数据集上进行训练(即已知目标或结果变量)的机器学习。例如,如果数据科学家正在构建一个龙卷风预测模型,输入变量可能包括日期、位置、温度、风流模式等,而输出则是那些天记录的实际龙卷风活动。

监督学习通常用于风险评估、图像识别、预测分析和欺诈检测,包括几种类型的算法。

  • 回归算法 - 通过识别真实值或连续值(例如,温度、工资)之间的线性关系来预测输出值。回归算法包括线性回归、随机森林和梯度提升,以及其他子类型。
  • 分类算法 - 通过标记输入数据来预测分类输出变量(例如“垃圾邮件”或“非垃圾邮件”)。分类算法包括逻辑回归、k 近邻算法和支持向量机 (SVM) 等。
  • 朴素贝叶斯分类器 - 为大型数据集启用分类任务。它们也是生成学习算法系列的一部分,可以对给定类别或/类别的输入分布进行建模。朴素贝叶斯算法包括决策树,它实际上可以同时容纳回归和分类算法。
  • 神经网络 - 通过大量关联的处理节点模拟人脑的工作方式,可以促进自然语言翻译、图像识别、语音识别和图像创建等过程。
  • 随机森林算法 - 通过组合多个决策树的结果来预测值或类别。

2. 无监督机器学习

 

无监督学习算法 - 如 Apriori、高斯混合模型 (GMM) 和主成分分析 (PCA) - 从未标记的数据集中得出推论,促进探索性数据分析并实现模式识别和预测建模。

最常见的无监督学习方法是聚类分析,它使用聚类算法根据值的相似性对数据点进行分类(例如,客户细分或异常检测)。关联算法使数据科学家能够在大型数据库中识别数据对象之间的关联,从而促进数据可视化和降低维度。

  • K 均值聚类 - 将数据点分配到 K 个群组中,其中将最接近给定中心点的数据点聚类到同一类别下,K 表示基于其大小和粒度水平的集群。K 均值聚类通常用于市场细分、文档聚类、图像分割和图像压缩。
  • 分层聚类 - 描述一系列聚类技术,包括凝聚层次聚类和分裂层次聚类。凝聚层次聚类指最初将数据点独立分组,然后根据相似性迭代合并,直到剩下一个聚类;而分裂层次聚类则根据数据点之间的差异划分单个数据聚类。
  • 概率聚类 - 根据数据点属于特定分布的可能性对其进行分组,帮助解决密度估计或“软”聚类问题。

无监督 ML 模型常用用于“购买此产品的客户还购买了……”类型的推荐系统。

3. 自监督机器学习

 

自监督学习 (SSL) 使模型能够在无标记数据上进行自我训练,而无需大量带注释和/或标记的数据集。SSL 算法,也称为预测或假托学习算法,通过学习输入的一部分来推断另一部分,自动生成标签并将无监督问题转换为监督问题。这些算法对于计算机视觉和自然语言处理等任务特别有用,因为在这些领域中,训练模型所需的带标签训练数据量可能非常大,有时甚至过于庞大而令人望而却步)。

4. 强化学习

 

强化学习,也称为基于人类反馈的强化学习 (RLHF),是一种通过奖惩机制训练算法的动态编程方法。要部署强化学习,代理在特定环境中采取行动以达到预定目标。根据既定指标(通常是积分)对代理的行为进行奖励或惩罚,鼓励其继续良好的做法并摒弃不良行为。通过反复训练,代理会逐渐学习到最佳策略。

强化学习算法在电子游戏开发中很常见,并常被用于教机器人如何复制人类的任务。

5. 半监督学习

 

第五种机器学习技术结合了监督学习和无监督学习的特点。

半监督学习通过一个小型标记数据集和一个大型未标记数据集来训练算法,其中小规模的标记数据用于指导大规模未标记数据的学习过程。半监督学习模型可能使用无监督学习模型来识别数据聚类,然后使用监督学习模型来标记聚类。

生成对抗网络 (GAN) 是一种通过训练两个神经网络生成无标签数据的深度学习工具,是半监督机器学习的一个示例。

无论类型如何,ML 模型都可以从企业数据中获取洞察分析,但它们易受人为/数据偏见的影响,这使得负责任的 AI 实践成为组织的当务之急。

使用 watstonx.ai 管理多种机器学习模型

从开发人员到用户再到监管机构,几乎所有人都在某些时候接触过机器学习的应用,无论是否直接与 AI 技术交互。而且机器学习技术的应用正在不断加快速。2022 年,全球机器学习市场估值为 190 亿美元,预计到 2030 年将达到 1880 亿美元,复合年增长率超过 37%。

ML 的广泛应用及其日益增长的商业影响 ,使得了解 AI 和 ML 技术成为一项持续且至关重要的作务,随着技术的发展,这需要保持警惕的监控并及时作出调整。借助 IBM® watsonx.ai AI Studio 中,开发人员可以轻松管理 ML 算法和流程。

IBM watsonx.ai 是 IBM watsonx AI 产品组合的一部分,将新的生成式 AI 功能与下一代企业开发平台相结合,帮助 AI 构建者使用更少的数据和更短的时间训练、验证、调整和部署 AI 模型。watsonx.ai 为团队提供了先进的数据生成和分类功能,帮助企业利用数据洞察分析,实现最佳的实际 AI 性能。

在数据激增的时代,不论是对于技术创新和商业竞争,还是对于日常业务运营,AI 和机器学习技术都发挥着不可或缺的重要作用。不仅如此,作为现代社会的新支柱,它们还能帮助打造多样化的企业 IT 基础架构,并创造为企业和个人服务的技术解决方案。

 
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示