机器学习

menu icon

机器学习

本机器学习简介概述了机器学习的历史、重要定义、应用和目前企业的关注点。

什么是机器学习?

机器学习是人工智能 (AI) 和计算机科学的分支,专注于使用数据和算法来模仿人类学习的方式,逐渐提高其准确性。

IBM 拥有丰富的机器学习历史。 业界广泛认为,Arthur Samuel 在有关跳棋的研究(PDF, 481 KB)(链接位于 IBM 之外)中创造了“机器学习”这个词。 自称跳棋大师的 Robert Nealey 于 1962 年与 IBM 7094 计算机对弈,结果输给了计算机。 与机器学习今天的成就相比,这看似微不足道,但它被认为是人工智能领域的一个重大里程碑。 在接下来的几十年里,存储和处理能力方面的技术突飞猛进,出现了我们现在所知道并喜爱的一系列创新产品,如 Netflix 的推荐引擎或自动驾驶汽车。

机器学习是不断成长的数据科学领域的重要组成部分。 通过使用统计方法,对算法进行训练,以进行分类或预测,揭示数据挖掘项目中的关键洞察。 然后,这些洞察可推动应用和业务中的决策,有效影响关键增长指标。 随着大数据的持续扩大和增长,数据科学家的市场需求也水涨船高,要求他们协助确定最相关的业务问题,并随后提供数据以获得答案。

机器学习 vs. 深度学习 vs. 神经网络

由于深度学习和机器学习这两个术语往往可互换使用,因此必须注两者之间的细微差别。 机器学习、深度学习和神经网络都是人工智能的子领域。 但是,深度学习实际上是机器学习的一个子领域,而神经网络则是深度学习的一个子领域。

深度学习和机器学习的不同之处在于每个算法如何学习。 深度学习可以自动执行过程中的大部分特征提取,消除某些必需的人工干预,并能够使用更大的数据集。 可将深度学习视为“可扩展的机器学习”,就如 Lex Fridman 在这个 MIT 讲座 (00:30) 中 (链接位于 IBM 外部)所述的那样。 常规的机器学习,或叫做“非深度”机器学习,更依赖于人工干预进行学习。 人类专家确定一组特征,以了解数据输入之间的差异,通常需要更为结构化的数据以进行学习。

“深度”机器学习则可以利用标签化的数据集,也称为监督式学习,以确定算法,但不一定必须使用标签化的数据集。 它可以原始格式(例如文本、图像)采集非结构化数据,并且可以自动确定区分不同类别数据的特征集。 与机器学习不同,它不需要人工干预数据的处理,使我们能够以更有趣的方式扩展机器学习。 深度学习和神经网络目前的成就,主要归功于计算机视觉、自然语言处理和语音识别等领域的突飞猛进。

神经网络也称为人工神经网络 (ANN),由节点层组成,包含一个输入层、一个或多个隐藏层和一个输出层。 每个节点也称为一个人工神经元,它们连接到另一个节点,具有相关的权重和阈值。 如果任何单个节点的输出高于指定的阈值,那么该节点将被激活,并将数据发送到网络的下一层。 否则,不会将数据传递到网络的下一层。 深度学习中的“深度”指的只是神经网络中层的深度。 由三层以上组成的神经网络(包含输入和输出)可视为深度学习算法或深度神经网络。 只有两层或三层的神经网络只是基本神经网络。

查看博客帖子“AI vs. Machine Learning vs. Deep Learning vs. Neural Networks: What’s the Difference?(AI、机器学习、深度学习以及神经网络之间有何区别?)”,详细了解这些不同概念之间的关联。

机器学习如何运作

加州大学伯克利分校(链接位于 IBM 外部)将机器学习算法的学习系统分为三个主要部分。

  1. 决策过程: 通常,机器学习算法用于进行预测或分类。 算法可根据一些标签化或未标签化的输入数据,生成有关数据中模式的估算。
  2. 误差函数: 误差函数用于评估模型的预测。 如果存在已知示例,那么误差函数可以进行比较以评估模型的准确性。
  3. 模型优化过程: 如果模型能够更好地拟合训练集中的数据点,那么会调整权重以减少已知示例和模型估算之间的差异。 该算法将重复此评估并优化过程,自主更新权重,直到满足精确性阈值为止。

机器学习方法

机器学习分类器分为三个主要类别。

监督式机器学习

监督式学习(也称为监督式机器学习)使用标签化数据集训练算法,以准确分类数据或预测结果。 输入数据进入模型后,该方法会调整权重,直到模型拟合。 这是交叉验证过程的一部分,可确保模型避免过度拟合不拟合。 监督式学习有助于组织大规模解决各种现实问题,例如将垃圾邮件归类到收件箱中的单独文件夹中。 监督式学习中使用的方法包括神经网络、朴素贝叶斯、线性回归、逻辑回归、随机森林、支持向量机 (SVM) 等。

无监督机器学习

无监督学习也称为无监督机器学习,使用机器学习算法来分析未标签化数据集并形成聚类。 这些算法发现隐藏的模式或数据分组,无需人工干预。 这种方法能够发现信息的相似性和差异,因此是探索性数据分析、交叉销售策略、客户细分、图像和模式识别的理想解决方案。 该方法还通过降维过程,减少模型中特征的数量;主要成分分析 (PCA) 和奇异值分解 (SVD) 是两种常见的方法。 在无监督学习中使用的其他算法包括神经网络、k-平均值聚类、概率聚类方法等。

半监督学习

半监督学习是受监督学习和无监督学习之间的巧妙结合。 在训练期间,它使用较小的标签化数据集,以指导从较大的未标签化数据集进行分类和特征提取。 半监督学习可以解决带标签数据不足(或无法负担标注足够数据的费用)而无法训练受监督学习算法的问题。

为了深入了解这些方法之间的差异,请查看“受监督与无监督学习:有何区别?

强化机器学习

强化机器学习是一种行为机器学习模型,类似于监督式学习,但算法未使用样本数据进行训练。 此模型通过不断试错进行学习。 将强化一系列成功结果,为某一问题提出最佳建议或制定最佳策略。

赢得 2011 年 Jeopardy! 挑战赛的 IBM Watson® 系统是一个很好的例子。 该系统使用增强学习来决定是否尝试回答(或提问),选择板上选择哪个方块,以及下多少赌注,尤其是在双赌题中。

了解有关强化学习的更多信息。

现实机器学习用例

这里只是几个日常可能遇到的机器学习的例子:

语音识别:也称为自动语音识别 (ASR)、计算机语音识别或语音到文本,能够使用自然语言处理 (NLP),将人类语音处理为书面格式。 许多移动设备将语音识别结合到系统中以进行语音搜索,例如: Siri,或提供有关文本的更多辅助功能。

客户服务:在线聊天机器人正逐步取代客户互动中的人工客服。 他们回答各种主题的常见问题 (FAQ) ,例如送货,或为用户提供个性化建议,交叉销售产品,提供用户尺寸建议,改变了我们对网站和社交媒体中客户互动的看法。 示例包括具有虚拟客服的电子商务站点上的聊天机器人、消息传递应用(例如 Slack 和 Facebook Messenger)以及虚拟助理和语音助手通常执行的任务。

计算机视觉:该 AI 技术使计算机和系统能够从数字图像、视频和其他可视输入中获取有意义的信息,并基于这些输入采取行动。 这种提供建议的能力将其与图像识别任务区分开来。 计算机视觉由卷积神经网络提供支持,应用在社交媒体的照片标记、医疗保健中的放射成像以及汽车工业中的自动驾驶汽车等领域。

推荐引擎:AI 算法使用过去的消费行为数据,帮助发现可用于制定更有效的交叉销售策略的数据趋势。 这用于在在线零售商的结帐流程中向客户提供相关的附加建议。

自动股票交易:旨在用于优化股票投资组合,AI 驱动的高频交易平台每天可产生成千上万个甚至数以百万计的交易,无需人工干预。

机器学习的挑战

随着机器学习技术的进步,它肯定会让我们的生活更轻松。 然而,在企业内部实施机器学习时,也引发了关于 AI 技术的一些伦理道德方面的忧虑。 这包括:

技术奇异性

虽然这个话题吸引了很多公众的关注,但许多研究人员并不担心有关 AI 在近期或不远的将来会超越人类智慧的想法。 这也称为超级智能,Nick Bostrum 将其定义为“在几乎每个领域都远远超过人类最智慧大脑的智力,包括科学创造力、一般智慧和社交技能。”尽管强大的 AI 和超智能在社会上并不是近在眼前的事实,但它提出了一些有趣的问题,比如我们考虑使用的自主系统,包括自动驾驶汽车。 认为无人驾驶汽车不会发生汽车事故是不现实的,但在这种情况下谁负责并承担赔偿责任? 我们是仍然去实现自主汽车;还是限制整合这种技术,而是只创造有助于提高驾驶员行车安全的半自主汽车? “评审团”仍在争论不休,但这些都是随着创新的新 AI 技术的发展而产生的道德争论。

AI 对工作的影响:

虽然有关人工智能的公众认知都与失业有关,但这种担忧可能会发生转变。 借助各种颠覆性的新技术,我们看到了市场对特殊工作岗位转变的需求。 例如,在汽车行业,包括 GM 在内的许多制造商正将重心转向电动汽车的生产,以便与绿色计划接轨。 能源行业不会消失,但能源的来源正在从燃油经济转向电力。 我们也可以用相似的方式看待人工智能,AI 将从就业需求转向其他领域。 随着数据每天的增长和变化,需要有人来帮助管理这些系统。 仍需要有资源来解决行业内最有可能受就业需求变化影响的复杂问题,如客户服务。 人工智能的重要方面及其对就业市场的影响有助于个人向这些新的市场需求领域过渡。

隐私 :

隐私往往在数据隐私、数据保护和数据安全等上下文中进行讨论,这些担忧让决策者近年来在这些方面取得了更大的进步。 例如, 2016 年,为了保护欧盟和欧洲经济区人民的个人数据,让人们能够更好地控制自己的数据,出台了《通用数据保护条例》法案。 在美国,有些州正在制定政策,如《加利福尼亚州消费者隐私法案》(CCPA) ,该法案要求企业向消费者通报其数据的收集情况。 最近的这项立法迫使企业重新考虑他们如何储存和使用个人可识别数据 (PII) 。 因此,随着企业希望消除任何漏洞以及监视、黑客攻击和网络攻击的机会,安全投资已成为企业日益重要的优先事项。

偏见和岐视:

多个智能系统中的偏见和岐视事件引发了许多关于人工智能使用的伦理道德问题。 我们如何在训练数据本身可能导致偏见时,防止偏见和岐视? 虽然企业的自动化工作通常都具有善意的意图,但路透社(链接位于 IBM 外部)重点说明了将 AI 纳入招聘实践的一些不可预测的后果。 在流程自动化和简化的过程中,Amazon 无意间对某些空缺技术职位的求职者形成了性别偏见,最终不得不放弃项目。 像这样的事件一样,《哈佛商业评论》(链接位于 IBM 外部)围绕招聘实践中 AI 的使用提出了其他尖锐问题,例如,在评估某个职位的候选者时,应使用哪些数据。

偏见和岐视并不局限于人力资源职能;在面部识别软件、社交媒体算法等应用中也可以找到。

随着企业日益意识到 AI 的风险,围绕 AI 伦理和价值观的讨论也变得更加活跃。 例如,去年 IBM 首席执行官 Arvind Krishna 表示 IBM 淘汰了通用的 IBM 面部识别和分析产品,强调“IBM 坚决反对并且不会容忍使用任何技术(包括其他供应商提供的面部识别技术)进行大规模监视、种族分析、侵犯基本人权和自由的行为,或与我们的价值观以及信任和透明原则不符的任何目的。”

要了解有关这方面的更多信息,请查看 IBM 的政策博客,我们在“控制面部识别技术出口的精准监管方法”中阐述了自己的观点。

责任心

由于还没有重大立法来规范 AI 实践,因此也就没有真正的执行机制来确保践行道德规范的 AI。 企业当前用于鼓励遵循这些原则的激励措施是避免不道德的 AI 系统对利润的负面影响。 为了弥补差距,道德框架已成为道德学家与研究人员合作的一个领域,以指导社会内部 AI 模型的构建和分发。 但是,目前这些成果仅用于指导,研究(链接位于 IBM 外部)(PDF,984 KB) 表明,分布式责任与缺乏远见对潜在后果的影响并不一定有利于防止对社会的伤害。

要详细了解 IBM 有关 AI 道德的立场,请在此处获取详细信息。

机器学习和 IBM 云

IBM Watson Machine Learning 为机器学习的整个生命周期提供支持。 它可用于一系列服务产品中,让您在数据存在的任何地方搭建机器学习模型,并将模型部署到混合多云环境中的任何位置。

IBM Cloud Pak for Data 上的 IBM Watson Machine Learning 帮助企业数据科学和 AI 团队在云原生数据和 AI 平台上的任何位置加快 AI 开发和部署速度。 IBM Watson Machine Learning Cloud 是 IBM Cloud 环境中的受管服务,这是将模型从桌面试验阶段转入生产工作负载部署阶段的最快方式。 对于寻求扩大机器学习部署的小型团队,IBM Watson Machine Learning Server 可在任何私有或公有云上提供简单的安装。

要开始操作,请注册 一个 IBMid 并创建 IBM Cloud 帐户