我的 IBM

什么是机器学习？

机器学习 (ML) 是人工智能 (AI) 的一个分支，专注于使计算机和机器能够模仿人类的学习方式，自主执行任务，并通过体验和接触更多数据来提高其性能和准确性。

加州大学伯克利分校将机器学习算法的学习系统分为三个主要部分。

决策过程：一般来说，机器学习算法用于预测或分类。基于一些输入数据（可以是有标签或无标签的数据），您的算法会对数据中的模式做出估计。
误差函数：误差函数评估模型的预测效果。如果具有已知样本，误差函数可以进行比较以评估模型的准确性。
模型优化过程：如果模型可以更好地拟合训练集中的数据点，则会调整权重以减小已知样本与模型评估结果之间的差异。机器学习算法将重复该“评估并优化”过程，以自动更新权重，直至达到准确性阈值。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

机器学习与深度学习和神经网络

由于深度学习和机器学习往往可以互换使用，因此，两者之间的细微差别值得注意。机器学习、深度学习和神经网络都是人工智能的子领域。然而，神经网络实际上是机器学习的子领域，而深度学习是神经网络的子领域。

深度学习和机器学习的不同之处在于两种算法的学习方式。“深度”机器学习（也称为监督学习）可以使用标记数据集为算法提供信息，但并非必须使用标记数据集。深度学习过程可以采集原始形式的非结构化数据（例如文本或图像），并且可以自动确定一组特征以区分不同类别的数据。这就省去了一些必要的人工干预，从而可以使用大量数据。正如 Lex Fridman 在该 MIT 讲座¹ 中指出的那样，您可以将深度学习视为“可扩展的机器学习”。

经典或“非深度”机器学习更依赖于人工干预进行学习。人类专家确定一组特征以了解数据输入之间的差异，通常需要更多结构化数据进行学习。

神经网络或人工神经网络 (ANN) 由节点层组成，其中包含输入层、一个或多个隐藏层和输出层。每个节点（或人工神经元）连接到另一个节点，并具有相关的权重和阈值。如果任何单个节点的输出高于指定的阈值，那么该节点将被激活，并将数据发送到网络的下一层。否则，该节点不会向网络的下一层传送任何数据。深度学习中的“深度”仅指神经网络中的层数。包含超过三层的神经网络（包括输入层和输出层）可以被视为深度学习算法或深度神经网络。只有三层的神经网络只是基本的神经网络。

深度学习和神经网络被认为加快了计算机视觉、自然语言处理 (NLP) 和语音识别等领域的发展速度。

请参阅博客文章“AI 与机器学习、深度学习和神经网络：有什么区别？”，以深入了解不同概念之间的关系。

专家荟萃 | 播客

解码 AI：每周新闻摘要

加入我们的世界级专家团队，包括工程师、研究人员、产品负责人等，他们将穿透 AI 的喧嚣，为您带来最新的 AI 新闻和见解。

观看片段

机器学习方法

机器学习模型分为三个主要类别。

监督学习

监督学习也称为监督机器学习，其定义是使用标记数据集训练算法以准确对数据进行分类或预测结果。在将输入数据输入到模型时，模型调整其权重，直到适当地拟合数据。这是交叉验证过程的一部分，旨在确保模型避免过拟合或欠拟合。监督学习帮助组织批量解决各种实际问题，例如，将垃圾邮件分类到与收件箱不同的文件夹中。监督学习中使用的一些方法包括神经网络、朴素贝叶斯、线性回归、逻辑回归、随机森林和支持向量机 (SVM)。

无监督学习

无监督学习也称为无监督机器学习，它使用机器学习算法分析和聚类未标记数据集（称为“簇”的子集）。这些算法发现隐藏的模式或数据分组，而无需人工干预。

无监督学习能够发现信息的相似性和差异性，使其成为探索性数据分析、交叉销售策略、客户细分以及图像和模式识别的理想选择。它还用于通过降维过程减少模型中的特征数。主成分分析 (PCA) 和奇异值分解 (SVD) 是它的两种常见方法。无监督学习中使用的其他算法包括神经网络、k-means 聚类和概率聚类方法。

半监督学习

半监督学习在监督学习和无监督学习之间提供了一种折衷方案。在训练过程中，它使用较小标记数据集指导从较大未标记数据集中进行分类和提取特征。半监督学习可以解决监督学习算法没有足够多标记数据的问题。如果标记足够多数据的成本太高，这也会有所帮助。

要深入了解这些方法之间的差异，请查看“监督学习与无监督学习：有什么区别？”。

强化学习

强化机器学习是一种类似于监督学习的机器学习模型，但算法不是使用样本数据训练的。该模型通过反复试错进行学习。一系列成功的结果将得到强化，从而为特定问题制定最佳的推荐或策略。

赢得 2011 年 Jeopardy! 挑战赛的 IBM Watson 系统就是一个很好的例子。该系统使用强化学习来学习何时尝试回答问题（或提问），在棋盘上选择哪个格以及下注多少，尤其是在每日双倍问题上。

常见的机器学习算法

许多机器学习算法被广泛使用。其中包括：

神经网络
线性回归
逻辑回归
集群
决策树
随机森林

神经网络

神经网络模拟人脑的工作方式，并具有大量链接的处理节点。神经网络擅长识别模式，在自然语言转换、图像识别、语音识别和图像创建等应用场合发挥着重要作用。

线性回归

该算法根据不同值之间的线性关系来预测数值。例如，该技术可用于根据地区的历史数据预测房价。

逻辑回归

这个监督学习算法对分类响应变量进行预测，例如问题的“是/否”答案。它可用于垃圾邮件分类和生产线上的质量控制等应用场合。

集群

通过使用无监督学习，聚类算法可以识别数据模式，从而对其进行分组。计算机可以帮助数据科学家找出数据项之间被人类忽视的差异。

决策树

决策树可用于预测数值（回归）以及将数据分类。决策树使用一系列分支的关联决策，可以使用树图表示这些决策。决策树的优势之一是易于验证和审核，这一点与神经网络的黑匣不同。

随机森林

在随机森林中，机器学习算法组合来自多个决策树的结果以预测一个值或类别。

机器学习算法的优缺点

根据您的预算、速度和精度需求，每种算法类型（监督、无监督、半监督或强化）都有自己的优缺点。

例如，决策树算法用于预测数值（回归问题）以及将数据分类。决策树使用一系列分支的关联决策，可以使用树图表示这些决策。决策树的主要优势在于，它们比神经网络更容易验证和审核。坏消息是，它们可能比其他决策预测算法更不稳定。

总体而言，企业可以利用机器学习的许多优势以提高效率。这包括机器学习识别人类可能在海量数据中根本无法发现的模式和趋势。这种分析几乎不需要人工干预：只需提供感兴趣的数据集，然后让机器学习系统组装并优化自己的算法；随着时间的推移，这些算法随着更多数据输入而不断改进。客户和用户可以享受更加个性化的体验，因为模型从该人的每次体验中了解到更多信息。

不利的一面是，机器学习需要准确公正的大型训练数据集。GIGO 是决定性因素：输入垃圾数据就会输出垃圾结果。收集足够多的数据并使用足够强大的系统运行这些数据可能还会消耗大量资源。

机器学习还可能容易出错，具体取决于输入。如果样本太小，系统生成的算法可能完全合乎逻辑，但可能是完全错误或误导性的。为了避免浪费预算或令客户不满，只有在对输出结果高度有信心的情况下，组织才应根据这些结果采取行动。

实际案例中的机器学习应用

以下是您每天都可能遇到的几个机器学习范例：

语音识别：也称为自动语音识别 (ASR)、计算机语音识别或语音转文字，这是一种使用自然语言处理 (NLP) 将人类语音转换为书面格式的功能。许多移动设备将语音识别集成到其系统中，用于执行语音搜索Siri）或改善文本输入辅助功能。

客户服务：在线聊天机器人可以与客户进行互动以取代人类客服人员，从而改变我们对网站和社交媒体平台上的客户互动的看法。聊天机器人可以解答有关运输等话题的常见问题 (FAQ)，或提供个性化建议、交叉销售产品或为用户推荐尺码。示例包括电子商务网站上的虚拟客服人员、使用 Slack 和 Facebook Messenger 的消息机器人以及通常由虚拟助手和语音助手完成的任务。

计算机视觉：该 AI 技术使计算机能够从数字图像、视频和其他视觉输入中获取有意义的信息，然后采取适当的行动。在卷积神经网络的支持下，计算机视觉可以应用于社交媒体中的照片标记、医疗保健中的放射成像以及汽车行业中的自动驾驶汽车。

推荐引擎：利用过去的消费行为数据，AI 算法可以帮助发现数据趋势，从而制定更有效的交叉销售策略。在结账过程中，在线零售商使用推荐引擎向客户推荐相关的产品。

机器人流程自动化 (RPA)：也称为软件机器人，RPA 使用智能自动化技术执行重复性人工任务。

自动化股票交易：人工智能驱动的高频交易平台旨在优化股票投资组合，每天可进行数千甚至数百万笔交易，而无需人为干预。

欺诈检测：银行和其他金融机构可以使用机器学习发现可疑的交易。监督学习可以使用有关已知欺诈交易的信息训练模型。异常检测可以识别看起来不典型并值得进一步调查的交易。

机器学习的挑战

随着机器学习技术的发展，它确实让我们的生活变得更加轻松。然而，在企业中实施机器学习也引发一些有关 AI 技术的伦理问题。其中包括：

技术奇点

虽然这个话题引起了公众的广泛关注，但许多研究人员并不担心 AI 在不久的将来超越人类智能。技术奇点也称为强 AI 或超级智能。哲学家 Nick Bostrum 将超级智能定义为“几乎在每个领域都远远超过人类最优秀大脑的任何智力，包括科学创造力、一般智慧和社交技能。”

尽管超级智能在社会中还不是迫在眉睫的事情，但在我们考虑使用自动驾驶汽车等自主系统时，这个概念提出了一些有趣的问题。认为无人驾驶汽车永远不会发生事故是不现实的，但在发生事故时，谁来承担责任呢？我们是否应该继续开发自动驾驶汽车，还是将这项技术限制在帮助人们安全驾驶的半自动驾驶汽车上？虽然目前还没有定论，但随着创新 AI 技术的发展，人们开始对这些伦理问题展开了激烈争论。

AI 对就业的影响

尽管公众对人工智能的看法大多集中在失业问题上，但或许应该重新审视这种担忧。随着每一项颠覆性的新技术出现，我们都会看到市场对特定工作角色的需求发生了变化。例如，当我们看向汽车行业时，许多制造商（如 GM）正在转向专注电动汽车生产以符合绿色倡议。能源行业不会消失，但能源来源正在从燃油经济性转向电力经济性。

同样，人工智能将工作需求转移到其他领域。需要有人帮助管理 AI 系统。仍然需要有人解决最可能受到工作需求变化影响的行业中的更复杂问题，例如客户服务。人工智能的最大挑战及其对就业市场的影响是，如何帮助人们过渡到所需的新角色。

隐私

隐私问题往往是在数据隐私、数据保护和数据安全背景下讨论的。正是对这些问题的担忧，促使政策制定者近年来在隐私保护方面取得了更多进展。例如，2016 年颁布了 GDPR 法规，旨在保护欧盟和欧洲经济区人民的个人数据，让个人更好地控制他们的数据。在美国，各个州正在制定政策，例如 2018 年推出的加州消费者隐私法案 (CCPA)，该法案要求企业告知消费者收集其数据的情况。此类立法迫使公司重新考虑如何存储和使用个人身份信息 (PII)。因此，安全领域的投资已成为企业越来越优先考虑的问题，因为他们要设法消除任何漏洞以及受到监视、黑客攻击和网络攻击的可能性。

偏见和歧视

许多机器学习系统中的偏见和歧视引发了许多有关使用人工智能的伦理问题。如果训练数据本身可能由有偏见的人类过程生成的，我们如何防范偏见和歧视呢？尽管公司通常对自动化工作抱有良好的意愿，但路透社² 强调了将 AI 纳入招聘活动的一些不可预见的后果。在推动自动化和简化流程的过程中，Amazon 无意中对技术岗位的求职者造成了性别歧视，公司最终不得不放弃该项目。哈佛商业评论³ 提出了其他在招聘活动中使用 AI 的尖锐问题，例如，在评估候选人是否适合某个职位时，您应该能够使用哪些数据。

偏见和歧视并不局限于人力资源职能；可以在许多应用场合中发现这种问题，包括面部识别软件和社交媒体算法。

随着企业越来越意识到 AI 的风险，他们也越来越积极地参与围绕 AI 伦理和价值观的讨论。例如，IBM 已停用了其通用面部识别和分析产品。IBM 首席执行官 Arvind Krishna 写道：“IBM 坚决反对并且不会容忍将任何技术（包括其他供应商提供的面部识别技术）用于大规模监视、种族定性、侵犯基本人权和自由或任何不符合我们的价值观以及信任和透明原则的用途。”

问责制

由于没有重要的立法规范 AI 实践，因此，没有真正的执行机制以确保 AI 符合道德规范。目前，对公司符合道德规范的激励是，不道德的 AI 系统将对利润造成负面影响。为了填补这一空白，作为伦理学家和研究人员合作的一部分，道德规范框架应运而生，旨在管控在社会中构建和传播 AI 模型。然而，目前这些框架仅起到指导作用。一些研究⁴ 表明，分散的责任加上对潜在后果缺乏预见性不利于防止对社会的危害。

如何为机器学习选择合适的 AI 平台

选择平台可能是一个充满挑战性的过程，因为错误的系统可能会增加成本或限制使用其他有价值的工具或技术。在评估多个供应商以选择 AI 平台时，人们往往倾向于认为功能越多等同于系统越好。也许是这样，但评估者应先考虑 AI 平台将为他们的组织做什么。需要提供哪些机器学习功能？哪些功能对实现这些功能至关重要？缺失一项功能可能会毁掉整个系统的实用性。以下是一些值得考虑的功能。

MLOps 功能。系统是否具有：

统一的界面，以简化管理？
自动化机器学习工具，以通过低代码和无代码功能更快地创建模型？
决策优化，以简化优化模型选择和部署？
可视化建模，以在统一的数据和 AI 工作室中将可视化数据科学与开源库和基于笔记本的界面相结合？
自动化开发，以让初学者快速入门，并让更高级的数据科学家进行实验？
合成数据生成器，在不容易获取真实数据时，将其作为真实数据的替代或补充？

生成式 AI 功能。系统是否具有：

内容生成器，可以根据训练数据生成文本、图像和其他内容？
自动分类，以读取书面输入并进行分类，例如，评估客户投诉并进行分类或分析客户反馈情绪？
摘要生成器，可以将密集文本转换为高质量摘要，从财务报告中捕捉要点以及生成会议记录？
数据提取功能，以对复杂细节进行分类，并快速从大型文档中提取必要的信息？

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

资源

提升您的 ML 专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

AI 实际应用报告

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

脚注

¹ Deep Learning Basics: Introduction and Overview

² Insight - Amazon scraps secret AI recruiting tool that showed bias against women, Reuters, 10 October 2018

³ The Legal and Ethical Implications of Using AI in Hiring, Harvard Business Review, 25 April 2019

⁴ The Ethics of AI Ethics, An Evaluation of Guidelines, Dr. Thilo Hagendorff

什么是机器学习？