什么是人工智能 (AI)?
人工智能 (AI) 是一种使计算机和机器能够模拟人类学习、理解、解决问题、做出决策,以及发挥创造力和自主性的技术。
可以将 AI 简单理解为过去 70 多年来逐渐形成的一系列嵌套或衍生概念:
在 AI 的体系下,核心便是机器学习,即通过训练算法构建模型,让模型基于数据完成预测或决策。机器学习涵盖大量技术,可让计算机从数据中学习并进行推理,无需针对特定任务做显性编程。
机器学习的技术与算法种类繁多,包括 线性回归、逻辑回归、决策树、随机森林、支持向量机 (SVM)、k-最近邻 (KNN)、聚类等。每种方法都适用于不同类型的问题和数据。
而机器学习中最主流的算法之一,便是神经网络(亦称人工神经网络)。神经网络参照人类大脑的结构与功能构建。神经网络由相互连接的节点层(类似于神经元)构成,可协同处理并分析复杂数据。神经网络尤其适合在海量数据中识别复杂模式与关联关系的任务。
机器学习最简单的形式是监督学习,通过标记数据集训练算法,实现对数据的精准分类或结果预测。在监督学习中,人工会为每一组训练样本匹配对应的输出标签。其目标是让模型学习训练数据中输入与输出的映射关系,进而预测全新未知数据的标签。
深度学习是机器学习的一个子集,它采用多层神经网络(称为深度神经网络)来更深入地模拟人脑的复杂决策能力。
深度神经网络包括一个输入层、至少三个但通常数百个隐藏层和一个输出层,而经典机器学习模型中使用的神经网络通常只有一个或两个隐藏层。
这些多层级结构可实现无监督学习:它们可以自动从大型、未标记和非结构化数据集中提取特征,并对数据所代表的内容做出自己的预测。
由于深度学习不需要人工干预,因此它可以实现大规模的机器学习。它非常适合自然语言处理 (NLP)、计算机视觉以及其他涉及在大量数据中快速、准确地识别复杂模式和关系的任务。我们生活中绝大多数人工智能 (AI) 应用程序均由某类深度学习技术提供支撑。
生成式 AI 指可根据用户的提示或请求,创作长篇文本、高清图像、逼真音视频等复杂原创内容的深度学习模型。
在较高的层次上,生成模型对所用的训练数据的简化表示进行编码,然后从该表示中提取内容来创建类似的新作品,但与原始数据不同。
多年来,统计学中一直使用生成模型来分析数值数据。但在过去十年中,它们已经发展到可以分析和生成更复杂的数据类型。这种演变与三种复杂的深度学习模型类型的出现相吻合:
一般来说,生成式 AI 分三个阶段运行:
生成式 AI 从“基础模型”开始;这是一个深度学习模型,是多种不同类型的生成式 AI 应用程序的基础。
当下最常见的基础模型是大语言模型 (LLM),专为文本生成应用程序而打造。除此之外,还有面向图像、视频、音频、音乐生成的基础模型,以及支持多类内容的多模态基础模型。
构建基础模型时,从业人员会用海量原始、非结构化、无标记的相关数据训练深度学习算法,例如来自互联网的 TB 或 PB 级文本、图像或视频数据。通过训练后会形成包含数十亿参数的神经网络,参数即为数据中实体、模式与关联关系的编码表示,可依据提示自主生成内容。这便是基础模型。
此训练过程需要大量计算,耗时且成本高昂。它需要数千个集群图形处理单元 (GPU) 和数周的处理时间,所有这些通常需花费数百万美元。开源基础模型项目,如 Meta 的 Llama-2,使生成式 AI 开发人员能够避免这一步骤及其成本。
接下来,模型必须针对特定的内容生成任务进行调整。这可以通过多种方式实现,包括:
开发人员与用户会定期评估生成式 AI 应用程序的输出结果,并对模型持续调整(频次可达每周一次),以提升输出的准确性与相关性。与之相对,基础模型自身的更新频率更低,通常为每年或每 18 个月更新一次。
提高生成式 AI 应用程序性能的另一种方案是检索增强生成 (RAG),该技术可拓展基础模型,调用训练数据以外的相关数据源优化参数,以进一步提升准确性与相关性。
AI 智能体是一种自主运行的 AI 程序,可通过设计自身工作流、调用现有工具(其他应用程序或服务),代您或其他系统执行任务、达成目标,全程无需人工干预。
智能体式 AI 是由多个 AI 智能体构成的系统,通过对各智能体的行动进行协调与编排,可完成单一智能体无法胜任的复杂任务与宏大目标。
与在预定约束内运行并需要人工干预的聊天机器人和其他 AI 模型不同,AI 智能体和智能体式 AI 表现出自主性、目标驱动行为和对不断变化的环境的适应性。“智能体”和“智能体式”是指这些模型的智能体,或者说,他们独立和有目的地行动的能力。
可将智能体视作生成式 AI 之后的自然演进方向。生成式 AI 模型聚焦于基于学习到的模式生成内容;智能体则依托这些内容开展交互,并与其他工具联动,进而完成决策、解决问题与执行任务。例如,生成式 AI 应用程序也许能根据您的工作日程告知攀登珠穆朗玛峰的最佳时间;而 AI 智能体不仅能提供这一信息,还可通过在线旅游服务为您预订尼泊尔的最优航班与就近酒店。
AI 为各行各业和各种应用带来了诸多好处。一些最常被提及的好处包括:
AI 可自动化执行常规、重复且繁琐的任务,涵盖数据采集、录入、预处理等数字任务,以及仓库拣货、制造业等物理任务。这类自动化可释放人力,使其投身于更高价值、更具创造性的工作。
无论用于决策辅助还是全自动决策,AI 均可实现更快速、精准的预测,以及可靠的数据驱动决策。AI 与自动化相结合,可助力企业实时把握机遇、响应危机,全程无需人工介入。
AI 可以通过各种方式减少人为错误,包括指导相关人员完成流程的正确步骤,在潜在错误发生之前将其标记出来,以及无需人工干预即可实现流程完全自动化。这在医疗保健等行业尤其重要,例如 AI 引导的手术机器人可以实现始终如一的精度。
随着机器学习算法接触更多的数据并从经验中“学习”,它们可以不断提高准确性并进一步减少错误。
AI 始终保持在线状态,可全天候提供服务,且每次运行均能输出稳定一致的性能。AI 聊天机器人、虚拟助理等工具,可缓解客户服务与技术支持环节的人员压力。在材料加工、生产线等其他应用场景中,AI 执行重复性或繁琐任务时,可助力维持稳定的工作质量与产出水平。
通过自动化动物管控、爆炸物处理、深海/高海拔作业、外太空任务等危险工作,AI 可避免将人类工人置于受伤甚至更严重的风险境地。尽管自动驾驶汽车等载具仍未臻完善,但其有望降低乘客的受伤风险。
AI 在现实世界中的应用有很多。以下是各个行业的一小部分用例,以说明其潜力:
企业可采用 AI 驱动的聊天机器人与虚拟助理,处理客户咨询、支持工单等事务。这些工具借助自然语言处理 (NLP) 与生成式 AI 能力,可理解并回复客户关于订单状态、产品详情、退货政策的问题。
聊天机器人和虚拟助理可以提供始终在线的支持,更快地解答常见问题 (FAQ),从而让人工代理可以专注于更高级别的任务,并为客户提供更快、更一致的服务。
机器学习和深度学习算法可以分析交易模式,并标记异常情况,如不寻常的消费或登录位置,这些表明存在欺诈性交易。这使组织能够更快地对潜在的欺诈行为做出反应并限制其影响,从而使自己和客户更加安心。
零售商、银行和其他面向客户的公司可以利用 AI 来打造个性化的客户体验和营销活动,从而让客户满意、提高销售额并防止客户流失。根据客户购买历史和行为数据,深度学习算法可以推荐客户可能想要的产品和服务,甚至实时为个人客户生成个性化文案和特别优惠。
AI 驱动的招聘平台可以通过筛选简历、匹配候选人与职位描述,甚至使用视频分析进行初步面试来简化招聘流程。这些工具和其他相关工具可以大大减少与选派大量候选人相关的行政文书工作。它还可以减少响应时间和招聘时间,改善候选人的体验(无论他们是否得到这份工作)。
生成式 AI 代码生成工具和自动化工具可以简化与应用程序开发相关的重复性编码任务,并加速旧版应用程序的规模化迁移和现代化(重新格式化和重新平台化)。这些工具可以加快任务速度、帮助确保代码一致性并减少错误。
机器学习模型可以分析来自传感器、物联网 (IoT) 设备和运营技术 (OT) 的数据,以预测何时需要维护并预测设备故障。AI 驱动的预防性维护有助于防止停机,并使您能够在供应链问题影响利润底线之前提前进行应对。
各类组织都在积极抢抓机遇,运用最新 AI 技术、发挥 AI 的多元优势。这种快速落地虽有必要,但 AI 工作流的搭建与维护也伴随着挑战与风险。
威胁参与者可能针对 AI 模型实施盗窃、逆向工程或未授权篡改等攻击。攻击者可能会通过篡改模型的架构、权重或参数(决定模型行为、准确性和性能的核心组件)来损害模型的完整性。
与所有技术类似,AI 模型也面临模型漂移、偏见、治理体系失效等运营风险。如果不加以解决,这些风险可能引发系统故障与网络安全漏洞,被威胁行为者利用。
如果组织在开发、部署 AI 系统时未将安全与伦理问题放在首位,可能会出现隐私侵犯、结果偏见等问题。例如,用于招聘决策的带偏见训练数据可能会强化性别或种族刻板印象,进而生成偏向特定人群的 AI 模型。
随着 AI 技术日益精进,人类已难以理解并追溯算法得出结果的逻辑。可解释的 AI 是一组流程和方法,使人类用户能够解读、理解并信任算法生成的结果与输出。
尽管机器学习就其本质而言是一种统计歧视形式,但当它使特权群体处于系统性优势,而某些弱势群体处于系统性劣势时,这种歧视就会变得令人反感,从而可能造成各种伤害。为了实现公平,从业者可以在数据收集和模型设计过程中尽量减少算法偏见,并建立更加多元和包容的团队。
强大的 AI 可以有效地处理异常情况,例如输入异常或恶意攻击,而不会造成意外伤害。它还可以防止暴露的漏洞,从而抵御有意和无意的干扰。
各组织应在 AI 系统的开发、部署和成果方面落实明确的职责和治理结构。
此外,用户应该能够了解 AI 服务的工作原理,评估其功能,并了解其优势和局限性。透明度的提高为 AI 消费者
提供了信息,让他们更好地了解 AI 模型或服务是如何创建的。
包括 GDPR 在内的很多监管框架都要求组织在处理个人信息时遵守某些隐私原则。至关重要的是能够保护可能包含个人信息的 AI 模型,首先控制进入模型的数据,并构建可适应 AI 伦理监管和态度变化的适应性系统。
为了在不同复杂度和精细度的层面上对 AI 的使用进行情境化,研究人员根据精细度水平定义了几种 AI 类型:
弱 AI:也称为“狭义 AI”,指专为执行一项或一组特定任务设计的 AI 系统。例如,Amazon 的 Alexa、Apple 的 Siri 等智能语音助手应用程序、社交媒体聊天机器人,或是 Tesla 研发的自动驾驶汽车。
强 AI:也称通用人工智能 (AGI) 或通用 AI,指具备理解、学习并应用各类任务知识的能力,水平与人类智能相当或超过人类智能 。目前,这一级别的 AI 还处于理论研究阶段,尚无已知的 AI 系统能够达到这一复杂程度。研究人员认为,若要实现 AGI,需要大幅提升计算能力。尽管 AI 领域最近取得了显著进展,但科幻作品中所描绘的具有自我意识的 AI 系统仍然只存在于虚构世界中。
“会思考的机器”的概念可以追溯到古希腊。但是,自从电子计算出现(并与本文讨论的一些主题相关)以来,AI 发展历程中的重要事件和里程碑包括:
1950
艾伦•图灵 (Alan Turing) 发表《计算机器与智能》(Computing Machinery and Intelligence)。这篇论文的作者图灵,曾在二战期间破解德国 ENIGMA 密码,被誉为“计算机科学之父”,他在文中提出了核心问题:“机器能思考吗?”
为解答这一问题,他设计了著名的“图灵测试”:由人类询问者尝试区分文本响应来自计算机还是人类。尽管该测试自提出后备受争议,但仍是 AI 历史的重要组成部分,也是哲学领域的持续研究概念,因为它运用了语言学相关理念。
1956
John McCarthy 在达特茅斯学院举办的首届 AI 会议上,首次提出“人工智能”这一术语。(McCarthy 后来发明了 Lisp 语言。)同年晚些时候,Allen Newell、J.C. Shaw 与 Herbert Simon 共同开发出首个可运行的 AI 计算机程序——Logic Theorist。
1967
Frank Rosenblatt 打造出 Mark 1 Perceptron,这是首台基于神经网络的计算机,可通过反复试错实现“学习”。仅一年后,Marvin Minsky 与 Seymour Papert 出版《感知器》(Perceptrons),该书既是神经网络领域的里程碑著作,也曾在一段时间内成为阻碍神经网络后续研究的争议性论点。
1980
采用反向传播算法进行自训练的神经网络,开始在 AI 应用中得到广泛应用。
1995
Stuart Russell 和 Peter Norvig 出版了《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach),成为 AI 研究领域的领先教科书之一。书中深入探讨了 AI 的四大潜在目标与定义,从理性、思考与行动的维度对计算机系统进行区分。
1997
IBM 的“深蓝”在一场国际象棋比赛(以及复赛)中击败了当时的世界象棋冠军 Garry Kasparov。
2004
John McCarthy 撰写了论文《什么是人工智能?》(What Is Artificial Intelligence?),提出了一个被广泛引用的 AI 定义。此时,大数据与云计算时代已经开启,组织得以管理规模持续增长的数据资产,这些资产日后将用于 AI 模型训练。
2011 年
IBM Watson® 在 Jeopardy! 比赛中击败冠军 Ken Jennings 与 Brad Rutter。同期,数据科学逐渐发展成为一门热门学科。
2015
百度的 Minwa 超级计算机采用卷积神经网络(一种特殊的深度神经网络)识别、分类图像,准确率高于普通人类。
2016
DeepMind 的 AlphaGo 程序依托深度神经网络,在五局制比赛中击败围棋世界冠军李世石 (Lee Sedol)。由于围棋的可走棋步极多(仅落子四手后,可能的棋步就超过 14.5 万亿种),这场胜利的意义尤为重大。后来,据报道,Google 以 4 亿美元的价格收购了 DeepMind。
2022
大语言模型 (LLM)(例如 OpenAI 的 ChatGPT)的兴起大幅提升了 AI 性能,也增强了其为企业创造价值的能力。依托这些新一代生成式 AI 技术,深度学习模型可在海量数据上完成预训练。
2024
最新的 AI 趋势表明 AI 的复兴势头仍在持续。可接收多种类型数据作为输入的多模态模型,能带来更丰富、更稳定的使用体验。这类模型整合了计算机视觉图像识别与 NLP 语音识别能力。在大参数规模的巨型模型迎来收益递减的时代,小模型也正实现快速突破。