主页
topics
生成式 AI
出版日期:2024 年 3 月 22 日
撰稿人:Cole Stryker,Mark Scapicchio
生成式 AI,有时也称作 gen AI,是一种人工智能 (AI)。生成式 AI 能够创建原创内容(例如文本、图像、视频、音频或软件代码)以响应用户的提示或请求。
生成式 AI 依赖于复杂的机器学习模型,称作深度学习模型,即模拟人脑学习和决策过程的算法。这些模型的工作原理是识别大量数据中的模式和关系并对其进行编码,然后使用这些信息来理解用户的自然语言请求或问题,并以相关的新内容进行响应。
过去十年以来,AI 一直是热门技术话题,但生成式 AI,尤其是 2022 年 ChatGPT 的出现,使生成式 AI 成为全球头条新闻,并掀起了前所未有的 AI 创新和采用浪潮。生成式 AI 为个人和组织提供了巨大的工作效率优势,同时也产生了非常现实的挑战和风险,但企业正在向前迈进,深入了解该技术如何能改善其内部工作流程,并丰富其产品和服务。管理咨询公司 McKinsey 的研究显示,三分之一的组织至少已经在一项业务职能中定期使用生成式 AI。¹ 行业分析机构 Gartner 预计,截至 2026 年,超过 80% 的组织将部署生成式 AI 应用程序,或使用生成式 AI 应用程序编程接口 (API)。2
了解如何自信地将生成式 AI 和机器学习融入您的业务中。
大部分情况下,生成式 AI 分三个阶段运行:
生成式 AI 始于一个基础模型 – 深度学习模型,是多种不同类型生成式 AI 应用程序的基础。当下最常见的基础模型,是为文本生成应用程序而创建的大型语言模型 (LLM),但也有用于图像生成、视频生成以及声音和音乐生成的基础模型,还有可以支持多种内容生成的多模态基础模型。
为了创建基础模型,从业者在大量原始、非结构化、未标记的数据上训练深度学习算法,例如,从互联网或其他一些庞大的数据源中挑选出的 TB 级数据。在训练过程中,算法可执行和评估数百万次“填空”练习,尝试预测序列中的下一个元素(例如,句子中的下一个词汇、图像中的下一个元素、代码行中的下一个命令),并不断调整自身,以最小化其预测与实际数据(或“正确”结果)之间的差异。
这种训练的结果是一个由参数 构成的神经网络,即数据中实体、模式和关系的编码表示,可以根据输入或提示自主生成内容。
这是一种计算密集型、耗时且昂贵的训练流程,需要数千个集群图形处理单元 (GPU) 和数周的处理时间,所有这些将花费数百万美元。开源基础模型项目,例如 Meta 的 Llama-2,支持生成式 AI 开发人员避免这一步骤及其成本。
打个比方,基础模型是一个多面手:它对很多类型的内容都有所了解,但通常无法以所需的准确性或精确度生成特定类型的输出。为此必须针对特定的内容生成任务调整模型。这可以通过多种方式实现。
微调涉及向模型馈送特定于内容生成应用程序的标记数据 – 应用程序可能收到的问题或提示,以及所需格式的相应正确答案。例如,如果开发团队尝试创建客服聊天机器人,它将创建数百或数千个包含已标记客户服务问题和正确答案的文档,然后将这些文档提供给模型。
微调是一项劳动密集型工作。开发人员通常会将任务外包给拥有大量数据标记人员团队的公司。
在 RLHF 中,人类用户通过评估来响应生成的内容,此类评估可以帮助模型进行更新,以提高其准确性和相关性。通常,RLHF 涉及相关人员根据相同的提示对不同的输出进行“评分”。但这也可以很简单,比如让人员输入文字或通过语音回复聊天机器人或虚拟助手,以纠正其输出结果。
开发人员和用户会不断评估其生成式 AI 应用程序的输出,并进一步调整模型(甚至每周一次),以提高准确性或相关性。(相比之下,基础模型本身的更新频率要低得多,可能每年或每 18 个月更新一次。)
提高生成式 AI 应用程序性能的另一种方式是检索增强生成 (RAG)。RAG 是用于扩展基础模型的框架,以便使用训练数据之外的相关来源,作为原始模型中的参数或表示的补充并加以完善。RAG 可以确保生成式 AI 应用程序始终能够访问最新信息。另外,通过 RAG 获取的额外资源对于用户而言公开透明,而原始基础模型中的知识则并不透明。
真正的生成式 AI 模型,即能够根据需求自主创建内容的深度学习模型,是在过去十几年中发展起来的。在此期间,具有里程碑意义的模型架构有:
变分自动编码器 (VAE),可推动图像识别、自然语言处理和异常检测方面的突破。
生成式对抗网络 (GAN) 和扩散模型,可提高以往应用程序的准确性,并支持部分用于照片级真实图像生成的首批 AI 解决方案。
转换器,当今最重要的基础模型和生成式 AI 解决方案背后的深度学习模型架构。
自动编码器是一种深度学习模型,包含两个相连的神经网络:其中一个将大量非结构化、未标记的训练数据编码(或压缩)为参数,另一个则将解码这些参数以重建内容。从技术角度而言,自动编码器可以生成新内容,但它们更适合用于压缩数据用于存储或传输,以及解压缩以供使用,而不是生成高质量的内容。
变分自动编码器 (VAE) 于 2013 年推出,可以像自动编码器一样对数据进行编码,还可以解码内容的多种新变体。通过训练 VAE 生成针对特定目标的变体,它可以随着时间的推移“归零”到更准确、更高精确的内容。早期的 VAE 应用场景包括异常检测(例如医学图像分析)和自然语言生成。
2014 年推出的 GAN 还包括两个神经网络:生成新内容的生成器以及用于评估生成数据的准确性和质量的鉴别器。这些对抗算法可促进模型生成越来越高质量的输出。
GAN 通常用于图像和视频生成,但可以跨各个领域生成高质量、逼真的内容。事实证明,它们在风格转换(将图像的风格从照片更改为铅笔素描)和数据增强(创建新的合成数据,以增加训练数据集的大小和多样性)等任务方面特别成功。
同样在 2014 年推出的扩散模型,其工作原理是首先向训练数据添加噪声,直到其随机且不可识别,然后训练算法以迭代扩散噪声,显示所需的输出。
扩散模型比 VAE 或 GAN 需要更多的训练时间,但最终可以提供对输出更细粒度的控制,尤其是对于高质量图像生成工具。DALL-E 是 Open AI 的图像生成工具,并由扩散模型驱动。
2017 年,Ashish Vaswani 等人发表的一篇论文中首次记录了转换器,它改进了编码器-解码器范式,使基础模型的训练方式及其可生成内容的质量和范围向前迈了一大步。这些模型是当今大多数热门生成式 AI 工具的核心,包括 ChatGPT 和 GPT-4、Copilot、BERT、Bard 和 Midjourney 等。
转换器使用一种名为注意力 的概念,即确定并关注序列中数据最为重要的部分,以便
同时处理整个数据序列,例如句子,而不是单个单词;
捕捉序列中数据的上下文;
将训练数据编码为表示数据及其上下文的嵌入(也称为超参数)。
除了支持加速训练外,转换器还擅长自然语言处理 (NLP) 和自然语言理解 (NLU),并可以生成更长的数据序列,例如,不仅可以回答问题,还可以生成诗歌、文章或论文,比其他深度生成式 AI 模型具有更高的准确性和更高的质量。转换器模型经过训练或调整,还可以使用工具(如电子表格应用程序、HTML、绘图程序)输出特定格式的内容。
生成式 AI 可以在各种不同领域创建多种类型的内容。
生成式模型,尤其是那些基于转换器的文本,可以生成与上下文相关的连贯文本,从说明和文档到宣传册、电子邮件、网站副本、博客、文章、报告、论文甚至是创意写作,应有尽有。它们还可以执行重复或乏味的写作任务(例如,起草文档摘要或网页的元描述),从而将文案人员的时间用于更具创造性、更高价值的工作。
DALL-E、Midjourney 和 Stable Diffusion 等图像生成功能可以创建逼真的图像或原创艺术作品,并可以执行风格转换、图像到图像转换以及其他图像编辑或图像增强任务。新兴的生成式 AI 视频工具可以通过文本提示创建动画,且能够比其他方法更快、更经济高效地将特殊效果应用于现有视频。
生成式模型可以为支持语音的 AI 聊天机器人和数字助理、有声读物旁白以及其他应用程序合成声音自然的语音和音频内容。同样的技术可生成模仿专业作品结构和声音的原创音乐。
生成式 AI 可以生成原始代码、自动完成代码片段、在编程语言之间进行转换并总结代码功能。它可以支持开发人员快速对应用程序进行原型设计、重构和调试,同时为编码任务提供自然语言界面。
生成式 AI 模型可以生成独特的艺术和设计作品或协助进行图形设计。应用场景包括环境、角色或头像的动态生成,以及虚拟模拟和视频游戏的特效。
可以训练生成式 AI 模型,以生成合成数据,或基于真实或合成数据的合成结构。例如,将生成式 AI 应用于药物发现,以生成具有所需特性的分子结构,并帮助设计新的制药化合物。
生成式 AI 较为明显的整体优势是效率更高。生成式 AI 可以按需生成内容和答案,因此有可能加速或自动化劳动密集型任务、降低成本并让员工腾出时间从事更高价值的工作。
生成式 AI 也为个人和组织提供了其他一些益处。
生成式 AI 可以通过自动执行头脑风暴激发创造力,生成多个新颖内容版本。这些变体也可以作为起点或参考,帮助作者、艺术家、设计师和其他创作者越过创意障碍。
生成式 AI 擅长分析大型数据集、识别模式和提取有意义的洞察,然后根据这些洞察生成假设和建议,以支持高管、分析师、研究人员和其他专业人士做出更明智的数据驱动型决策。
在推荐系统和内容创建等应用场景中,生成式 AI 可以分析用户偏好和历史记录,并实时生成个性化内容,从而提供量身定制、更具吸引力的用户体验。
生成式 AI 可连续运行,不会疲劳,并为客户支持聊天机器人和自动响应等任务提供全天候可用性。
以下只是几个针对企业的生成式 AI 用例。随着技术的发展,各组织将这些工具嵌入其工作流程,我们可以预见会有更多这样的工具出现。
营销组织可以使用生成式 AI 工具为博客、网页、宣传材料、电子邮件等起草文案,从而节省时间,并提高内容生产能力。生成式 AI 解决方案还可以根据广告的投放时间、地点和受众,实时生成高度个性化的营销文案和视觉效果。它将为下一代聊天机器人和虚拟代理提供动力,这些机器人和虚拟代理可以提供个性化响应,甚至代表客户发起行动 – 与上一代使用有限数据训练、面向非常具体的任务的会话式 AI 模型相比,这是一项重大进步。
代码生成工具可以自动执行并加速编写新代码的过程。代码生成还可以通过自动执行混合云环境中旧版应用程序现代化所需的大量重复编码,来显著加速应用程序现代化。
生成式 AI 可以快速起草或修改合同、发票、账单和其他数字或物理“文案”,以便负责使用或管理的员工可以专注于更高级别的任务。这可以加快几乎所有企业领域的工作流程,包括人力资源、法律、采购和财务。
生成式 AI 模型可以帮助科学家和工程师针对复杂问题提出新颖的解决方案。例如,在医疗保健领域,生成式模型可用于合成医学图像,以便训练和测试医学成像系统。
生成式 AI 在相对较短的时间内取得了显著的进步,但仍会给开发人员、用户和广大公众带来重大挑战和风险。以下是生成式 AI 最为严重的部分问题,以及解决这些问题的方法。
AI 幻觉是一种荒谬或完全不准确的生成式 AI 输出,但往往看起来非常合理。一个典型示例,一名律师使用生成式 AI 工具进行研究,为一个备受瞩目的案件做准备,该生成式 AI 工具“制作”了几个示例按键,其中包含引述和归因,但这些案例完全是虚构的(ibm.com 外部链接)。
部分从业者认为,幻觉是平衡模型准确性和创造能力的不可避免的结果。但开发人员可以实施称为防护措施 的预防措施,将模型限制在相关或可信的数据源。 持续评估和调整也有助于减少幻觉和误差。
由于新一代生成式 AI 模型的变分或概率性质,相同的输入可能会产生略微或显著不同的输出。某些应用程序中,例如客服聊天机器人,这种情况可能并不理想,因为此类情况下,人们期望或希望获得一致的输出结果。通过提示工程(迭代优化或复合提示),用户可以获得能够从生成式 AI 应用程序始终如一地提供其想要的结果的提示。
生成式 AI 模型可以学习训练数据中存在的社会偏见,或用于调整模型的标记数据、外部数据源或人工评估器中存在的社会偏见,并因此生成有偏见、不公平或令人反感的内容。为了防止模型输出中出现偏见,开发人员必须确保训练数据的多样性,制定在训练和调整期间防止偏见的准则,并持续评估模型输出的偏见和准确性。
很多生成式 AI 模型都是“黑匣”模型,这意味着理解其决策过程可能会比较困难,或根本不可能实现。即使是创建底层算法的工程师或数据科学家,也可能无法理解或解释算法内部到底发生了什么,以及特定结果的得出方式。可解释的 AI 实践和技术可以帮助从业者和用户理解和信任生成式模型的流程和输出。
评估和比较生成内容的质量也是一项挑战。传统评估指标可能无法捕捉到创造力、连贯性或相关性的细微差别。为生成式 AI 开发稳固可靠的评估方法仍然是一个活跃的研究领域。
生成式 AI 模型可用来生成令人信服的网络钓鱼电子邮件、虚假身份或其他恶意内容,进而可能会诱骗用户采取危害安全和数据隐私的行动。开发人员和用户需要注意避免输入模型的数据(调整期间或作为提示的部分)暴露自己的知识产权 (IP),或受其他组织视为 IP 来保护的任何信息。他们还需要监控输出是否存在暴露自己 IP 或违反他人 IP 保护规定的新内容。
Deepfakes 是 AI 生成或是 AI 操作的图像、视频或音频,旨在让人们相信他们看到或听到某人在做或说的他们从未做过或说过的事情。这些是最令人不寒而栗的部分示例,说明了生成式 AI 的力量会如何被恶意滥用。
大多数人都熟悉为损害声誉或传播错误信息而制造的深度假货。最近,网络罪犯将深度伪造作为网络攻击(例如,语音网络钓鱼诈骗中的虚假声音)或金融欺诈计划的一部分。
研究人员正在努力研究能够更准确地检测深度伪造的 AI 模型。与此同时,用户教育和最佳实践(例如,不分享未经验证或未经审查的争议材料)有助于限制深度伪造可能造成的损害。
“生成式 AI”一词于 20 世纪 20 年代进入公众视野,但生成式 AI 几十年来一直是我们生活的一部分,今天的生成式 AI 技术借鉴了早在 20 世纪初就取得的机器学习突破。生成式 AI 的非详尽代表历史历程涵盖以下日期:
1964 年:麻省理工大学的计算机科学家 Joseph Weizenbaum 开发出基于文本的自然语言处理应用程序 ELIZA。ELIZA 基本上就是首款聊天机器人(当时称为“Chatterbot”),采用模式匹配脚本,对输入的自然语言做出感同身受的文本响应。
1999 年:Nvidia 推出首款图形处理单元 GeoForce。GPU 最初是为视频游戏提供流畅的运动图形而开发的,现在已成为开发 AI 模型和挖掘加密货币的实际平台。
2004 年:Google 自动完成功能首次出现,在用户输入搜索词时自动生成下一个可能词汇或短语。相对现代的生成式 AI 基于马尔可夫链,这是 1906 年开发的一种数学模型。
2013 年:首个变分自动编码器 (VAE) 出现。
2014 年:首个生成式对抗网络 (GAN) 和扩散模型出现。
2017 年:Google Brain 的团队 Ashish Vaswani 和多伦多大学的一支小组发表了《注意力就是一切》,这是一篇记录转换器模型原理的论文,人们普遍认为,这种模型支持着当今正在开发的最强大的基础模型和生成式 AI 工具。
2019-2020 年:OpenAI 推出 GPT(生成式预训练转换器)大型语言模型、GPT-2 和 GPT-3。
2022 年:OpenAI 推出 ChatGPT,这是 GPT-3 的前端,可根据终端用户的提示生成复杂、连贯、具有上下文的句子和长篇内容。
随着 ChatGPT 的声名鹊起和热门程度有效打开了闸门,生成式 AI 的发展和产品发布正以惊人的速度进行,其中包括 Google Bard(现在的 Gemini)、Microsoft Copilot、IBM® watsonx.ai 以及 Meta 的开源 Llama-2 大型语言模型。
轻松训练、验证、调整和部署生成式 AI、基础模型和机器学习功能,并在短时间内使用少量数据构建 AI 应用程序。IBM watsonx.ai 将由基础模型提供支持的全新生成式 AI 功能和传统机器学习整合到一个跨越 AI 生命周期的强大开发平台中。
每次互动中为客户、需要帮助的客户服务中心座席人员乃至需要信息的员工提供卓越体验。以基于业务内容的自然语言扩展答案,以推动以结果为导向的交互和快速、准确的响应。
借助值得信赖的 AI 解决方案构建业务未来。IBM 在解决全球最大的业务问题方面拥有无可比拟的丰富经验,无论您处于 AI 之旅的任何阶段,都可以为您提供帮助。
AI 学院是我们的全新旗舰级商用 AI 教育体验,可帮助企业领导者获取相关知识,从而确定可推动增长的 AI 投资的优先级。
我们的数据驱动研究识别企业如何在不断发展扩大的生成式 AI 领域找到并充分利用机会。
CEO 如何在生成式 AI 所能创造的价值与其所需的投资和带来的风险之间取得平衡。
通过亲手实验、课程、指导项目、试用等方式学习基本概念,并培养您的技能。
选择错误的模型可能会对您的业务造成严重的影响。了解如何根据您的用例选择最合适的模型。
深度学习可支持系统对数据进行聚类,并以令人惊叹的准确性进行预测。
1 《2023 年 AI 发展现状:生成式 AI 的突破之年》(ibm.com 外部链接),McKinsey,2023 年 8 月 1 日
2 Gartner 表示,截至 2026 年,超过 80% 的企业将使用生成式 AI API 或部署支持生成式 AI 的应用程序(链接位于 ibm.com 站外),Gartner,2023 年 10 月 11 日