什么是生成式人工智能 (生成式 AI)？

生成式人工智能（生成式 AI）是一种能够根据用户的提示或请求打造原创内容（例如文本、图像、视频、音频或软件代码）的人工智能。通过利用大语言模型与深度学习架构，生成式 AI 能帮助企业自动生成文本、图像、代码和结构化内容，在营销、客服、IT 运维和数据分析等多个场景中释放巨大价值。

生成式人工智能 (生成式 AI) 依赖于复杂的机器学习模型，称作深度学习 模型，即模拟人脑学习和决策过程的算法。这些模型的工作原理是识别大量数据中的模式和关系并对其进行编码，然后使用这些信息来理解用户的自然语言请求或问题，并以相关的新内容进行响应。

过去十年以来，AI 一直是热门技术话题，但生成式人工智能 (生成式 AI)，尤其是 2022 年 ChatGPT 的出现，使 AI 瞬间成为全球头条新闻，并掀起了前所未有的 AI 创新和采用浪潮。生成式人工智能 (生成式 AI) 为个人和组织提供了巨大的工作效率优势，同时也引发了非常现实的挑战和风险，各企业都在向前迈进，深入了解该技术如何能改善其内部工作流程，并丰富其产品和服务。管理咨询公司 McKinsey 的研究显示，三分之一的组织至少已经在一项业务职能中定期使用生成式 AI。¹行业分析机构 Gartner 预计，截至 2026 年，超过 80％的组织将部署生成式人工智能 (生成式 AI) 应用程序，或使用生成式人工智能 (生成式 AI) 应用程序编程接口 (API)。²

生成式人工智能的工作原理

大部分情况下，生成式人工智能 (生成式 AI) 分三个阶段运行：

训练，创建可作为多个生成式人工智能 (生成式 AI) 应用程序的基础模型。
调整，以针对特定的生成式人工智能 (生成式 AI) 应用程序量身定制基础模型。
生成、评估和重新调整，以评估生成式人工智能 (生成式 AI) 应用程序的输出，并不断提高其质量和准确性。

培训

生成式人工智能 (生成式 AI) 从一个基础模型开始，该模型是一个深度学习模型，是多种不同类型生成式 AI 应用程序的基础。当下最常见的基础模型，是为文本生成应用程序而创建的大语言模型 (LLM)，但也有用于图像生成、视频生成以及声音和音乐生成的基础模型，还有可以支持多种内容生成的多模态基础模型。

为了创建基础模型，从业者在大量原始、非结构化、未标记的数据上训练深度学习算法，例如，从互联网或其他一些庞大的数据源中挑选出的 TB 级数据。在训练过程中，算法可执行和评估数百万次“填空”练习，尝试预测序列中的下一个元素（例如，句子中的下一个词汇、图像中的下一个元素、代码行中的下一个命令），并不断调整自身，以最小化其预测与实际数据（或“正确”结果）之间的差异。

此训练的结果是一个神经网络，由一系列参数组成，包括数据中实体、模式和关系的编码表示，可以根据输入或提示自主生成内容。

此训练过程需要大量计算，耗时且成本高昂。它需要数千个集群图形处理器 (GPU) 和数周的处理时间，所有这些通常需花费数百万美元。开源基础模型项目，如 Meta 的 Llama-2，使生成式人工智能 (生成式 AI) 开发人员能够避免这一步骤及其成本。

微调

打个比方，基础模型是一个多面手：它对很多类型的内容都有所了解，但通常无法以所需的准确性或精确度生成特定类型的输出。为此必须针对特定的内容生成任务调整模型。这可以通过多种方式实现。

微调

微调涉及向模型馈送特定于内容生成应用程序的标记数据，即应用程序可能收到的问题或提示，以及所需格式的相应正确答案。例如，如果开发团队尝试创建客服聊天机器人，它将创建数百或数千个包含已标记客户服务问题和正确答案的文档，然后将这些文档提供给模型。

微调是一项劳动密集型工作。开发人员通常会将任务外包给拥有大量数据标记人员团队的公司。

具备人类反馈的强化学习 (RLHF)

在 RLHF 中，人类用户通过评估来响应生成的内容，此类评估可以帮助模型进行更新，以提高其准确性和相关性。通常，RLHF 涉及相关人员根据相同的提示对不同的输出进行“评分”。但这也可以很简单，比如让人员输入文字或通过语音回复聊天机器人或虚拟助手，以纠正其输出结果。

生成、评估、进一步调整

开发人员和用户会不断评估其生成式人工智能 (生成式 AI) 应用程序的输出，并进一步调整模型（甚至每周一次），以提高准确性或相关性。（相比之下，基础模型本身的更新频率要低得多，可能每年或每 18 个月更新一次。）

提高生成式 AI 性能的另一种方法是检索增强生成 (RAG)。RAG 是一个框架，为扩展基础模型使用训练数据之外的相关信息来源，以补充和完善原始模型中的参数或表述。RAG 可以确保生成式 AI 应用程序始终能够访问最新信息。另外，通过 RAG 可访问的额外资源对于用户而言公开透明，而原始基础模型中的知识并不透明。

生成式人工智能模型架构及其演变过程

真正的生成式 AI 模型，即能够根据需求自主创建内容的深度学习模型，是在过去十几年中发展起来的。在此期间，具有里程碑意义的模型架构有：

变分自动编码器 (VAE)，可推动图像识别、自然语言处理和异常检测方面的突破。
生成式对抗网络 (GAN) 和扩散模型，可提高以往应用程序的准确性，并支持部分用于照片级真实图像生成的首批 AI 解决方案。
转换器，当今最重要的基础模型和生成式 AI 解决方案背后的深度学习模型架构。

变分自动编码器 (VAE)

自动编码器是一种深度学习模型，包含两个相连的神经网络：其中一个将大量非结构化、未标记的训练数据编码（或压缩）为参数，另一个则将解码这些参数以重建内容。从技术角度而言，自动编码器可以生成新内容，但它们更适合用于压缩数据用于存储或传输，以及解压缩以供使用，而不是生成高质量的内容。

变分自动编码器 (VAE) 于 2013 年推出，可以像自动编码器一样对数据进行编码，还可以解码内容的多种新变体。通过训练 VAE 生成针对特定目标的变体，它可以随着时间的推移“归零”到更准确、更高精确的内容。早期的 VAE 应用场景包括异常检测（例如医学图像分析）和自然语言生成。

生成式对抗网络 (GAN)

2014 年推出的 GAN 还包括两个神经网络：生成新内容的生成器以及用于评估生成数据的准确性和质量的鉴别器。这些对抗算法可促进模型生成越来越高质量的输出。

GAN 通常用于图像和视频生成，但可以跨各个领域生成高质量、逼真的内容。事实证明，它们在风格转换（将图像的风格从照片更改为铅笔素描）和数据增强（创建新的合成数据，以增加训练数据集的大小和多样性）等任务方面特别成功。

扩散模型

同样在 2014 年推出的扩散模型，其工作原理是首先向训练数据添加噪声，直到其随机且不可识别，然后训练算法以迭代扩散噪声，显示所需的输出。

扩散模型比 VAE 或 GAN 需要更多的训练时间，但最终可以提供对输出更细粒度的控制，尤其是对于高质量图像生成工具。DALL-E 是 Open AI 的图像生成工具，并由扩散模型驱动。

转换器

2017 年，Ashish Vaswani 等人发表的一篇论文中首次记录了转换器，它改进了编码器-解码器范式，使基础模型的训练方式及其可生成内容的质量和范围向前迈了一大步。这些模型是当今大多数热门生成式 AI 工具的核心，包括 ChatGPT 和 GPT-4、Copilot、BERT、Bard 和 Midjourney 等。

转换器使用一种名为 注意力的概念，即确定并关注序列中数据最为重要的部分，以便

同时处理整个数据序列，例如句子，而不是单个单词；
捕捉序列中数据的上下文；
将训练数据编码为表示数据及其上下文的嵌入（也称为超参数）。

除了支持加速训练外，转换器还擅长自然语言处理 (NLP) 和自然语言理解 (NLU)，并可以生成更长的数据序列，例如，不仅可以回答问题，还可以生成诗歌、文章或论文，比其他深度生成式 AI 模型具有更高的准确性和更高的质量。转换器模型经过训练或调整，还可以使用工具（如电子表格应用程序、HTML、绘图程序）输出特定格式的内容。

生成式人工智能可以创造哪些内容

生成式人工智能可以在各种不同领域创建多种类型的内容。

文本

生成式模型，尤其是那些基于转换器的文本，可以生成与上下文相关的连贯文本，从说明和文档到宣传册、电子邮件、网站副本、博客、文章、报告、论文甚至是创意写作，应有尽有。它们还可以执行重复或乏味的写作任务（例如，起草文档摘要或网页的元描述），从而将文案人员的时间用于更具创造性、更高价值的工作。

图片和视频

DALL-E、Midjourney 和 Stable Diffusion 等生成式 AI 图像生成功能可以创建逼真的图像或原创艺术作品，并可以执行风格转换、图像到图像转换以及其他图像编辑或图像增强任务。新兴的生成式 AI 视频工具可以通过文本提示创建动画，且能够比其他方法更快、更经济高效地将特殊效果应用于现有视频。

声音、语音和音乐

生成式模型可以为支持语音的 AI 聊天机器人和数字助理、有声读物旁白以及其他应用程序合成声音自然的语音和音频内容。同样的技术可生成模仿专业作品结构和声音的原创音乐。

软件代码

生成式 AI 可以生成原始代码、自动完成代码片段、在编程语言之间进行转换并总结代码功能。生成式 AI 可以支持开发人员快速对应用程序进行原型设计、重构和调试，同时为编码任务提供自然语言界面。

设计和艺术

生成式 AI 模型可以生成独特的艺术和设计作品或协助进行图形设计。应用场景包括环境、角色或头像的动态生成，以及虚拟模拟和视频游戏的特效。

模拟和合成数据

可以训练生成式 AI 模型，以生成合成数据，或基于真实或合成数据的合成结构。例如，将生成式 AI 应用于药物发现，以生成具有所需特性的分子结构，并帮助设计新的制药化合物。

加入超过 100,000 名订阅者的行列，阅览最新科技新闻

通过每周两期的 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。详见 IBM 隐私声明。

生成式人工智能的优势

很明显，生成式人工智能的最重要优势是效率更高。由于生成式人工智能可以按需生成内容和答案，因此有可能加速或自动化劳动密集型任务、降低成本并让员工腾出时间从事更高价值的工作。

生成式人工智能也为个人和组织提供了其他一些优势。

增强创造力

生成式人工智能 (生成式 AI) 可以通过自动执行头脑风暴激发创造力，生成多个新颖内容版本。这些变体也可以作为起点或参考，帮助作者、艺术家、设计师和其他创作者越过创意障碍。

改进（并加速）决策

生成式人工智能 (生成式 AI) 擅长分析大型数据集、识别模式和提取有意义的洞察，然后根据这些洞察生成假设和建议，以支持高管、分析师、研究人员和其他专业人士做出更明智的数据驱动型决策。

动态个性化

在推荐系统和内容创建等应用场景中，生成式人工智能 (生成式 AI)可以分析用户偏好和历史记录，并实时生成个性化内容，从而提供量身定制、更具吸引力的用户体验。

持续可用性

生成式人工智能 (生成式 AI) 可连续运行，不会疲劳，并为客户支持聊天机器人和自动响应等任务提供全天候可用性。

AI 学院

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。

转到视频集

生成式人工智能用例

以下只是几个针对企业的生成式人工智能 (生成式 AI) 用例。随着技术的发展，各组织将这些工具嵌入其工作流程，我们可以预见会有更多这样的工具出现。

客户体验

营销组织可以使用生成式 AI 工具为博客、网页、宣传材料、电子邮件等起草文案，从而节省时间，并提高内容生产能力。生成式 AI 解决方案还可以根据广告的投放时间、地点和受众，实时生成高度个性化的营销文案和视觉效果。它将为下一代聊天机器人和虚拟代理提供动力，这些机器人和虚拟代理可以提供个性化响应，甚至代表客户发起行动，与上一代使用有限数据训练、面向非常具体的任务的会话式 AI 模型相比，这是一项重大进步。

软件开发和应用程序现代化

代码生成工具可以自动执行并加速编写新代码的过程。代码生成还可以通过自动执行混合云环境中旧版应用程序现代化所需的大量重复编码，来显著加速应用程序现代化。

数字化劳动力

生成式 AI 可以快速起草或修改合同、发票、账单和其他数字或物理“文案”，以便负责使用或管理的员工可以专注于更高级别的任务。生成式 AI 可以加快几乎所有企业领域的工作流，包括人力资源、法律、采购和财务。

科学、工程和研究

生成式 AI 模型可以帮助科学家和工程师针对复杂问题提出新颖的解决方案。例如，在医疗保健领域，生成式模型可用于合成医学图像，以便训练和测试医学成像系统。

生成式 AI、AI 智能体和智能体式 AI

AI 智能体是一种自主的 AI 程序，它可以通过设计自己的工作流和使用可用工具（其他应用程序或服务），代表用户或其他系统执行任务和实现目标，而无需人工干预。智能体式 AI 是一个由多个 AI 智能体组成的系统，其行动经协调或编排，以完成比系统中任何单个智能体所能达成更复杂的任务或更宏大的目标。

与在预定约束内运行并需要人工干预的聊天机器人和其他 AI 模型不同，AI 智能体和智能体式 AI 表现出自主性、目标驱动行为和对不断变化的环境的适应性。“智能体”和“智能体式”是指这些模型的智能体，或者说，他们独立和有目的地行动的能力。

将 AI 智能体视为生成式 AI 之后的自然演进，也不失为一种思路。生成式 AI 模型专注于基于学习模式创建内容；智能体利用该内容相互交互并与其他工具协作，以做出决策、解决问题和完成任务。例如，一款生成式 AI 应用或许能够告知您根据工作计划攀登珠穆朗玛峰的最佳时间，而智能体不仅能告知此信息，还能使用在线旅行服务为您预订最佳航班并在尼泊尔最便利的酒店预订房间。

探索我们的 2025 年 AI 智能体指南

生成式人工智能的挑战、限制和风险

生成式人工智能在相对较短的时间内取得了显著的进步，但仍会给开发人员、用户和广大公众带来重大挑战和风险。以下是最为严重的部分问题，以及解决这些问题的方法。

“幻觉”和其他不准确的输出

AI 幻觉是一种荒谬或完全不准确的生成式人工智能 (生成式 AI) 输出，但往往看起来非常合理。一个典型示例，一名律师使用生成式人工智能 (生成式 AI) 工具进行研究，为一个备受瞩目的案件做准备，该工具“制作”了几个示例按键，其中包含引述和归因，但这些案例完全是虚构的。

部分从业者认为，幻觉是平衡模型准确性和创造能力的不可避免的结果。但开发人员可以实施称为防护措施 的预防措施，将模型限制在相关或可信的数据源。持续评估和调整也有助于减少幻觉和误差。

输出不一致

由于新一代生成式人工智能 (生成式 AI) 模型的变分或概率性质，相同的输入可能会产生略微或显著不同的输出。某些应用中，例如客服聊天机器人，这种情况可能并不理想，因为此类情况下，人们期望或希望获得一致的输出结果。通过提示工程（迭代优化或复合提示），用户可以获得合适的提示，能够让生成式人工智能 (生成式 AI) 应用程序始终如一地提供想要的结果。

偏见

生成式模型可以学习训练数据中存在的社会偏见，或用于调整模型的标记数据、外部数据源或人工评估器中存在的社会偏见，并因此生成有偏见、不公平或令人反感的内容。为了防止模型输出中出现偏见，开发人员必须确保训练数据的多样性，制定在训练和调整期间防止偏见的准则，并持续评估模型输出的偏见和准确性。

缺乏可解释性和指标

很多生成式人工智能 (生成式 AI) 模型都是“黑匣”模型，这意味着理解其决策过程可能会比较困难，或根本不可能实现。即使是创建底层算法的工程师或数据科学家，也可能无法理解或解释算法内部到底发生了什么，以及特定结果的得出方式。可解释的 AI 实践和技术可以帮助从业者和用户理解和信任生成式模型的流程和输出。

评估和比较生成内容的质量也是一项挑战。传统评估指标可能无法捕捉到创造力、连贯性或相关性的细微差别。为生成式人工智能 (生成式 AI) 开发稳固可靠的评估方法仍然是一个活跃的研究领域。

对安全、隐私和知识产权的威胁

生成式人工智能 (生成式 AI) 模型可用来生成令人信服的网络钓鱼电子邮件、虚假身份或其他恶意内容，进而可能会诱骗用户采取危害安全和数据隐私的行动。开发人员和用户需要注意避免输入模型的数据（调整期间或作为提示的一部分）暴露自己的知识产权 (IP)，或受其他组织视为 IP 来保护的任何信息。他们还需要监控输出是否存在暴露自己 IP 或违反他人 IP 保护规定的新内容。

Deepfakes

Deepfakes 是 AI 生成或 AI 操作的图像、视频或音频，旨在让人们相信他们看到或听到某人在做或说的他们从未做过或说过的事情。这些是最令人不寒而栗的部分示例，说明了生成式人工智能 (生成式 AI) 的力量会如何被恶意滥用。

大多数人都熟悉为损害声誉或传播错误信息而制造的深度假货。最近，网络罪犯将深度伪造作为网络攻击（例如，语音网络钓鱼诈骗中的虚假声音）或金融欺诈计划的一部分。

研究人员正在努力研究能够更准确地检测深度伪造的 AI 模型。与此同时，用户教育和最佳实践（例如，不分享未经验证或未经审查的争议材料）有助于限制深度伪造可能造成的损害。

生成式人工智能简史

“生成式人工智能 (生成式 AI)”一词于 21 世纪 20 年代进入公众视野，但生成式人工智能 (生成式 AI) 几十年来一直是我们生活的一部分，今天的生成式人工智能 (生成式 AI) 技术借鉴了早在 20 世纪初就取得的机器学习突破。生成式人工智能 (生成式 AI) 的非详尽代表历史历程涵盖以下日期：

1964 年：麻省理工学院的计算机科学家 Joseph Weizenbaum 开发了基于文本的自然语言处理应用程序 ELIZA。ELIZA 基本上就是首款聊天机器人（当时称为 "Chatterbot"），采用模式匹配脚本，对输入的自然语言做出感同身受的文本响应。
1999 年：Nvidia 推出首款图形处理单元 GeoForce。GPU 最初是为视频游戏提供流畅的运动图形而开发的，现在已成为开发 AI 模型和挖掘加密货币的实际平台。
2004 年：Google 自动完成功能首次出现，在用户输入搜索词时自动生成下一个可能词汇或短语。相对现代的生成式人工智能 (生成式 AI) 基于马尔可夫链，这是 1906 年开发的一种数学模型。
2013 年：第一个变分自编码器 (VAE) 出现。
2014 年：首个生成式对抗网络 (GAN) 和扩散模型出现。
2017 年：Google Brain 的团队 Ashish Vaswani 和多伦多大学的一支小组发表了《注意力就是一切》，这是一篇记录转换器模型原理的论文，人们普遍认为，这种模型支持着当今正在开发的最强大的基础模型和生成式人工智能 (生成式 AI) 工具。
2019-2020 年：OpenAI 推出 GPT（生成式预训练转换器）大语言模型、GPT-2 和 GPT-3。
2022 年：OpenAI 推出 ChatGPT，这是 GPT-3 的前端，可根据终端用户的提示生成复杂、连贯、具有上下文的句子和长篇内容。

随着 ChatGPT 的声名鹊起和热门程度有效打开了闸门，生成式人工智能 (生成式 AI) 的发展和产品发布正以惊人的速度进行，其中包括 Google Bard（现在的 Gemini）、Microsoft Copilot、IBM watsonx.ai 以及 Meta 的开源 Llama-2 大型语言模型。