生成式模型的工作原理是识别训练数据中的模式和分布,然后将这些发现应用于根据用户输入生成新数据。训练过程会教会模型识别训练数据集的联合概率分布。然后,该模型利用学到的知识来创建与其训练数据相似的新数据样本。
生成模型通常使用无监督学习技术进行训练:输入大量未标记的数据,并自行对数据进行分类。这些模型会找出数据的分布,从而培养内部逻辑,然后用于创建新数据。
在训练期间,模型应用损失函数来衡量实际结果与模型预测之间的差距。训练的目标是最小化损失函数,使生成的输出尽可能接近现实。
内容生成是一个或然性过程。生成式模型认知事物的方式与人类不同。相反,生成式模型根据在训练过程中学到的规则,使用复杂的数学方程来预测最可能的输出。
生成式模型尝试生成某个类别的新数据。判别模型将项目划分到已知的组中,而聚类模型则会找出对数据集中项目进行分组的方式。预测性模型根据历史数据对未来事件或状态进行估计。
判别模型用于已知数据的标签或类别的监督学习任务。很多判别模型是分类器,试图识别特征和标签之间的关系,然后根据这些标签的条件概率为新数据分配类标签。
例如,经过训练以区分鱼和鸟图像的判别模型,可以猜测图像更有可能是鱼还是鸟。图像识别是机器学习中的一种分类方法,是判别模型的常见应用。
虽然生成式模型和判别模型有明显的区别,但它们经常一起工作,例如在生成式对抗网络 (GAN) 中。
聚类模型用于无监督学习任务,将数据集内的记录分为不同聚类。他们可以识别相似的项目,还可以了解将这些项目与数据集中其他组的区别。
聚类模型缺乏对数据集的先验知识,包括可能有多少个组的知识。市场研究员可能会使用聚类模型来识别目标人群中的买家角色。
预测性模型利用机器学习和统计分析处理历史数据,以对未来事件进行预测。它们通常用于帮助业务领导者做出数据驱动型决策。预测性模型还为预测性文本服务、面部识别软件、欺诈检测和供应链管理解决方案提供支持。
生成式模型在训练期间会获得未标记的数据。它们会对分类标准进行逆向工程。给定一个特定的标签,哪些特征会导致数据点获得该标签?生成式模型希望预测标签的特征,然后使用这些特征生成该数据的新示例。
经过训练以生成动物图像的生成式模型可以尝试根据它认为鱼类与其他动物的不同之处来创建鱼类的图像。图像生成是生成式模型的一个常见用例。
生成式模型有很多种类型,每种模型都有自己的定义架构:即控制其工作方式的模型结构。深度生成式模型是生成式模型的一种子类型,它使用多层深度学习神经网络结构(深度神经网络)来理解数据集中数据点之间复杂的多方面关系。
自回归模型可根据先前的数据实例来预测序列中的下一个数据点。转换器由于处理上下文的能力增强,因此在自然语言处理 (NLP) 任务中表现出色。
扩散模型通过逐渐向数据集添加噪声来创建新数据,然后弄清楚如何消除噪声并产生新的输出。
生成式对抗网络 (GAN) 将判别模型和生成模型配对竞争,目标是让生成模型创造出欺骗判别模型的输出结果。
变异自动编码器 (VAE) 用编码器压缩输入数据,然后用解码器反向生成新的类似数据。
基于流的模型通过可逆的数学运算学习数据简单与复杂分布之间的关系。
自回归模型根据先前的项目预测序列中的下一个项目。它们对序列中的各个部分进行评估,以确定它们之间的概率相关性,然后利用这些信息来确定可能紧随其后的新部分。
自回归是一种线性回归,它是一种统计方法,可根据 1 个或多个变量的值预测某变量的值。自回归将焦点缩小到目标变量,但会考虑其随时间推移的值。自回归与逻辑回归的不同之处在于,它可以预测明确的值,而后者会产生特定事件发生的几率百分比。
自回归模型采用循环神经网络 (RNN) 或转换器架构的形式。
转换器模型于 2017 年首次出现1,很快就超越了 RNN,在此之前,RNN 是自回归模型的主要形式。转换器解决了 RNN 的几个明显弱点。RNN 难以捕捉长程依赖关系(序列中距离项之间的关系),而且计算效率低下,因为它们是按顺序逐一处理项目的。
转换器引入了两项创新,在架构上超越了 RNN,并使它们成为生成式 AI 中大型语言模型 (LLM) 的事实标准:
并行处理:转换器可同时处理序列中的所有项目,与顺序 RNN 相比效率得以提高。转换器可以在更短的时间内完成训练,尤其是对于实现顶级 LLM 性能所需的大规模数据集。
自注意力机制:转换器在处理项目时可以考虑序列中所有项目的相对重要性。自注意力使转换器能够捕获系列中相距较远的项目之间的关键关系,从而实现 RNN 所缺乏的上下文理解。处理大型输入序列中上下文的能力使转换器在文本生成和语言翻译等 NLP 任务中表现出色。
在 3 种类型的转换器模型(编码器、解码器和编码器-解码器)中,后两种模型包含自回归组件。解码器是生成组件,使用自回归来生成由先前生成的词元所指示的词元。
自回归模型,尤其是转换器,如今已得到广泛应用。很多领先的生成式 AI 模型都是转换器,包括 OpenAI 的 GPT 和 GPT-4o、Anthropic 的 Claude、Meta 的 Llama、Google 的 Gemini 和 IBM 的 Granite。
自回归模型用例包括:
自然语言处理:转换器可以处理复杂的自然语言查询,并通过自动文本生成来进行会话式响应,因此非常适合用作聊天机器人。例如,ChatGPT 是 OpenAI GPT 生成式模型的聊天机器人实现。其他 NLP 应用程序包括情绪分析、语音识别、文本转语音 (TTS) 应用程序和文档摘要。
编码支持:自回归功能使转换器在文本生成方面表现出色,同样也使它们能够调试代码并生成代码片段。
时间序列预测:自回归可以轻松应用于时间序列预测,其中模型根据先前的趋势预测未来值。时间序列预测通常应用于财务建模、市场预测和天气预报。
扩散模型通过添加噪声来逐渐模糊或扩散输入数据,然后将得到的结果精简为新的相似数据。它们通过学习将噪声细化为与训练数据集相似的数据来生成新数据。扩散模型通过 3 阶段过程发挥作用:
第 1 步:扩散:在训练期间,模型逐渐向输入数据引入噪声,直到数据无法再识别。该模型在被称为马尔可夫链的数学过程的每一步都向数据添加少量高斯噪声。
将扩散过程想象成吉他手慢慢调高放大器的增益旋钮,直到吉他的声音变成一堵纯粹的静电墙。这就是摇滚吉他手在音乐中获得失真音效的方式,尽管通常不会达到这种程度。
第 2 步:学习:该模型追踪现已销毁数据的演变过程,以了解数据是如何通过噪声过程发生变化的。扩散模型在每个噪声阶段都会重复这一过程。
第 3 步:反向扩散:通过了解噪声如何改变数据,扩散模型学习反转噪声过程并重建输入数据。反向扩散的目标是通过马尔可夫链向后移动,去除高斯噪声,直到只剩下纯数据。第 1 步的吉他手受到了乐队成员的严厉训斥,并将增益降低到可接受的水平。
第 1 步和第 2 步适用于训练扩散模型。训练后,扩散模型通过反向扩散随机噪声来生成数据,以“查找”用户提示所请求的数据。
扩散模型通常用于图像生成,还有其他重要的用例。扩散模型的应用包括:
图像生成:扩散模型为主流图像生成和图像合成工具(如 Midjourney、Stable Diffusion 和 OpenAI 的 DALL-E 2)提供动力。这些模型可生成图像以响应用户提示。扩散模型可以生成高质量的逼真图像,包括人脸图像。
美国版权局于 2023 年裁定,AI 生成的图像无权受到版权保护。与此同时,众多正在进行的诉讼2最终将决定 AI 生成的图像是否被视为版权侵犯。
内部填充和外部填充:内部填充是在图像内添加或删除内容的过程,而外部填充则将图像扩展到其原始边界之外。
3D 建模:Google 谷歌的 DreamFusion 和 NVIDIA 的 Magic3D 是一种扩散模型,可通过文本输入创建 3D 模型。
市场研究:扩散模型显示了情况如何随时间演变,使之有助于了解消费者对产品的反应。
异常检测:扩散模型可以了解数据如何随时间变化,因此扩散模型可以识别数据点何时与既定趋势不符合。异常检测应用包括网络安全、欺诈预防和疾病检测。
生成式对抗网络 (GAN) 于 2014 年推出,是最早的生成式 AI 模型类型之一,它将两个模型配对在一起进行比赛。生成模型会生成输出,而判别器模型必须判别其为真实或虚假。比赛的目标是让生成器生成的内容在判别器判断时被视为真实。
如果生成器是艺术品伪造者,则鉴别器是艺术品鉴定家。艺术品经销商可能会获得伪造的作品并试图将其出售给博物馆,但在作品通过认证之前不可以。随着伪造者越来越擅长模仿大师的技法,鉴定家可能很难检测随后的伪造品。很快,博物馆就将举办一个充满伪造作品的展览。
产生真实结果的相同训练过程也可能导致模式崩溃:当生成器忽略部分训练数据并将自身限制在较窄的样本类型范围内时。GAN、扩散模型和转换器都需要大量训练数据集才能有效发挥性能。
GAN 中的两个网络通常是卷积神经网络 (CNN),这是一种早期的神经网络,以其在计算机视觉任务中的强大性能而闻名。
GAN 主要用于计算机视觉领域和其他图形相关任务。
计算机视觉:计算机视觉是利用机器学习来处理图像中的信息。常见的计算机视觉任务包括对象检测和分类、面部识别、手语翻译和对象跟踪。
数据增强:(使用现有数据来创建更多数据样本)可以利用 CNN 进一步提高计算机视觉性能。这个过程与合成数据的不同之处在于,它是在真实数据的基础上进行扩展,而不是从头开始生成数据。
变分自动编码器 (VAE) 会压缩输入数据,然后扩展或解码压缩结果以生成新的同类数据。VAE 学习训练数据集的分布,并在从编码样本生成新数据时应用这些期望。与所有自动编码器一样,VAE 包括 2 个组件:编码器和解码器。
编码器的工作是学习数据集中的潜在变量。潜在变量不能直接观察,但在数据集分发中起着重要作用。潜在空间是数据集中所有潜在变量的统称。编码器以捕获准确重建数据所需信息的方式对潜在空间进行建模。所有其他变量都将被省略。
解码器采用数据的压缩表示(称为瓶颈),并将其外推回数据的原始形式。一个有效的解码器,会产生类似于原始压缩前数据的输出。
与扩散模型和 GAN 相比,VAE 在图像生成任务中表现不佳,但在其他领域表现出色。
图像生成:VAE 可用于图像生成,但是在主流图像生成应用中,扩散模型已广泛取代它们。与其他图像生成器相比,VAE 往往会生成更模糊的图像,因为它们会对潜在空间进行“平均”。
基因组学:VAE 可帮助遗传学家计算育种价值(一种动物为其后代提供的预期价值)以及分配疾病风险评分。
异常检测:VAE 的训练比 GAN 和扩散器的更便宜且更容易,这使其成为异常检测任务的有吸引力的选择。将重新创建的数据与原始数据进行比较,以找出偏离预测分布的实例。
数据补充:VAE 可以生成新数据来替换丢失的数据并恢复损坏的文件。示例包括清除音频文件、去噪视频以及医学成像。虽然 VAE 倾向于从头开始生成模糊图像,但它们可以通过对图像进行降噪来恢复先前存在的模糊图像。
半监督学习:VAE 通过捕获不完整标记的数据集中的数据分布来帮助训练分类器。VAE 还可以执行数据增强,为分类器生成额外的训练样本。
基于流的模型通过一系列可逆的数学变换来学习数据分布。数据可以朝着任一方向无损地通过这条管道(称为标准化流)。虽然 VAE 和 GAN 负责估计数据分布,但基于流的模型可明确学习数据集的概率密度函数。
在给定的数据集,概率密度函数描述了数据的分布情况。标准化流从简单分布进行到复杂分布,直至确定目标变量的概率密度函数。
基于流的模型可以生成新的数据样本,这些样本保持与初始数据集相同的统计属性。与所有生成式建模一样,该流程基于从训练数据中抽取样本的概念,并应用复杂的统计数学来产生相似的新结果。
在对数据分布进行准确评估至关重要的情况下,基于流量的模型大放异彩。
图像生成:基于流的模型通过标准化流运行随机采样的噪声来生成干净的图像。PixelCNN 是 2016 年著名的图像生成式模型,它将自回归应用于变换序列,对图像进行逐像素建模。
准确的密度估算:密度估算是指根据可观察数据识别数据集的概率密度函数。虽然基于流的模型可以准确地表示复杂的数据分布,但与转换器相比,它们难以捕获远程依赖关系。
分子图生成:基于流的模型已用于分子图生成,其中生成式 AI 模型将新的分子结构建模为分子图。分子图生成功能是帮助科学家和工程师发现新药和新材料的重要工具。
通常会产生令人印象深刻的结果的过程,也是导致生成式模型产生幻觉:当它们输出不正确或误导性的信息时。当模型在训练数据集中感知到现实世界中不存在的模式时,幻觉或虚构就会发生。
例如,向 ChatGPT-4o mini 询问“Seinfeld 哪一集讲 Kramer 去了孟加拉国?”,返回的答案如下:
Kramer 在《Seinfeld》第 145 集“The Little Jerry”中前往孟加拉。这是该节目的第 145 [sic]集,原本在第 8 季播出。在该集中,Kramer 卷入了一起从孟加拉进口玩具的阴谋。
虽然 The Little Jerry 是《Seinfeld》的第 145 集,并在第 8 季播出,但它以 Kramer 购买和训练一只公鸡—与剧集同名的 Little Jerry 为特点。再次向聊天机器人提出相同的问题,返回了第二个不同的幻觉:
Kramer 在名为“The Maldives”的剧集中去了孟加拉国,这是第 9 季的第 18 集。在这一集中,他试图在旅行后开始新的生活,故事情节围绕着他成为“孟加拉”渔民的想法展开。
实际上,《Seinfeld》第 9 季第 18 集是是 The Frogger,在其中,Kramer 只去了警察局。《Seinfeld》中没有叫做 The Maldives 的一集。在整集节目中,Kramer 也从未去过孟加拉国。
众所周知,正如 GPT 之类的自回归模型会产生关于虚构事实的幻觉一样,其他类型的模型也可能以各自的方式产生幻觉。用于生成图像的扩散模型有时会以与现实不符的方式描绘现实世界中的物体。
尽管尚不可能完全消除生成式 AI 模型产生幻觉的可能性,但减轻幻觉的最佳实践包括:
清晰的提示:用户提示越明确,AI 的回答就越集中。在提示中为 AI 留出空间,以便其详细回答。
方向明确:赋予 AI 明确的角色,并指示其提供真实、可验证的信息,有助于确保其答案更好地反映现实。
高质量的数据:AI 模型的训练数据越新、越相关,其答案出现偏差的几率就越低。
人工验证:未经具备相关知识的人类的事先验证,不应使用 AI 生成的结果。
RAG 和微调:使用 RAG 以可靠数据增强 AI,以及对模型进行微调使其更加针对特定领域,都能有效减少幻觉。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1. Attention Is All You Need,Vaswani 等人,2023 年 8 月 2 日
2. Artists Score Major Win in Copyright Case Against AI Art Generators,Winston Cho,The Hollywood Reporter,2024 年 8 月 13 日
3. Diffusion-GAN: Training GANs with Diffusion,Wang 等人,2023 年 8 月 25 日