发布日期:2024 年 9 月 18 日
撰稿人:Ivan Belcic、Cole Stryker
GPT 模型构成 ChatGPT 等许多生成式 AI 应用程序的基础。与许多形式的 AI 一样,GPT 旨在自动执行任务,以模拟人类创建的输出。
AI 研究公司 OpenAI 于 2018 年推出了首款 GPT 模型,名为 GPT-1。自那时起,他们已经发布了 GPT 系列 AI 模型的多项进展。最新的 GPT 模型是 GPT-4,于 2023 年初发布。2024 年 5 月,OpenAI 宣布推出多语言和多模态 GPT-4o1,能够实时处理音频、视觉和文本输入。
GPT 作为基础模型,后续经过微调,广泛适配下游各类具体任务。除了基于文本的应用程序之外,GPT 还为人工智能 (AI) 应用程序提供支持,以通过计算机视觉生成和分析图像、编写代码、处理数据等。这些应用程序通过应用程序编程接口 (API) 连接到 GPT,从而允许它们来回传递数据。
了解如何选择适当的方法来准备数据集和应用 AI 模型。
面向 CEO 的生成式 AI 指南
GPT 模型的转换器架构加速了生成式 AI 的发展,这种神经网络类型于 2017 年在谷歌大脑团队著作的论文《Attention Is All You Need》2 中提出。自那时起,GPT 和 BERT 等转换器模型推动了生成式 AI 的许多显著发展,其中 OpenAI 的 ChatGPT 聊天机器人占据中心位置。
除 OpenAI 外,其他公司也发布了自己的生成式 AI 模型,包括 Anthropic 的 Claude、Inflection 的 Pi 和 Google 的 Gemini(旧称 Bard)。同时,OpenAI 为 Microsoft 的 Copilot AI 服务提供支持。
GPT 驱动的聊天机器人比标准的自动化客户服务选项感觉更像人类。通过 API,组织可以将 GPT 与语音应用程序链接起来,以创建能够响应较复杂的语句并提供对话式问答服务的语音助手。
借助有效的提示,GPT 模型可以生成各种文本内容,从简短的社交媒体文案到完整的博客文章和电子邮件。此外,作者可以使用 GPT 概述或构思他们之后自己编写的内容,从而简化内容创建工作流程。
使用 GPT 直接生成内容以供发布可能会引发知识产权问题 – 这是使用 GPT 的主要风险之一。
GPT 支持的应用程序可以实时翻译书面和音频源的语言。在现场演示3 中,GPT-4o 展示了自行实时翻译的能力。
GPT 可以处理和汇总冗长的文档,例如法律声明或商业报告。它还可以按照用户指定的样式重写内容。例如,用户可以提供季度报告作为输入数据,然后要求用要点进行巧妙总结。
GPT 模型可以学习编程语言并生成代码片段。与要求其从头开始构建完整应用程序相比,用户将 GPT 视为编码助手时通常会获得更好的结果。所有 GPT 生成的内容(包括代码)都应在使用前经过审查,以帮助确保准确性和合理使用。
2024 年 2 月,美国国家医学图书馆(ibm.com 外部链接)发布了一篇论文,概述了 GPT 在医疗保健领域的潜在应用。其中包括为偏远地区的患者提供一致的访问权限以及个性化的护理选项。不过,该论文也提到了一系列弊端,例如隐私问题和知识局限性。
GPT 模型的工作原理是分析输入序列,并应用复杂的数学预测最可能的输出。它利用概率,根据前面的所有单词识别句子中可能出现的最佳下一个单词。作为一种深度学习 AI 技术,GPT 可以处理自然语言提示以生成相关的类似人类的文本响应。
当用户输入基于文本的提示时,GPT 根据训练数据创建最可能的响应,该训练数据包含数十亿个公开可用的文本数据源,涵盖著名的文学作品和开源代码等。
庞大的训练数据集是 GPT 能够模拟人类语言理解能力的原因。大规模 GPT 模型将深度学习应用于处理上下文,并从训练数据中的相关文本中提取信息来预测最佳响应。
GPT 模型的强大之处在于两个关键方面:
生成式预训练,它可以训练模型检测未标记数据中的模式,然后将这些模式应用于新输入。
转换器架构,它使模型能够并行处理输入序列的所有部分。
生成式预训练是指在未标记的数据上训练大型语言模型,指导模型识别各种数据,并锻炼其创建准确预测的能力的过程。GPT 通过将预训练数据的模式和结构应用于用户输入来生成新数据。
生成式预训练是一种无监督学习形式,即将模型输入未标记的数据并迫使模型自行理解这些数据。通过学习检测未标记数据集中的模式,机器学习模型在接触到新输入(例如 ChatGPT 中的用户提示)时能够得出类似的结论。
GPT 模型经过数十亿甚至数万亿个参数的训练:参数是指模型在训练过程中不断改进的内部变量,这些变量决定模型的行为方式。虽然 OpenAI 尚未透露有关 GPT-4 的具体细节,但据估计该模型包含大约 1.8 万亿个参数4,相较 GPT-3.5 增加了十倍以上。
转换器模型是一种专门用于自然语言处理的神经网络:识别基于文本的输入中的意图和含义。它们可以动态处理输入并专注于最重要的单词,无论这些单词位于句子的哪个位置。
GPT 模型理解语言的方式与人类不同。相反,它们将单词处理成离散单元,称为词元,将一些单词分解为多个词元。通过一次评估所有词元,转换器擅长建立长程依赖关系:即远距离词元之间的关系。GPT 依靠对长程依赖关系的理解,根据上下文处理输入。
转换器模型通过两个模块(编码器和解码器)处理数据,同时使用自注意力机制建立依赖关系。
自注意力机制是转换器的标志性特性,使它们能够一次处理整个输入序列。无论转换器身在何处,它都可以将自己的“注意力”引导到输入序列中最重要的词元上。
相比之下,较旧的循环神经网络 (RNN) 和卷积神经网络 (CNN) 按顺序或分层方式评估输入数据。自注意力使 GPT 能够处理上下文,并以自然语言进行详细回复,而不是仅仅猜测句子中的下一个单词。
编码是指将词元映射到虚拟三维向量空间的过程。在三维空间中就近编码的词元被视为在意义上更为相似。输入序列的这种数学向量化称为嵌入。
转换器网络中的编码器模块为每个嵌入分配一个权重,用于决定它的相对重要性。同时,位置编码器捕获语义,使 GPT 模型能够区分单词相同但单词顺序不同的分组,例如,“The egg came before the chicken”与“The chicken came before the egg”。
解码器根据编码器准备的嵌入信息,预测统计学上最可能的响应。自注意力机制允许解码器识别输入序列中最重要的部分,而高级算法确定最有可能正确的输出。
自 2018 年 GPT 发布以来,OpenAI 一直处于生成式 AI 讨论的前沿。除了他们的旗舰产品 ChatGPT,该公司还追求使用 DALL-E 生成图像以及通过 Sora 生成视频。
OpenAI 发布首款 GPT 模型。它的性能在当时令人印象深刻,为后来的发展提供了概念验证。GPT-1 能够以类似人类的方式回答问题,并对文本生成提示做出响应,凸显了它在聊天机器人和内容创作方面的未来用例。
相对而言,GPT-1 容易产生幻觉或臆想,把不正确的信息说成是事实。它的回答表明,OpenAI 尚未磨练 GPT 识别长程依赖关系和字符串以及准确的长格式回答的能力。
OpenAI 的下一个模型拥有 15 亿个参数,从而增强其性能。在保持较长响应的一致性方面,GPT-2 较其前代产品更成功,这表明长程依赖关系检测更为成熟。
GPT-2 是分阶段发布的,在完整版之前推出了几个容量有限的模型。OpenAI 在一份声明5 中解释说,分阶段发布是为了减少潜在的滥用和其他道德问题。OpenAI 列举了如何使用该模型在网上冒充他人、生成误导性新闻以及自动化实施网络欺凌和网络钓鱼内容。
尽管 OpenAI 首席执行官 (CEO) Sam Altman 一再公开呼吁政府对 AI 进行监管,但该公司私下也游说减少欧盟《人工智能法案》的限制6。该法案的最终草案于 2024 年 6 月获得欧洲议会批准,似乎与该公司的建议一致。
GPT-3 拥有 1750 亿个参数(较其前代产品多一百多倍),成为当时最大的 LLM 之一。其性能远远超越了同系列的早期型号。ChatGPT 的免费版本仍然由 GPT-3.5(GPT-3 的最新版本)提供支持。
虽然 GPT-3 的性能体现了它的额外功率和尺寸,但训练需求也飙升。训练这种大型 LLM 所需的计算和能源资源引起了人们对碳足迹和水足迹的关注7。为此,OpenAI 开发了新颖的训练方法,旨在提高训练过程的效率。
GPT 的当前版本是 OpenAI 迄今为止功能最强大的版本,在内容质量和避免偏见方面均优于前代产品。它支持 ChatGPT 的高级版本,与由 GPT-3.5 驱动的免费版服务相比,它为订阅者提供更强大的功能和性能。
然而,它也是 GPT 系列中资源最密集的模型,据估计,每日运营成本为 700,000 美元8。随着 LLM 的不断发展,关于成本与潜在收益的争论仍然存在。Goldman 于 2024 年 6 月9 发布了一份报告,该报告重点关注与训练和维护模型成本上升相比,生成式 AI 潜在有限的用例。
GPT-4 Turbo 是该模型的当前迭代,数据截止日期为 2023 年 4 月。这意味着训练数据或知识库不涵盖该时间点之后发布的任何在线内容。
GPT-4o 于 2024 年 5 月发布,具有多种语言版本,支持多种非英语语言的内容。它也是多模态的,能够处理图像、音频和视频提示,同时生成文本、图像和音频内容作为响应。OpenAI 表示,与 GPT-4 Turbo 相比,GPT-4o 的价格便宜 50%,文本生成速度提高一倍10。
虽然 GPT 和其他生成式 AI 模型受到了媒体的广泛赞誉,但它们的使用并非没有风险。寻求将 GPT 纳入工作流程的组织和个人应了解潜在风险,包括:
数据隐私和机密性
侵犯知识产权和所有权冲突
输出不准确
模型偏差
输入 GPT 中的任何数据都可以在处理其他查询时使用,并且可以由 OpenAI 用于训练其他模型。这不仅对机密数据构成安全风险,而且还使组织面临违反数据保护合同和法律义务的风险。
模型偏差是基于训练数据的模型预测与现实世界中发生的事情之间的差异。GPT 经过大量互联网数据的训练,而且由于这些内容是由人创建的,因此可能包含歧视性观点 – 有时是故意为之,但通常不是。随着 AI 融入警务、医疗保健和日常生活的其他领域,AI 偏见可能对现实世界产生影响。
深入了解 watsonx 平台上的 IBM 基础模型库,从容自信地为您的业务扩展生成式 AI。
了解有关专供 AI 构建者训练、验证、调整和部署 AI 模型的新一代企业级开发平台的更多信息。
重新定义利用 AI 开展业务的方式
从 AI 试点到生产再到产生影响,利用专为商业构建的 AI 技术。
1 “Hello GPT-4o”(ibm.com 外部链接),OpenAI,2024 年 5 月 13 日
2 《Attention Is All You Need》(ibm.com 外部链接),Vaswani 等人,2017 年 6 月 12 日
3 “Live demo of GPT-4o realtime translation”(ibm.com 外部链接),OpenAI,2024 年 5 月 13 日
4 “GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE”(ibm.com 外部链接),Patel & Wong,2023 年 7 月 10 日
5 “Better language models and their implications”(ibm.com 外部链接),OpenAI,2019 年 2 月 14 日
6 “Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation”(ibm.com 外部链接),Perrigo,2023 年 6 月 20 日
7 “A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint”(ibm.com 外部链接),Saenko 等人,2023 年 5 月 25 日
8 “Microsoft Readies AI Chip as Machine Learning Costs Surge”(ibm.com 外部链接),Gardizy & Ma,2023 年 4 月 18 日
9 “GenAI: Too Much Spend, Too Little Benefit?”(ibm.com 外部链接),Nathan、Grimberg 和 Rhodes,2024 年 6 月 25 日
10 “OpenAI Platform”(ibm.com 外部链接),OpenAI
11 “Case 1:23-cv-11195”(ibm.com 外部链接),Barron 等人,2023 年 12 月 27 日
12 “Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use”(ibm.com 外部链接),Grantham-Philips,2024 年 5 月 21 日
13 “ChatGPT is bullshit”(ibm.com 外部链接),Hicks 等人,2024 年 6 月 8 日