GPT-4o 是一种多模态、多语言生成式预训练转换器模型,它由人工智能 (AI) 开发商 OpenAI 于 2024 年 5 月发布。该模型是一款旗舰级大型语言模型 (LLM),它属于 GPT-4 AI 模型系列。其他模型则包括 GPT-4o mini、GPT-4 Turbo 和原始版 GPT-4。
GPT-4o mini 是 OpenAI 产品系列中体积较小的高性价比 GPT-4o 模型,也是运行速度最快的生成式 AI 模型。与具有数百亿或数千亿个参数的大型语言模型 (LLM) 不同,GPT-4o mini 是一个小型精益的模型。尽管体积不大,但它的性能却优于速度相似的 GPT-3.5 Turbo,成本也仅为 GPT-3.5 Turbo 的约 60%。
与其体型较大的“兄弟”一样,GPT-4o mini 也具备多模态能力,支持英语以外的语言,且能处理推理、数学和编码等典型 AI 任务。截至发布之日,GPT-4o mini 已可处理文本与图像输入。OpenAI 声称对音频与视频内容的支持仍在酝酿之中。
开发人员可通过应用程序编程接口 (API) 访问 GPT-4o mini,且每百万个输入词元的成本为 0.15 美元,而每百万个输出词元的成本则为 0.60 美分。
GPT-4o 是一个“一体化”旗舰模型,能作为单个神经网络独立处理多模态输入和输出。而对于以前的模型(如 GPT-4 Turbo 和 GPT-3.5),用户则需要 OpenAI API 和其他支持模型来输入和生成各种内容类型。虽然 GPT-4 Turbo 可处理图像提示,但在没有 API 帮助的情况下无法处理音频。
与 GPT-4 Turbo 相比,GPT-4o 的多模态特性是最大的突破,也是其众多进步的基础所在:
实时音频对话
语调能力
内置视频处理
图像生成
提高词元效率
与 GPT-4 Turbo 相比,GPT-4o 具有更快的速度和多模态能力,使其能以更人性化的速度进行对话和翻译语言。在其发布公告包含的视频演示中1,ChatGPT-4o 可在英语与西班牙语使用者之间进行实时翻译。GPT-4o 引入了 50 多种语言的聊天机器人语音支持。
由于 GPT-4o 可自行处理音频输入,因此与以前的模型相比,延迟(即从收到输入到产生输出所需的时间)更低。它能在 320 毫秒内响应音频输入,而这与人类 210 毫秒的典型响应时间相当。
GPT-4 的先前迭代需要在管道中组装多个模型才能提供类似的服务,从而将其延迟增加到 5.4 秒。在 GPT-4o 之前,OpenAI 的 Whisper API 可将音频提示转换为文本,然后将其输入 GPT-4 Turbo,然后文本转语音 (TTS) 服务会将 GPT 的响应转换回音频。
一般来说,GPT-4 Turbo 也是一个速度较慢的模型。在 AI 评估组织 Artificial Analysis 开展的基准测试中2,GPT-4o 实现了每秒 110 个词元的速度,约比 GPT-4 Turbo 快了三倍。在此测试中,GPT-4o 的表现也优于众多竞争对手,其中包括 Claude 3 Opus 和 Gemini 1.5 Pro。
以前的 Whisper–GPT–TTS 管道意味着在处理音频输入时,GPT-4 Turbo 只接收所说内容的文本转录。转录功能会隔离用户所说的内容,同时过滤掉背景噪音、说话者身份和语调,从而让 GPT 无法获取大量上下文数据。
作为一种多模态模型,GPT-4o 可处理整个音频输入,并对这些额外的上下文做出适当的响应。经改进的自然语言处理 (NLP) 使其能在语音模式下将情绪、语气和情感内容纳入其输出生成中。
GPT-4o 除了文本和音频之外,还可处理图像与视频输入。GPT-4o 可连接到实时摄像头馈送的内容或记录用户的屏幕,然后描述它所看到的内容并回答问题。用户可打开智能手机摄像头,并像与朋友或同事实聊天一样使用 ChatGPT-4o。
此前,GPT-4 Vision API 支持 GPT-4 Turbo 分析视觉内容。
根据 OpenAI 的发布声明,GPT-4o 提供独立的图像生成能力。GPT-4 Turbo 只能通过连接到 OpenAI 的 DALL-E 3 模型来生成图像。GPT-4 Turbo 可接收基于文本的用户提示,然后 DALL-E 会创建图像。
OpenAI 在 GPT-4o 中改进了 GPT-4 的词元化能力。词元化是指 LLM 将单词转换为数据的过程。每个词元代表整个单词或单词和标点符号的一部分。AI 模型会将单词转换为词元,然后应用复杂的数学知识来分析这些数据。
GPT-4o 将中文、印地语和阿拉伯语等非罗马语言转换成词元的效率比其前代产品要高得多。由于 OpenAI 会按输入或输出词元向 API 用户收费,GPT-4o 在非罗马字母方面的效率提高使其在这些语言的用例中更具成本效益。
除了新的多模态能力之外,GPT-4o 还引入了众多与之前功能相同的功能:
问题解答
文档分析与总结
情感分析
数据分析
编码
使用 2023 年 10 月知识截止点的 GPT-4o 是 OpenAI 知识库的最新模型。知识截止点是模型训练数据得出结论的时间点。用户可向 GPT-4o 提出问题并获得答案,但面临出现幻觉的风险。
用户可以上传文件,并让 ChatGPT 分析和汇总这些文件。GPT-4o 的上下文窗口为 128,000 个词元,从而可处理大型输入数据集,但不如 Claude 3 那么大。
LLM 的上下文窗口代表其在保持整个输入序列的上下文意识的同时可以处理的最大词元数量。更大的上下文窗口允许 AI 模型在生成响应时接受更复杂的提示并包含更多用户提供的信息。
GPT-4 已展示在现实世界中使用 GPT-4 Vision API 通过光学字符识别 (OCR) 来读取文档的能力。
情感分析是指从一个人的言论或行为中辨别其感受的过程。研究人员使用 AI 模型进行大规模情感分析,例如在分析用户评论时。作为一种多模态模型,GPT-4o 可从音频输入中识别情感。
GPT-4o 可处理复杂的数据集并提炼可操作的洞察信息,就像自助分析平台那样。它还可以用图表和图形来表示数据。
GPT-4o 并不是第一个具有编码能力的 LLM,但其多模态特性可以简化程序员的工作流程。用户无需将代码复制并粘贴到用户界面中,而是可以分享其屏幕,让 GPT-4o 分析其代码、提供反馈并生成代码片段。
OpenAI 在推出 GPT-4o 的同时也发布了 LLM 基准测试结果,以便将他们的新模型与竞争对手进行比较。GPT-4 Turbo,初始发布的 GPT-4、Anthropic 的 Claude 3 Opus、Meta 的 Llama 3 400B 以及 Google 的 Gemini 1.5 Pro 和 Gemini 1.0 Ultra 与 GPT-4o 共同在多个领先的基准测试中进行了测试。
测试包括大规模多任务语言理解 (MMLU)(评估知识库和解决问题的技能)以及 HumanEval(代码检查测试)。OpenAI 并未在研究生级 Google-Proof 问答 (GPQA) 中针对 Google 的模型对比测试 GPT-4o;该测试是一项需要广泛推理的科学考试。Llama 3 400B 也未包含在以 10 种语言进行的小学多语种数学 (MGSM) 考试中。
在六项测试中,GPT-4o 有四项名列第一,在 MGSM 中仅次于 Claude 3 Opus,而在测试模型跨多个段落进行推理能力的段落级离散推理 (DROP) 中则仅次于 GPT-4 Turbo。
总体而言,与 GPT-4 Turbo 相比,GPT-4o 的性能没有显著提高。它的相对进步主要在于其多模态能力和更快的速度。
OpenAI 正在不同位置和产品中为免费与高级用户提供 GPT-4o:
ChatGPT Plus、团队版和企业版
ChatGPT 免费版
桌面与移动应用程序
AI 应用程序
Microsoft Azure OpenAI Studio
OpenAI 高级 ChatGPT 服务的订阅者可以访问不同级别的 GPT-4o。ChatGPT Plus 用户每 3 小时可以在 GPT-4o 上发送最多 80 条消息,而团队版用户可获得更多访问权限。企业版用户可以无限制访问 GPT-4o。
免费 ChatGPT 级别的用户可以在需求允许的情况下将 GPT-4o 作为聊天机器人背后的默认模型进行互动。当免费用户达到限制时,他们将被回滚到 GPT-4o mini3。
OpenAI 在发布 GPT-4o 的同时还发布了一款 macOS 桌面应用程序,以便将新模型与用户的 MacBook 整合在一起。OpenAI 的 ChatGPT 移动应用程序也可根据用户的订阅级别访问 GPT-4o。
ChatGPT Plus、团队版和企业版用户可构建自定义 GPT;通过此类 GPT,自己和其他人可使用针对特定用例量身定制的专用版本的 GPT-4o。开发人员还可以通过 API 连接到 GPT-4o 以创建其他 AI 工具。
GPT-4o 和 GPT-4o mini 均已在 Microsoft 的 Azure OpenAI Studio 中提供,而后者是 Microsoft Azure 企业 AI 平台的一部分。截至发布时,Copilot 继续提供 GPT-4 Turbo,尽管 Microsoft 已在 2024 年 5 月宣布4其 AI 服务很快将获得 GPT-4o 支持。
为了减少在语音诈骗、深度伪造和其他类型的音频欺诈中的潜在用途,OpenAI 在发布时将 GPT-4o 限制为四种预设语音。但是,与任何生成式 AI 版本一样,GPT-4o 并不是一个完美的模型。使用它的风险包括:
OpenAI 在其内部范围内将 GPT-4o 归类为中等风险模型。根据四个威胁指标对模型进行评估,即网络安全、CBRN(化学、生物、辐射和核威胁)、说服力和模型自主性。OpenAI 根据模型可用于推动每个威胁领域发展的程度对模型进行评估。
评估后,会在每个领域为模型提供从“低”到“严重”不等的评分,然后在考虑任何缓解措施后,根据其单个最高威胁评级获得相应的总分。
GPT-4o 在四个类别中的三个类别中获得低分,在说服力方面获得中分。这意味着它“可以创建(潜在的交互式)内容,其说服效果可与典型的人类编写的内容相媲美”。5例如,从理论上讲,恶意行为者可能会使用它来创建虚假信息文章和社交媒体内容。
1. Hello GPT-4o,OpenAI,2024 年 5 月 13 日
2. GPT-4o: Quality, Performance & Price Analysis,Artificial Analysis,2024 年
3. Using ChatGPT's Free Tier - FAQ,OpenAI,2024 年
4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o,CNET,2024 年 5 月 24 日
5. Preparedness Framework (Beta),OpenAI,2023 年 12 月 18 日