什么是谷歌 Gemini?

一张戈达德太空中心的黑白照片,画面中布满人员和计算机设备。

作者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是谷歌 Gemini?

Gemini 是谷歌推出的大型语言模型 (LLM) 。更广泛地说,它是一个多模态 AI 模型系列,旨在处理多种模态或数据类型,包括音频、图像、软件代码、文本和视频。

Gemini 同时也是驱动谷歌同名生成式 AI 聊天机器人(前身为 Bard)的底层模型,这与 Anthropic 将其聊天机器人及背后的大语言模型系列统称为 Claude 的命名方式类似。网络端和移动端的 Gemini 应用程序均作为底层模型的聊天机器人接口。

谷歌正逐步将 Gemini 聊天机器人整合至其技术套件中。例如,在最新的 Google Pixel 9 和 Pixel 9 Pro 手机上,Gemini 已取代 Google Assistant 成为默认 AI 助手。在 Google Workspace 中,用户可在 Docs 侧边栏使用 Gemini 协助撰写和编辑内容,在 Gmail 侧边栏借助其起草邮件、建议回复并搜索用户收件箱信息。

其他谷歌应用也在集成 Gemini。例如,Google Maps 正利用 Gemini 模型能力为用户提供地点与区域摘要。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

谷歌 Gemini 的工作原理是什么?

Gemini 基于海量多语言、多模态数据集进行训练。它采用了 Transformer 模型——一种由谷歌于 2017 年自行提出的神经网络架构。1

下面简要介绍一下转换器模型的工作原理:

  • 编码器将输入序列转换为称作“嵌入”的数字表示,以捕捉输入序列中词元的语义和位置。

  • 自注意力机制使 Transformer 能够将“注意力聚焦”于输入序列中最重要的 token,无论其位置如何。

  • 解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。

与仅接受文本提示的生成式预训练 Transformer 模型,或同时接受文本和图像提示的用于图像生成的扩散模型不同,谷歌 Gemini 支持交织的音频、图像、文本和视频序列作为输入,并能生成交织的文本与图像输出。 2

Gemini AI 模型版本

Gemini 多模态 AI 模型系列包含多个变体。每个变体均针对不同设备与任务进行优化。

初代模型 Gemini 1.0 提供 Nano 和 Ultra 版本。下一代模型 Gemini 1.5 则提供 Pro 和 Flash 版本。

开发者可通过 Google AI Studio 和 Google Cloud Vertex AI 开发平台中的 Gemini API,基于 Gemini 的 AI 功能进行构建与实验。目前仅 Gemini 1.5 Pro 和 Gemini 1.5 Flash 可供使用。

Gemini 1.0 Nano

Gemini 1.0 Nano 是 1.0 系列中规模最小的版本,专为在移动设备上运行而设计,即使没有数据网络也能工作。它能执行设备端任务,例如描述图像、建议聊天消息回复、总结文本和转录语音。

Gemini Nano 自 Pixel 8 Pro 起开始在 Android 设备上提供。谷歌正逐步打破 Gemini Nano 的移动端局限,将其整合至 Chrome 桌面客户端。

Gemini 1.0 Ultra

Gemini 1.0 Ultra 是 1.0 系列中规模最大的版本,具备高级分析能力。它专为高度复杂的任务而构建,例如编码、数学推理和多模态推理。Gemini Nano 和 Gemini Ultra 的上下文窗口(即模型能一次性处理的 token 数量)均为 32,000 token。2

Gemini 1.5 Pro

Gemini 1.5 Pro 是一款中型多模态模型,其上下文窗口最高可达 200 万 token。这一长上下文窗口使 Gemini Pro 能够处理更大规模的信息:从数小时的音频和视频,到数千行代码或数百页文档。 3

除了 Transformer 架构之外,Gemini 1.5 Pro 还采用了混合专家 (MoE)模型架构。MoE 模型被划分为多个更小的“专家”神经网络,每个网络专攻特定领域或数据类型。模型学会根据输入类型选择性地仅激活最相关的专家。这带来了更快的性能,同时降低了计算成本。4

Gemini 1.5 Flash

Gemini 1.5 Flash 是 Gemini Pro 的轻量级版本。它通过一种名为知识蒸馏机器学习技术进行训练,即将 Gemini 1.5 Pro 的洞察迁移至更紧凑的 Gemini 1.5 Flash。它同样具备长达 100 万 token 的上下文窗口,但具有更低的延迟,使其更快、更高效。3

谷歌 Gemini 简史

谷歌一直是大语言模型架构的先驱,并利用其扎实的研究来开发自己的 AI 模型

  • 2017 年:谷歌研究人员提出了 Transformer 架构,该架构构成了当今许多大语言模型的基础。

  • 2020 年:该公司推出了 Meena 聊天机器人,这是一个拥有 26 亿参数的基于神经网络的对话式智能体。5

  • 2021 年:谷歌发布了其对话式大语言模型 LaMDA(对话应用语言模型)。 6

  • 2022 年:PaLM(路径语言模型)发布,与 LaMDA 相比具有更先进的能力。7

  • 2023 年:Bard 于第一季度推出,由轻量级和优化版本的 LaMDA 支持。8第二季度发布了 PaLM 2——具备增强的编码、多语言和推理能力——并被 Bard 采用。 9 谷歌在第四季度发布了 Gemini 1.0。

  • 2024 年:谷歌将 Bard 更名为 Gemini,并将其多模态 AI 模型升级至 1.5 版本。

“Gemini”一词在拉丁语中意为“双胞胎”,它既是一个星座名称,也是一个星座。这是一个贴切的命名,因为 Gemini 模型作为 Google DeepMind 的成果,正是 DeepMind 与 Google Brain 两大团队力量融合的产物。公司也从 NASA 的“双子座计划”(一个对阿波罗任务成功至关重要的双人航天器项目)中获得了灵感。10

Gemini 性能

Gemini Ultra 在各种大语言模型基准测试中超越了同类模型。在数学推理的 GSM8K、代码生成的 HumanEval 以及自然语言理解的 MMLU 等基准测试中,其表现优于 Claude 2、GPT-4 和 Llama 22

值得注意的是,Gemini Ultra 在 MMLU 基准测试中甚至超越了人类专家表现。然而,在常识推理与自然语言推理的 HellaSwag 基准测试中,GPT-4 的表现仍优于 Gemini Ultra。 2

谷歌也评估了 Gemini Ultra 的多模态能力。其在文档理解、图像理解和自动语音识别的基准测试中表现优于其他模型。尽管在自动语音翻译、英语视频字幕生成、多模态理解与推理以及视频问答的基准测试中击败了其他大语言模型,但 Gemini Ultra 在这些领域的表现仍有提升空间。2

与此同时,Gemini 1.5 Flash 和 Gemini 1.5 Pro 的性能与 Gemini 1.0 Ultra 相当甚至有所超越。 11随着其上下文窗口的增加,Gemini 1.5 Pro 仍能保持高水平的性能。 4

Gemini 用例

谷歌 Gemini 仍处于早期阶段,但这个能力强大的 AI 模型有潜力被应用于广泛的场景中:

  • 高级编码

  • 图像与文本理解

  • 语言翻译

  • 恶意软件分析

  • 个性化 AI 专家

  • 通用型 AI 智能体

  • 语音助手

高级编码

Gemini AI 模型可以跨 C++、Java 和 Python 等编程语言运行,以理解、解释和生成代码。谷歌使用微调版本的 Gemini Pro 作为基础模型,开发了能解决包含理论计算机科学与复杂数学元素的竞技编程问题的代码生成系统 AlphaCode2。

图像与文本理解

Gemini 可用于从图像中提取文本并为图像添加说明。该模型能够分析图表、图示与图形等视觉内容,而无需借助将文本图像转换为机器可读格式的光学字符识别工具(OCR)

语言翻译

凭借其多语言能力,谷歌的 AI 模型可用于翻译不同语言。例如,在 Meet 视频会议应用程序中,用户可以开启翻译字幕功能,实现特定语言之间的互译。

恶意软件分析

Gemini 1.5 Pro 和 Gemini 1.5 Flash 均可用于恶意软件分析。Gemini Pro 能准确判断文件或代码片段是否具有恶意,并可生成详细的分析报告;12而 Gemini Flash 则能执行快速、大规模的恶意软件剖析。 13

个性化 AI 专家

谷歌近期发布了一项名为 Gems 的新功能,允许用户定制 Gemini 聊天机器人,以创建针对任何任务或主题的专属 AI“专家”。预置 Gems 示例包括:帮助解析复杂主题的学习教练、为下一个视频提供创意的头脑风暴伙伴,以及提供语法与结构反馈的写作编辑。

Gems 功能随 Gemini Advanced 订阅提供,该服务采用 Gemini 1.5 Pro 模型。

通用型 AI 智能体

通过 Project Astra,谷歌正基于其 Gemini 模型开发生成通用型 AI 智能体,该智能体能够实时处理、记忆并理解多模态信息。为提升记忆能力与效率,Project Astra 利用了缓存技术、视频帧的连续编码,并将语音和视频输入耦合到事件时间线中。 14

在谷歌的一项演示中,Gemini AI 助手能够解释扬声器的部件组成、识别用户所在的周边环境,并记住用户放置眼镜的位置。14

语音助手

通过 Gemini Live,用户可与 Gemini 聊天机器人进行更自然、更具对话感的交流。它能提供更直观的回复,并可适应用户的对话风格。

Gemini 风险

与其它大语言模型类似,谷歌 Gemini 持续面临着 AI 相关风险。建议用户保持谨慎,特别是对于打算使用 Gemini 的个人,以及考虑将该模型用于商业用途或整合至工作流程的组织。

偏见2024 年 2 月,因对历史人物描绘不准确并存在种族偏见问题,谷歌决定暂停 Gemini 聊天机器人生成人物图像的功能。15

幻觉: 截至本文撰写时,基于 Gemini 的 AI 概述搜索结果仍偶尔会产生事实性错误输出。

知识产权侵权:谷歌曾遭法国监管机构罚款,因其 AI 聊天模型在未告知也未获得该国出版商同意的情况下,使用了新闻报导及相关内容进行训练。16

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

深入了解 watsonx.ai 深入了解人工智能解决方案
脚注

1《Transformer:一种用于语言理解的新型神经网络架构》,谷歌研究院,2017 年 8 月 31 日。

2《Gemini:高性能多模态模型家族》,Google DeepMind,访问日期:2024 年 9 月 16 日。

3 《Gemini 模型》,Google DeepMind,访问日期:2024 年 9 月 16 日。

4《我们的下一代模型:Gemini 1.5》,谷歌,2024 年 2 月 15 日。

5 《迈向可畅聊任何话题的对话智能体》,谷歌研究院,2020 年 1 月 28 日。

6 《LaMDA:我们的突破性对话技术》,谷歌,2021 年 5 月 18 日。

7《Pathways 语言模型:扩展至 5400 亿参数实现突破性性能》,谷歌研究院,2022 年 4 月 4 日。

8《试用 Bard 并分享您的反馈》,谷歌,2023 年 3 月 21 日。

9 《介绍 PaLM 2》,谷歌,2023 年 5 月 10 日。

10 《谷歌 AI 模型 Gemini 的命名由来》,谷歌,2024 年 5 月 15 日。

11 《Gemini 1.5:解锁百万 token 上下文的多模态理解》,Google DeepMind,访问日期:2024 年 9 月 16 日。

12《从助手到分析师:Gemini 1.5 Pro 在恶意软件分析中的威力》,Google Cloud,2024 年 4 月 30 日。

13《使用 Gemini 1.5 Flash 扩展恶意软件分析规模》,Google Cloud,2024 年 7 月 16 日。

14《Project Astra》,Google DeepMind,访问日期:2024 年 9 月 16 日。

15 《谷歌负责人承认“有偏见”的 AI 工具图片多样性功能冒犯了用户》,《卫报》,2024 年 2 月 28 日。

16 《谷歌因违反知识产权协议在法国被罚款 2.5 亿欧元》,《卫报》,2024 年 3 月 20 日。