什么是基础模型？

基础模型是基于庞大数据集训练的人工智能 (AI) 模型，能够完成广泛的通用任务。它们是构建更专业应用的基础或构建要素。

它们的灵活性和庞大的规模使它们与传统的机器学习模型截然不同，后者是在较小的数据集上进行训练，以完成特定任务，例如目标检测或趋势预测。与此同时，基础模型采用迁移学习，将从一项任务中学到的知识应用到另一项任务中。这使它们适合更广泛的领域，包括计算机视觉、自然语言处理 (NLP) 和语音识别。

斯坦福大学 Center for Research on Foundation Models 和 Institute for Human-Centered Artificial Intelligence 的研究人员在 2021 年的一篇论文中创造了“基础模型”一词。他们将这些模型描述为“范式转变”，并描述了其命名背后的原因：“[A] 基础模型本身不完整，但它是许多特定任务模型通过适应建立的共同基础。我们选择“基础”一词，也是为了强调架构稳定、安全和保障的重要性：基础不牢会酿成灾难，而构建良好的基础则是未来应用的可靠基石。”¹

基础模型的工作原理是什么？

构建基础模型通常涉及一系列类似于开发传统机器学习模型的步骤：

数据收集
选择模态
定义模型架构
培训
评估

1. 数据收集

第一步是从各种来源收集大量数据。这些广泛的无标记、非结构化数据使基础模型能够推理模式、识别关系、辨别上下文并归纳其知识。

2. 选择模态

模态是指模型可以处理的数据类型，包括音频、图像、软件代码、文本和视频。基础模型可以是单模态，也可以是多模态。单模态模型旨在处理单一类型的数据，例如接收文本输入和生成文本输出。多模态模型可以结合来自多种模态的信息，例如根据文本提示创建图像，或根据录音生成书面转录稿。

3. 定义模型架构

许多基础模型采用了深度学习架构，这种架构使用多层神经网络来模拟人脑的决策。

一种被称为转换器模型的深度学习模型一直是基础模型的首选架构，尤其是那些用于 NLP 的模型，如生成式预训练转换器 (GPT) 系列模型。以下是转换器架构的简要概述：

编码器将输入序列转换为称作“嵌入”的数字表示，以捕捉输入序列中词元的语义和位置。

自我关注机制允许转换器“将注意力集中”在输入序列中最重要的词元上，而不管这些词元的位置如何。

解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。

扩散模型是基础模型中实现的另一种架构。基于扩散的神经网络逐步用随机噪声“扩散”训练数据，然后学习逆转该扩散过程以重建原始数据。扩散模型主要用于文本到图像基础模型，如 Google 的 Imagen、OpenAI 的 DAL-E（以 DAL-E 2 开头）和 Stability AI 的 Stable Diffusion。

4. 训练

训练通常涉及自监督学习，其中基础模型学习未标记数据中的内在相关性。因此，训练需要经过多次迭代，通过调整模型权重来最小化预测误差，并通过调整超参数来找到最佳的训练配置变体。正则化方法还可用于纠正过拟合（当模型与其训练数据拟合得过于接近甚至完全一致时），以及提高基础模型的泛化能力。

5. 评估

可以使用标准化基准来验证基础模型的性能。这些评估的结果可以为进一步的改进或性能优化提供信息。

调整基础模型

从零开始构建基础模型可能是一个成本高昂、计算密集且耗时的过程。因此，企业可能会考虑根据自身特定需求调整现有的基础模型。这些模型可以通过应用程序编程接口 (API) 访问，也可以使用模型的本地副本访问。

以下是两种常见的适应方法：

微调

在微调过程中，预训练的基础模型会将其通用知识调整为特定任务所需的知识。这包括使用监督学习在较小的特定领域或特定任务的数据集上进一步训练，该数据集包含已标记的示例。更新模型参数，以优化其在任务方面的性能。

由于微调会改变模型的参数，因此可能会影响模型在其他任务上的表现。创建带标记的数据集也是一个繁琐的过程。

提示

该方法包括提供提示，以便根据特定任务定制基础模型。提示以与任务相关指令或与任务相关示例的形式出现，引导模型，使其获得上下文并生成合理的输出，这种能力被称为情境学习。

虽然提示不需要训练模型或更改其参数，但可能需要多次尝试才能获得正确的提示，使模型能够理解上下文并做出合适的预测。

基础模型用例

基础模型的适应性和通用性意味着它们可用于各种实际应用：

计算机视觉

自然语言处理

医疗保健

机器人

软件代码生成

计算机视觉

基础模型可用于生成和分类图像以及检测、识别和描述对象。DAL-E、Imagen 和 Stable Diffusion 是文本到图像基础模型的示例。

自然语言处理

大型语言模型 (LLM) 是一类基础模型，在 NLP 和自然语言理解 (NLU) 方面表现出色。其能力包括问答、文本摘要、转录、翻译和视频字幕等。

以下是 NLP 领域的一些常用基础模型：

BERT（来自转换器的双向编码器表示）是最早开发的 LLM 基础模型之一。这个开源 AI 系统由 Google 于 2018 年发布，仅使用纯文本语料库进行训练。²

BLOOM 是基于 46 种语言训练的开放式多语言模型。它是 Hugging Face 和 AI 研究人员社区 BigScience 协作的成果。³

Claude 是 Anthropic 的基础模型系列，具有高级推理和多语言处理能力。

GPT 是 OpenAI 的基础模型，也是该公司生成式 AI 聊天机器人 ChatGPT 的支柱。GPT-3.5 为免费版 ChatGPT 提供支持，而 GPT-4 为高级版提供支持。GPT-4 系列也是 Microsoft Copilot AI 助手所支持的生成式 AI 模型。

Granite 是 IBM® 基于仅解码器转换器架构的 LLM 基础模型旗舰系列。Granite 13b 聊天模型针对对话用例进行了优化，可与虚拟代理和聊天应用程序配合使用。Granite 多语言模型经过训练，能够理解和生成英语、德语、西班牙语、法语和葡萄牙语文本。

PaLM 2 是 Google 的下一代语言模型，具有增强的多语言和推理能力。

医疗保健

在医疗保健领域，基础模型可以帮助完成一系列任务。从创建患者就诊摘要和检索医学文献，到回答患者问题、将患者与临床试验进行匹配以及促进药物发现，包罗万象。例如， Med-PaLM 2 语言模型可以回答医学问题，而 Google 正在设计一个多模态版本，可以合成医学影像中的信息。⁴

机器人

在机器人领域，基础模型可以帮助机器人快速适应新环境，并能泛化到各种任务、场景和机器具身中。例如，PaLM-E 具身的多模态语言模型可将知识从 PaLM 的语言和视觉领域迁移至机器人系统，并针对机器人传感器数据进行训练。⁵

软件代码生成

基础模型可以帮助完成、调试、解释和生成不同编程语言的代码。这类文本到代码的基础模型包括 Anthropic 的 Claude、Google 的 Codey 和 PaLM 2 以及 IBM 的 Granite Code 模型系列，这些模型系列已在 116 种编程语言上进行了训练。

面对如此多的选项，组织如何才能为 AI 开发选择合适的基础模型呢？以下是六步 AI 模型选择框架，可以为您提供帮助：

基础模型的优点

在基础模型的基础上进行构建，可以为企业实现自动化和创新。以下是企业可以从基础模型中获得的其他优势：

加速实现价值的时间和扩展的时间：采用现有模型可消除开发和预训练阶段，使公司能够迅速定制并部署微调后的模型。

获取数据：组织无需为预训练编制大量数据，并且这些组织可能没有办法获取这些数据。

基准精度和性能：基础模型已经过准确性和性能评估，提供了一个高质量的起点。

降低成本：企业无需花费资源从零开始创建基础模型。

基础模型面临的挑战

与其他 AI 模型一样，基础模型仍在应对 AI 的风险。对于考虑将基础模型作为其内部工作流程或商业 AI 应用的技术基础的企业来说，这是一个需要牢记的因素。

偏见：模型可以从训练数据中存在的人为偏见中学习，而这种偏见会渗透到微调模型的输出中。

计算成本：使用现有的基础模型仍需要大量内存、GPU（图形处理器）等先进硬件和其他计算资源来进行微调、部署和维护。

数据隐私和知识产权：基础模型可能使用未经所有者同意或不知情的情况下获得的数据进行训练。将数据输入算法时要谨慎，避免侵犯他人的版权或泄露个人身份信息或专有商业信息。

环境代价：训练和运行大规模基础模型涉及能源密集型计算，这会导致碳排放和水消耗增加。

幻觉：验证 AI 基础模型的结果对于确保它们产生事实正确的输出至关重要。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型，这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册，深入了解这些模型。

转到视频集

如何选择合适的 AI 基础模型

如何选择正确的方法来准备数据集和使用 AI 模型？如何使用模型选择框架来平衡性能要求？

资源

深入了解 IBM Granite

了解 IBM® Granite™，我们的开放式、性能出色和值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和防护措施选项。

如何选择合适的 AI 基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

探索大语言模型 (LLM) 的威力

深入阅读 IBM 开发人员文章、博客和教程，加深您对大语言模型 (LLM) 的了解。

CEO 的模型优化指南

了解如何使用最新的 AI 技术和基础架构，不断推动团队提高模型性能并超越竞争对手。

采用差异化方法提供 AI 基础模型

深入了解企业级基础模型的价值，利用这种模型可信、高性能且经济高效的特点，为所有行业服务。

解锁生成式 AI + ML 的强大功能

了解如何将生成式 AI、机器学习和基础模型整合到您的业务运营中，以提高绩效。

2024 年 AI 实际应用

了解我们对 2,000 家组织进行的关于他们的 AI 计划的调研，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

脚注

¹ On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021

² Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 November 2018

³ BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 July 2022

⁴ Med-PaLM, Google Research, Accessed 8 October 2024

⁵ PaLM-E: An embodied multimodal language model, Google Research, 10 March 2023

什么是基础模型？