基础模型是基于庞大数据集训练的人工智能 (AI) 模型,能够完成广泛的通用任务。它们是构建更专业应用的基础或构建要素。
它们的灵活性和庞大的规模使它们与传统的机器学习模型截然不同,后者是在较小的数据集上进行训练,以完成特定任务,例如目标检测或趋势预测。与此同时,基础模型采用迁移学习,将从一项任务中学到的知识应用到另一项任务中。这使它们适合更广泛的领域,包括计算机视觉、自然语言处理 (NLP) 和语音识别。
斯坦福大学 Center for Research on Foundation Models 和 Institute for Human-Centered Artificial Intelligence 的研究人员在 2021 年的一篇论文中创造了“基础模型”一词。他们将这些模型描述为“范式转变”,并描述了其命名背后的原因:“[A] 基础模型本身不完整,但它是许多特定任务模型通过适应建立的共同基础。我们选择“基础”一词,也是为了强调架构稳定、安全和保障的重要性:基础不牢会酿成灾难,而构建良好的基础则是未来应用的可靠基石。”1
构建基础模型通常涉及一系列类似于开发传统机器学习模型的步骤:
第一步是从各种来源收集大量数据。这些广泛的无标记、非结构化数据使基础模型能够推理模式、识别关系、辨别上下文并归纳其知识。
模态是指模型可以处理的数据类型,包括音频、图像、软件代码、文本和视频。基础模型可以是单模态,也可以是多模态。单模态模型旨在处理单一类型的数据,例如接收文本输入和生成文本输出。多模态模型可以结合来自多种模态的信息,例如根据文本提示创建图像,或根据录音生成书面转录稿。
许多基础模型采用了深度学习架构,这种架构使用多层神经网络来模拟人脑的决策。
一种被称为转换器模型的深度学习模型一直是基础模型的首选架构,尤其是那些用于 NLP 的模型,如生成式预训练转换器 (GPT) 系列模型。以下是转换器架构的简要概述:
编码器将输入序列转换为称作“嵌入”的数字表示,以捕捉输入序列中词元的语义和位置。
自我关注机制允许转换器“将注意力集中”在输入序列中最重要的词元上,而不管这些词元的位置如何。
解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。
扩散模型是基础模型中实现的另一种架构。基于扩散的神经网络逐步用随机噪声“扩散”训练数据,然后学习逆转该扩散过程以重建原始数据。扩散模型主要用于文本到图像基础模型,如 Google 的 Imagen、OpenAI 的 DAL-E(以 DAL-E 2 开头)和 Stability AI 的 Stable Diffusion。
可以使用标准化基准来验证基础模型的性能。这些评估的结果可以为进一步的改进或性能优化提供信息。
从零开始构建基础模型可能是一个成本高昂、计算密集且耗时的过程。因此,企业可能会考虑根据自身特定需求调整现有的基础模型。这些模型可以通过应用程序编程接口 (API) 访问,也可以使用模型的本地副本访问。
以下是两种常见的适应方法:
该方法包括提供提示,以便根据特定任务定制基础模型。提示以与任务相关指令或与任务相关示例的形式出现,引导模型,使其获得上下文并生成合理的输出,这种能力被称为情境学习。
虽然提示不需要训练模型或更改其参数,但可能需要多次尝试才能获得正确的提示,使模型能够理解上下文并做出合适的预测。
基础模型的适应性和通用性意味着它们可用于各种实际应用:
计算机视觉
自然语言处理
医疗保健
机器人
软件代码生成
基础模型可用于生成和分类图像以及检测、识别和描述对象。DAL-E、Imagen 和 Stable Diffusion 是文本到图像基础模型的示例。
大型语言模型 (LLM) 是一类基础模型,在 NLP 和自然语言理解 (NLU) 方面表现出色。其能力包括问答、文本摘要、转录、翻译和视频字幕等。
以下是 NLP 领域的一些常用基础模型:
BERT(来自转换器的双向编码器表示)是最早开发的 LLM 基础模型之一。这个开源 AI 系统由 Google 于 2018 年发布,仅使用纯文本语料库进行训练。2
BLOOM 是基于 46 种语言训练的开放式多语言模型。它是 Hugging Face 和 AI 研究人员社区 BigScience 协作的成果。3
Claude 是 Anthropic 的基础模型系列,具有高级推理和多语言处理能力。
GPT 是 OpenAI 的基础模型,也是该公司生成式 AI 聊天机器人 ChatGPT 的支柱。GPT-3.5 为免费版 ChatGPT 提供支持,而 GPT-4 为高级版提供支持。GPT-4 系列也是 Microsoft Copilot AI 助手所支持的生成式 AI 模型。
Granite 是 IBM® 基于仅解码器转换器架构的 LLM 基础模型旗舰系列。Granite 13b 聊天模型针对对话用例进行了优化,可与虚拟代理和聊天应用程序配合使用。Granite 多语言模型经过训练,能够理解和生成英语、德语、西班牙语、法语和葡萄牙语文本。
PaLM 2 是 Google 的下一代语言模型,具有增强的多语言和推理能力。
在医疗保健领域,基础模型可以帮助完成一系列任务。从创建患者就诊摘要和检索医学文献,到回答患者问题、将患者与临床试验进行匹配以及促进药物发现,包罗万象。例如, Med-PaLM 2 语言模型可以回答医学问题,而 Google 正在设计一个多模态版本,可以合成医学影像中的信息。4
在机器人领域,基础模型可以帮助机器人快速适应新环境,并能泛化到各种任务、场景和机器具身中。例如,PaLM-E 具身的多模态语言模型可将知识从 PaLM 的语言和视觉领域迁移至机器人系统,并针对机器人传感器数据进行训练。5
基础模型可以帮助完成、调试、解释和生成不同编程语言的代码。这类文本到代码的基础模型包括 Anthropic 的 Claude、Google 的 Codey 和 PaLM 2 以及 IBM 的 Granite Code 模型系列,这些模型系列已在 116 种编程语言上进行了训练。
面对如此多的选项,组织如何才能为 AI 开发选择合适的基础模型呢?以下是六步 AI 模型选择框架,可以为您提供帮助:
在基础模型的基础上进行构建,可以为企业实现自动化和创新。以下是企业可以从基础模型中获得的其他优势:
加速实现价值的时间和扩展的时间:采用现有模型可消除开发和预训练阶段, 使公司能够迅速定制并部署微调后的模型。
获取数据:组织无需为预训练编制大量数据,并且这些组织可能没有办法获取这些数据。
基准精度和性能:基础模型已经过准确性和性能评估,提供了一个高质量的起点。
降低成本:企业无需花费资源从零开始创建基础模型。
与其他 AI 模型一样,基础模型仍在应对 AI 的风险。对于考虑将基础模型作为其内部工作流程或商业 AI 应用的技术基础的企业来说,这是一个需要牢记的因素。
偏见:模型可以从训练数据中存在的人为偏见中学习,而这种偏见会渗透到微调模型的输出中。
计算成本:使用现有的基础模型仍需要大量内存、GPU(图形处理器)等先进硬件和其他计算资源来进行微调、部署和维护。
数据隐私和知识产权:基础模型可能使用未经所有者同意或不知情的情况下获得的数据进行训练。将数据输入算法时要谨慎,避免侵犯他人的版权或泄露个人身份信息或专有商业信息。
环境代价:训练和运行大规模基础模型涉及能源密集型计算,这会导致碳排放和水消耗增加。
幻觉:验证 AI 基础模型的结果对于确保它们产生事实正确的输出至关重要。
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021
2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 November 2018
3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 July 2022
4 Med-PaLM, Google Research, Accessed 8 October 2024
5 PaLM-E: An embodied multimodal language model, Google Research, 10 March 2023