什么是大型语言模型 (LLM)？

作者

Staff Editor, AI Models

IBM Think

什么是 LLM？

大语言模型 (LLM) 是一类基础模型，经过大量数据训练，使其能够理解和生成自然语言和其他类型的内容，以执行各种任务。大语言模型（LLM）是当前人工智能研究与企业级 AI 应用的核心技术之一。无论是在自然语言处理、知识问答，还是在多轮对话与生成式内容创建中，大语言模型都展现出强大的语义理解和生成能力，正在被越来越多的企业用于推动 AI 转型与自动化升级。

LLM 就像一台巨大的统计预测机，可以重复预测序列中的下一个单词。它们学习文本中的模式，并生成遵循这些模式的语言。

LLM 实现了人机交互方式的重大飞跃，因其是首个能大规模处理非结构化人类语言的 AI 系统，实现了与机器的自然交流。传统搜索引擎和其他编程系统使用算法匹配关键词，而 LLM 能捕捉更深层的语境、细微差别和推理逻辑。LLM 经过训练，能适配涉及文本解析的多种应用场景，如总结文章、调试代码或起草法律条款。当具备智能体能力时，LLM 可不同程度地自主执行原需人工完成的各种任务。

LLM 是数十年自然语言处理 (NLP) 与机器学习研究进展的集大成者，其发展直接推动了 2010 年代末至 2020 年代人工智能的爆发式进步。流行的 LLM 已成为家喻户晓的名词，使生成式 AI 成为公众关注的焦点。LLM 在企业中也获广泛应用，各组织在众多业务职能和用例中投入巨大资源。

公众可通过多种接口便捷使用 LLM，包括Anthropic 的 Claude、OpenAI 的ChatGPT、Microsoft 的 Copilot、Meta 的 Llama 系列，Google 的 Gemini 助手及其 BERT、PaLM 模型。IBM 在 watsonx.ai 上维护 Granite 模型系列。该系列已成为 watsonx Assistant 和 watsonx Orchestrate 等其他 IBM 产品的生成式 AI 支柱。

加入超过 100,000 名订阅者的行列，阅览最新科技新闻

通过每周两期的 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。详见 IBM 隐私声明。

大语言模型 (LLM) 的工作原理

训练始于海量数据，它们来自书籍、文章、网站、代码等文本源的数十亿甚至数万亿词汇。数据科学家负责清理和预处理工作，以消除错误、重复及不良内容。

在“词元化”过程中，文本被分解为更小的机器可读单元，称为“词元”。词元可以是单词、子词或字符等较小单位。此举实现了语言标准化，使生僻词和新颖词汇也能被一致处理。

LLM 初始训练采用自监督学习，这是一种使用未标记数据进行监督学习的机器学习技术。自监督学习不需要标记数据集，但与监督学习密切相关，因为它根据“基本事实”优化性能。在自监督学习中，任务的设计使得可以从未标记的数据中推断出“基本事实”。模型不再像监督学习那样被告知每个输入的"正确答案"，而是自行探索数据中的模式、结构或关联。

自注意力

模型通过转换器网络传递词元。转换器模型于 2017 年推出，其价值在于自注意力机制允许在不同时刻“关注”不同词元。这项技术是转换器的核心和主要创新点。自注意力机制之所以有用，部分原因在于它允许AI 模型计算词元之间的关系和依赖性，特别是文本中彼此远离的词元之间的关系和依赖性。转换器架构还支持并行化处理，效率远超早期方法。这些特性使得 LLM 能够处理前所未有的庞大数据集。

文本被拆分为词元后，每个词元被映射为称为嵌入向量的数字序列。神经网络由多层人工神经元构成，每个神经元执行数学运算。转换器由其中许多层组成，每层都会微调嵌入向量，使其逐层转化为更丰富的语境表征。

此过程的目标是让模型学习词汇间的语义关联，例如在关于狗的文章中，“吠叫”与“狗”在向量空间中的距离应比“吠叫”与“树”更近，这是基于文中与狗相关的周边词汇。转换器还添加了位置编码，为每个词元提供其在序列中的位置信息。

为了计算注意力，每个嵌入都使用学习到的权重矩阵投射到三个不同的向量中：查询向量、键向量和值向量。查询向量表征特定词元的“搜索意图”，键向量表征每个词元包含的信息，值向量则根据相应注意力权重缩放后"返回"每个键向量的信息。

随后通过计算查询向量与键向量的相似度得出对齐分数。这些分数经归一化为注意力权重后，决定每个值向量有多少信息流入当前词元的表征。该过程允许模型灵活地关注相关语境，同时忽略不太重要的标记（如“树”）。

因此，自注意力机制能够比早期架构更有效地在所有词元之间建立“加权”连接。该模型为词元之间的每种关系赋予权重。LLM 可以有数十亿或数万亿个这样的权重，这些权重是 LLM 参数的一种类型，是机器学习模型中控制数据处理和预测方式的内部配置变量。参数数量指模型中此类变量的总数，部分 LLM 包含数百亿参数。所谓小型语言模型规模和范围较小，参数相对较少，适用于在小型设备或资源受限环境中部署。

在训练期间，该模型对从训练数据中提取的数百万个示例进行预测，并且损失函数会对每个预测的误差进行量化。通过进行预测，然后通过反向传播算法和梯度下降更新模型权重的迭代循环，模型“学习”生成查询、键和值向量的层级权重。

一旦这些权重得到充分优化，模型就能接收任何词元的原始嵌入，并为其生成查询向量、键向量和值向量。当这些向量与为所有其他词元生成的向量交互时，将生成“更好”的对齐分数，进而生成注意力权重，帮助模型生成更好的输出。最终得到的结果是学习了语法规则、事实知识、推理结构、写作风格等模式的模型。

微调大型语言模型

训练后（或在额外训练的"预训练"背景下），可通过微调使 LLM 在特定场景中更实用。例如，在通用知识大数据集上训练的基础模型，可基于法律问答语料微调，从而创建一个用于法律领域的聊天机器人。

以下是一些最常见的微调方式。从业者可以使用一种方法或多种方法的组合。

监督微调

微调通常是在有监督的情况下进行，使用的标记数据集要小得多。模型会更新其权重，以更好地匹配新的基本事实（在本例中为标记数据）。

预训练旨在赋予模型广泛通用知识，而微调使通用模型适配摘要、分类或客服等具体任务。这些功能适配代表了新型任务类型。监督微调产生的输出更接近人工提供的示例，所需资源远少于从头训练。

监督微调也适用于特定于域的定制，例如在医疗文档上训练模型，使其能够回答医疗保健相关的问题。

根据人类反馈进行强化学习

为进一步完善模型，数据科学家经常使用基于人类反馈的强化学习 (RLHF)，这是一种微调形式，即人类对模型输出进行排序，模型经过训练后会偏好人类排序较高的输出。RLHF 常用于对齐过程，使 LLM 输出实用、安全且符合人类价值观。

RLHF 在 风格对齐方面尤为有效，可调整 LLM，以更随意、幽默或符合品牌调性的方式回应。风格对齐涉及对同类任务进行训练，但以特定风格生成输出。

推理模型

纯监督微调教会模型模仿示例，但未必促进涉及抽象多步过程的更好推理。此类任务并不总是有丰富的标记数据，因此强化学习通常用于创建推理模型，即经过微调的 LLM，能在生成最终输出前将复杂问题分解为多个步骤，通常称为“推理跟踪”。训练模型方法越来越先进，使模型具备了思维链推理和其他多步骤决策策略。

指令调整

LLM 定制的另一种形式是指令调整，该过程专门设计用于提升模型遵循人类指令的能力。指令数据集中的输入样本完全由类似于用户可能在提示中提出的请求的任务组成；输出则展示了对这些请求的理想响应。由于预训练 LLM 本质上并未针对遵循指令或会话目标进行优化，指令调整用于更好地使模型与用户意图保持一致。

使用大型语言模型

大型语言模型经过训练后，其工作原理是：首先对提示进行分词，将其转换为嵌入向量，然后使用转换器逐词元生成文本，计算所有潜在后续词元的概率，输出最可能选项。这个过程称为推理，一直重复到输出完成。模型并非预先“知道”最终答案；它运用训练中学到的所有统计关联逐词元预测，每次预测一个词元，为每一步做出最合理的猜测。

从通用 LLM 获取特定领域知识的最简单、最快捷的方法是通过提示工程，这不需要额外的训练。用户可以通过各种方式修改提示。例如，“以训练有素的医疗专业人士口吻回答”的提示可能产生更相关结果（注意：不推荐使用 LLM 获取医疗建议！）。

LLM 还通过其他策略控制输出，如 LLM 温度参数控制推理期间生成文本的随机性，或 top-k/top-p 采样将候选词元限制为最可能选项，平衡创造力与连贯性。

上下文窗口是模型生成文本时能一次性“看到”并使用的最大词元数。早期 LLM 窗口较短，但新一代 LLM 具备数十万词元的上下文窗口，支持整篇研究论文摘要、大型代码库辅助编程、与用户长时间连续对话等用例。

检索增强生成 (RAG) 是一种将预训练模型与外部知识库连接起来的方法，使它们能够以更高的准确性提供更相关的响应。所检索的信息会传递到模型的上下文窗口中，使模型生成响应时可直接利用，无需重新训练。例如，通过将 LLM 连接至动态天气服务数据库，LLM 可为用户检索当日天气预报信息。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型，这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册，深入了解这些模型。

转到视频集

部署 LLM

从零开始构建 LLM 是一个复杂且资源密集型的过程。最流行的 LLM 是海量数据、GPU、能源和人类专业知识的结果，因此大多数 LLM 都是由拥有雄厚资源的大型科技公司构建和维护。

不过，所有开发人可通过 API 使用大多数模型。开发人可以使用预训练模型来构建聊天机器人、知识检索系统、自动化工具等。为更好控制数据与定制化，许多开源模型可本地或云端部署。Github、Hugging Face、Kaggle 和其他平台让所有人都能参与 AI 开发。

开发人员可以将 LLM 作为各种 AI 应用的基础。AI 领域最令人兴奋的发展之一是智能体系统。AI 智能体不仅会思考，还会行动。LLM 本身只是根据上下文生成文本，但通过与内存、API、决策逻辑和其他外部系统集成，可以执行预订航班或自动驾驶等具体任务。

大型语言模型用例

LLM 正在重新定义业务流程，其跨行业多场景的通用性已得到验证。

文本生成： LLM 可以执行各种内容创建任务，例如根据提示起草电子邮件、博客文章或法律备忘录。

文本摘要：LLM 能够将长篇文章、新闻报道、研究报告、公司文档和客户历史记录，提炼成符合目标输出格式与风格的精简文本。

AI 助手：由会话式 AI 提供支持的聊天机器人，可作为集成化实时客户服务解决方案的一部分，执行问答任务并提供详细信息。

代码生成：代码辅助平台帮助开发人员构建应用程序，查找代码中的错误并发现多种编程语言中的安全问题，甚至在它们之间进行“翻译”。

情感分析：分析客户语气，以便更好地了解大规模客户反馈。

语言翻译：自动翻译工具通过流畅的翻译和多语言功能，为各语言和地域的组织提供更广泛的覆盖范围。
推理： LLM 可以解决数学问题、规划多步骤流程以及用更简单的术语解释复杂的概念。

评估 LLM

LLM 虽是强大工具，但存在若干局限。首要问题是准确性。在产生幻觉时，模型会生成看似合理实则错误或误导性的信息。LLM 也可能反映和放大其训练数据中存在的偏见，生成不公正或冒犯性内容。此外，LLM 资源需求巨大：训练和运行LLM需要大量算力与能源，引发成本与环境担忧。

从业者可以通过全面的人工智能治理来减轻LLM的这些负面影响，即帮助确保人工智能系统和工具的安全性和合乎道德性的流程、标准和保障措施。治理的关键部分之一是根据基准评估模型。LLM 基准测试提供量化评分，便于模型比较。由于 LLM 是能够执行各种任务的通用系统，其评估需涵盖多个维度而非单一基准。研究人员和从业者会考量准确性、效率、安全性、公平性和稳健性等特质来判断模型性能。

LLM 还需进行对齐性与安全性评估，例如采用红队测试,评估者故意诱导模型生成不安全或偏见响应以暴露缺陷。公平性和偏见评估可以帮助从业者防止 LLM 重现有害的刻板印象或错误信息。

LLM 通常还根据效率进行评估。速度、能耗、词元吞吐量、内存占用量以及处理长上下文窗口的能力是用于评估 LLM 获得输出效率的一些常见指标。

LLM 发展简史

LLM 的历史可以追溯到计算和自然语言处理的早期，当时研究人员使用基于规则的系统和统计方法对文本进行建模。这些早期方法能捕捉局部词汇模式，但无法理解长距离依赖或深层语义。

2010 年代，神经网络兴起带来了重大转折，Word2Vec 和 GloVe 等词嵌入技术将词汇表示为连续空间中的向量，使模型能够学习语义关系。循环神经网络 (RNN) 和长短期记忆 (LSTM) 网络等序列模型的出现更好地处理了序列数据。

2017 年，Vaswani 等人在具有里程碑意义的论文《Attention is All You Need》中引入了编码器-解码器转换器架构。[1]转换器使大数据集训练模型成为可能，标志着现代 LLM 时代的开启。Google 的 BERT（2018 年）是一种纯编码器转换器，展示了转换器在理解语言方面的力量，而 OpenAI 的生成式预训练转换器 (GPT) 系列基于纯解码器变体，证明了互联网规模文本的生成式预训练能实现流畅语言生成。同期，编码器-解码器模型（如 Google 的 T5 和 Facebook 的 BART）展示了完整的序列到序列设计在翻译和摘要等任务中的优势。GPT-2 (2019) 因其生成连贯段落的能力而备受关注，而拥有 1750 亿参数的 GPT-3（2020 年）则确立了 LLM 在 AI 领域的变革性地位。

此外，新的架构也在挑战转换器在 LLM 中的受欢迎程度。Mamba 利用状态空间模型对的工作进行建模，该模型具有选择性更新功能，可有效过滤和组合过去的信息，从而捕捉到长距离的依赖关系。扩散 LLM 从随机噪声开始，在学习模型的指导下逐步对其进行降噪，直到出现连贯的文本。这两种架构的效率都比转换器高得多。