什么是 LLM 参数？| IBM

作者

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

LLM 参数，已定义

LLM 参数是控制和优化大型语言模型 (LLM) 输出和行为的设置。可训练参数包括权重和偏差，并被配置为大语言模型 (LLM) 从其训练数据集中学习。超参数是模型的外部参数，指导模型的学习过程、决定模型的结构并塑造输出结果。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

LLM 参数的类型

LLM 参数可分为三大类：

权重

偏见

超参数

权重

权重是数值，表示 LLM 对特定输入赋予的重要性。人工智能 (AI) 模型在生成响应时，并非对所有输入都给予同等对待。输入的权重越高，与模型输出的相关性就越大。

在训练过程中，模型的学习算法会对权重等可训练参数设置进行配置。该学习算法使用损失函数来衡量机器学习 (ML) 模型的性能，该函数试图通过优化模型的参数来最大限度地减少错误。

在神经网络中，权重是决定从一个神经元层到下一个神经元层信号强度的乘数。信号必须达到激活函数的强度阈值，才能在网络中前进。因此，权重会直接影响网络在各层中向前传播数据的方式。

反向传播算法用于计算权重值的变化如何影响模型性能。

偏差

与权重一样，偏差也是在 AI 模型训练过程中自动配置的。偏差是添加到先前层信号值的常数值。模型利用偏差来支持神经元在仅靠权重可能不足以通过激活函数的情况下激活。

偏差使模型更加灵活。即使加权输入未达到激活阈值，模型也可以从数据中学习。与权重一样，偏差在训练过程中通过反向传播算法进行调整，以优化模型的性能并尽可能降低错误。

LLM 中权重和偏差的组合可能会产生拥有数十亿个参数的模型。在微调过程中（即对预训练的 LLM 进行进一步训练以用于下游任务时），会使用特定领域的训练数据来调整其权重和偏差。

超参数

超参数是决定模型行为、形状、大小、资源使用和其他特征的外部设置。超参数调整或模型调整的过程使用算法来发现超参数的最佳组合，以实现更好的性能。除了提示工程之外，超参数调优也是 LLM 定制的主要方法之一。

架构超参数，例如层数和隐藏层的维度，用于配置模型的大小和形状。

学习率和批次大小等训练超参数可指导模型的训练过程。训练超参数会强烈影响模型性能以及模型是否满足所需的 LLM 基准。

推理超参数（例如温度和 top-p 采样）决定了生成式 AI 模型如何生成其输出。

内存和计算超参数，例如上下文窗口、输出序列和停止序列中的最大词元数，在模型功能与资源需求之间取得平衡。

输出质量超参数，例如存在惩罚和频率惩罚，可以帮助 LLM 生成更加多样化和有趣的输出，同时控制成本。

Mixture of Experts | 8 月 28 日，第 70 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看最新播客节目

值得注意的 LLM 参数

大型模型（如 GPT-4 和 GPT-3、Llama、Gemini 以及其他转换器模型等复杂神经网络）中的参数数量可以达到数十亿。较小的模型具有较少的参数，这使得它们对计算的消耗较少，但也无法辨别复杂的模式和关系。

所有参数都有助于确定模型如何理解它遇到的真实世界数据。但是，对模型输出影响最大的参数是其超参数。开源模型的一个优势是其超参数设置是可见的。

超参数调优是 LLM 定制的一个重要支柱：针对具体任务调整模型。

模型超参数中最重要的参数包括：

层数

上下文窗口

温度

Top-p（核采样）

Top-k

词元数量（最大词元数量）

学习率

频率惩罚

存在惩罚

停止序列

层数

神经网络中的层数是设置模型大小和复杂度的关键超参数。神经网络由多层神经元或节点组成。初始输入层和最终输出层之间的层数越多，模型就越复杂。

但复杂性并不总是好事。对于无需过多层数的任务来说，模型如果层数过多，就可能出现过拟合现象，浪费计算资源。同时，层数不足的模型将无法捕捉复杂数据集中的模式、关系和分布。

上下文窗口

上下文窗口超参数与任何基于转换器架构构建的模型相关，例如开源 LLM Llama-2。上下文窗口是指模型在保持整个输入序列一致性的前提下，能够处理的最大词元数。

上下文窗口还决定了模型在不丢失先前内容痕迹的情况下可以保持的对话长度。上下文窗口越大，准确性就越高，幻觉就越少，从而能够处理更大的文档或进行更长的对话。

不过，大型上下文窗口也需要更多的计算资源，并且可能延长响应生成的处理时间。

温度

LLM 温度超参数类似于随机性或创意表盘。提高温度会增加文本生成期间模型输出中接下来出现字词的概率分布。

温度设置为 1 时，该模型采用标准概率分布。温度高于 1 时，会使概率分布趋平，从而鼓励模型选择更广泛的词元。相反，温度低于 1 时，概率分布会变宽，使模型更有可能选择最有可能出现的下一个词元。

温度值接近 1.0（例如 0.8），则 LLM 在响应时更具创造性，但可预测性可能会降低。同时，0.2 的较低温度将产生更多确定性响应。低温模型可提供可预测但稳定的输出。接近 2.0 的较高温度可能会开始产生不合理的输出。

该用例揭示了 LLM 的理想温度值。聊天机器人具有娱乐性和创造性，例如 ChatGPT需要更高的温度来创建类人的文本。在法律、健康或金融等高度监管领域，文本摘要应用程序则需要相反的要求，即生成的文本摘要必须符合严格的要求。

Top-p（核采样）

与温度一样，top-p 采样也会影响生成文本输出中的字词多样性。Top-p 的工作原理是为输出序列中的下一个词元设置概率阈值 p。该模型允许使用概率限制内的词元生成响应。

通过 top-p 采样，词元按概率的顺序进行排序。序列中出现概率较大的下一个词元得分较高，反之亦然。该模型会聚集一组潜在的下一个词元，直到累计 p 分数达到设定的阈值，然后从该组中随机选择一个词元。

较高的 p 阈值会产生更多样化的输出，而较低的阈值可以保持准确性和一致性。

温度与 top-p 采样

温度和 top-p 采样的区别在于，温度会调整潜在词元的概率分布，而 top-p 采样则会将词元的选择限制在一个有限组内。

Top-k

top-k 超参数是另一个以多元为中心的设置。k 值设定了可被视为序列中下一项的术语数量限制。根据概率对术语进行排序，并选择前 k 项作为候选词。

top-p 与 top-k

top-p 限制词元池到设定的 p 概率总和，而 top-k 限制词元池到最有可能的前 k 项。

词元数量（最大词元数）

词元数量或最大词元超参数设定了输出词元长度的上限。较小的词元数值非常适合聊天机器人对话和摘要等快速任务，这些任务既可以由小型语言模型处理，也可以由 LLM 处理。

需要更长的输出时，比如尝试使用 LLM 进行氛围编码时，词元数值越高越好。

学习率

学习率是一个关键的超参数，它会影响模型在训练和微调过程中调整其权重和偏差的速度。这些过程通常使用一种称为梯度下降的学习算法。

梯度下降算法试图尽可能降低衡量模型预测误差的损失函数。在每次训练迭代中，该算法都会更新模型的权重，以期在新一批数据上实现性能的提升。

学习率控制权重的更新程度。更高的学习率会带来更大的增长，从而加快训练速度，但可能会超过局部最小值。较低的学习率可以进行更细微的调整，但需要更多迭代才能达到最小值，甚至可能停滞不前。

管理学习率的一个有效方法是，在开始训练时使用一个较高的值，当模型接近其损失函数的局部最小值时，再降低学习率。

频率惩罚

频率惩罚超参数有助于防止模型在同一输出中过度使用术语。一旦某个术语出现在输出结果中，频率惩罚就会阻止模型在以后再次使用该术语。

模型为每个词元分配分数，称为 logit，并使用 logit 计算概率值。频率惩罚会在每次重复某个术语时线性降低其 logit 值，从而使其下次被选中的可能性逐渐降低。较高的频率惩罚值会降低每次应用的 logit。

由于该模型避免使用重复的术语，因此它必须选择其他术语，从而导致生成文本中的字词选择更加多样化。

重复惩罚

重复惩罚与频率惩罚类似，但它是指数惩罚而非线性惩罚。每次重复使用时，重复惩罚都会使术语的 logit 呈指数级降低，因此它比频率惩罚具有更强的抑制作用。因此，建议降低重复惩罚值。

存在惩罚

存在惩罚是一个相关的超参数，其工作方式与频率惩罚类似，但只应用一次。只要某个术语至少出现一次，存在惩罚就会降低该术语的 logit 值，无论该术语在输出中出现的频率如何。

如果“熊”这个术语在输出中出现了 10 次，“狐狸”这个术语出现了 1 次，那么“熊”的频率惩罚比“狐狸”要高。然而，“熊”和“狐狸”的存在惩罚相同。

停止序列

停止序列是一个预设的词元字符串，当它出现时，会导致模型结束输出序列。例如，如果模型被设计成一次输出一句，那么停止序列可能就是一个句号。

停止序列保持响应简洁性，而不会影响模型生成输出的方式，直至停止点。由于停止序列会截断模型响应，因此在通过 API 连接到 LLM 时，停止序列还有助于节省词元成本。

优化 LLM 参数

优化模型的内部可训练参数（权重和偏差）对于获得良好的性能至关重要。一旦模型配备了最佳超参数，其设计人员就可以使用一系列方法来帮助塑造内部 LLM 参数。

微调可针对特定任务调整模型的权重和偏差。参数高效微调 (PEFT) 冻结大多数参数，同时改变一小部分相关子集。

迁移学习是一门广泛的模型优化技术流派，其核心在于利用模型的先验知识来提高其在新任务方面的性能。

量化简化了模型内部的所有数学运算，使其更小、更高效，同时仍然表示相同的数据。

提前停止可以防止过拟合，当训练不再取得明显性能提升时，就会中止训练过程。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是 LLM 参数？

作者