LLM 参数是控制和优化大型语言模型 (LLM) 输出和行为的设置。可训练参数包括权重和偏差,并被配置为大语言模型 (LLM) 从其训练数据集中学习。超参数是模型的外部参数,指导模型的学习过程、决定模型的结构并塑造输出结果。
LLM 参数可分为三大类:
权重
偏见
超参数
超参数是决定模型行为、形状、大小、资源使用和其他特征的外部设置。超参数调整或模型调整的过程使用算法来发现超参数的最佳组合,以实现更好的性能。除了提示工程之外,超参数调优也是 LLM 定制的主要方法之一。
架构超参数,例如层数和隐藏层的维度,用于配置模型的大小和形状。
学习率和批次大小等训练超参数可指导模型的训练过程。训练超参数会强烈影响模型性能以及模型是否满足所需的 LLM 基准。
推理超参数(例如温度和 top-p 采样)决定了生成式 AI 模型如何生成其输出。
内存和计算超参数,例如上下文窗口、输出序列和停止序列中的最大词元数,在模型功能与资源需求之间取得平衡。
输出质量超参数,例如存在惩罚和频率惩罚,可以帮助 LLM 生成更加多样化和有趣的输出,同时控制成本。
神经网络中的层数是设置模型大小和复杂度的关键超参数。神经网络由多层神经元或节点组成。初始输入层和最终输出层之间的层数越多,模型就越复杂。
但复杂性并不总是好事。对于无需过多层数的任务来说,模型如果层数过多,就可能出现过拟合现象,浪费计算资源。同时,层数不足的模型将无法捕捉复杂数据集中的模式、关系和分布。
上下文窗口超参数与任何基于转换器架构构建的模型相关,例如开源 LLM Llama-2。上下文窗口是指模型在保持整个输入序列一致性的前提下,能够处理的最大词元数。
上下文窗口还决定了模型在不丢失先前内容痕迹的情况下可以保持的对话长度。上下文窗口越大,准确性就越高,幻觉就越少,从而能够处理更大的文档或进行更长的对话。
不过,大型上下文窗口也需要更多的计算资源,并且可能延长响应生成的处理时间。
LLM 温度超参数类似于随机性或创意表盘。提高温度会增加文本生成期间模型输出中接下来出现字词的概率分布。
温度设置为 1 时,该模型采用标准概率分布。温度高于 1 时,会使概率分布趋平,从而鼓励模型选择更广泛的词元。相反,温度低于 1 时,概率分布会变宽,使模型更有可能选择最有可能出现的下一个词元。
温度值接近 1.0(例如 0.8),则 LLM 在响应时更具创造性,但可预测性可能会降低。同时,0.2 的较低温度将产生更多确定性响应。低温模型可提供可预测但稳定的输出。接近 2.0 的较高温度可能会开始产生不合理的输出。
该用例揭示了 LLM 的理想温度值。聊天机器人具有娱乐性和创造性,例如 ChatGPT需要更高的温度来创建类人的文本。在法律、健康或金融等高度监管领域,文本摘要应用程序则需要相反的要求,即生成的文本摘要必须符合严格的要求。
与温度一样,top-p 采样也会影响生成文本输出中的字词多样性。Top-p 的工作原理是为输出序列中的下一个词元设置概率阈值 p。该模型允许使用概率限制内的词元生成响应。
通过 top-p 采样,词元按概率的顺序进行排序。序列中出现概率较大的下一个词元得分较高,反之亦然。该模型会聚集一组潜在的下一个词元,直到累计 p 分数达到设定的阈值,然后从该组中随机选择一个词元。
较高的 p 阈值会产生更多样化的输出,而较低的阈值可以保持准确性和一致性。
温度和 top-p 采样的区别在于,温度会调整潜在词元的概率分布,而 top-p 采样则会将词元的选择限制在一个有限组内。
top-k 超参数是另一个以多元为中心的设置。k 值设定了可被视为序列中下一项的术语数量限制。根据概率对术语进行排序,并选择前 k 项作为候选词。
top-p 限制词元池到设定的 p 概率总和,而 top-k 限制词元池到最有可能的前 k 项。
学习率是一个关键的超参数,它会影响模型在训练和微调过程中调整其权重和偏差的速度。这些过程通常使用一种称为梯度下降的学习算法。
梯度下降算法试图尽可能降低衡量模型预测误差的损失函数。在每次训练迭代中,该算法都会更新模型的权重,以期在新一批数据上实现性能的提升。
学习率控制权重的更新程度。更高的学习率会带来更大的增长,从而加快训练速度,但可能会超过局部最小值。较低的学习率可以进行更细微的调整,但需要更多迭代才能达到最小值,甚至可能停滞不前。
管理学习率的一个有效方法是,在开始训练时使用一个较高的值,当模型接近其损失函数的局部最小值时,再降低学习率。
频率惩罚超参数有助于防止模型在同一输出中过度使用术语。一旦某个术语出现在输出结果中,频率惩罚就会阻止模型在以后再次使用该术语。
模型为每个词元分配分数,称为 logit,并使用 logit 计算概率值。频率惩罚会在每次重复某个术语时线性降低其 logit 值,从而使其下次被选中的可能性逐渐降低。较高的频率惩罚值会降低每次应用的 logit。
由于该模型避免使用重复的术语,因此它必须选择其他术语,从而导致生成文本中的字词选择更加多样化。
重复惩罚与频率惩罚类似,但它是指数惩罚而非线性惩罚。每次重复使用时,重复惩罚都会使术语的 logit 呈指数级降低,因此它比频率惩罚具有更强的抑制作用。因此,建议降低重复惩罚值。
存在惩罚是一个相关的超参数,其工作方式与频率惩罚类似,但只应用一次。只要某个术语至少出现一次,存在惩罚就会降低该术语的 logit 值,无论该术语在输出中出现的频率如何。
如果“熊”这个术语在输出中出现了 10 次,“狐狸”这个术语出现了 1 次,那么“熊”的频率惩罚比“狐狸”要高。然而,“熊”和“狐狸”的存在惩罚相同。
停止序列是一个预设的词元字符串,当它出现时,会导致模型结束输出序列。例如,如果模型被设计成一次输出一句,那么停止序列可能就是一个句号。
停止序列保持响应简洁性,而不会影响模型生成输出的方式,直至停止点。由于停止序列会截断模型响应,因此在通过 API 连接到 LLM 时,停止序列还有助于节省词元成本。
优化模型的内部可训练参数(权重和偏差)对于获得良好的性能至关重要。一旦模型配备了最佳超参数,其设计人员就可以使用一系列方法来帮助塑造内部 LLM 参数。
微调可针对特定任务调整模型的权重和偏差。参数高效微调 (PEFT) 冻结大多数参数,同时改变一小部分相关子集。
迁移学习是一门广泛的模型优化技术流派,其核心在于利用模型的先验知识来提高其在新任务方面的性能。
量化简化了模型内部的所有数学运算,使其更小、更高效,同时仍然表示相同的数据。
提前停止可以防止过拟合,当训练不再取得明显性能提升时,就会中止训练过程。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。