参数高效微调 (PEFT) 是一种针对特定任务或数据集提高预训练大语言模型 (LLM) 和神经网络性能的方法。通过训练一小组参数,并保留大型预训练模型的大部分结构,PEFT 可以节省时间和计算资源。
神经网络经过诸如自然语言处理 (NLP) 或图像分类等一般任务训练后,可以专注于相关的新任务,而无需完全重新训练。PEFT 是一种资源高效的方法,可以构建高度专业化的模型,而无需每次都从头开始。
PEFT 的工作原理是冻结大部分预训练的模型参数和层,同时向最终层添加一些可训练参数(称为适配器),以完成预先确定的下游任务。
微调后的模型保留了在训练期间获得的所有学习成果,同时专注于各自的下游任务。许多 PEFT 方法通过梯度检查点来进一步提高效率,梯度检查点是一种节省内存的技术,有助于模型进行学习,而无需一次存储太多信息。
参数高效微调带来了许多益处,因此颇受在工作中使用 LLM 的组织欢迎:
生成式 AI 中使用的大多数大语言模型均由 Nvidia 等制造商制造的昂贵的图形处理单元 (GPU) 提供支持。每个 LLM 都使用大量的计算资源和能源。仅调整最相关的参数能够节省大量能源和云计算成本。
实现价值的时间是指开发、训练和部署 LLM 以便它开始为使用它的组织创造价值所需的时间。由于 PEFT 仅调整几个可训练参数,因此,为新任务更新模型所需的时间要少得多。PEFT 可以提供与完全微调过程相当的性能,而时间和费用只是完全微调过程的一小部分。
如果 LLM 在针对新用例进行再训练或调整时,丢失或“忘记”了在初始训练过程中获得的知识,就会发生灾难性遗忘。由于 PEFT 保留了大部分初始参数,因此它还可以防止灾难性遗忘。
过拟合是指模型在训练过程中过于接近其训练数据,使其无法在其他上下文中生成准确的预测。使用 PEFT 进行调整的转换器模型不太容易过拟合,因为它们的大多数参数保持为静态。
通过关注几个参数,PEFT 降低了微调过程的训练数据要求。完全微调需要更大的训练数据集,因为模型的所有参数都将在微调过程中进行调整。
如果没有 PEFT,则开发专业 LLM 的成本就太高了,许多中小型组织将无法承受。PEFT 让那些没有时间或资源对模型进行训练和微调的团队也能使用 LLM。
PEFT 使数据科学家和其他专业人员能够针对具体用例定制通用 LLM。AI 团队可以尝试模型优化,而不必过分担心计算、能源和存储资源的消耗。
AI 团队拥有各种 PEFT 技术和算法,每种技术和算法都有其相对优势和专业性。在 Hugging Face 和众多其他 GitHub 社区上,可以找到许多最流行的 PEFT 工具。
适配器是首批应用于自然语言处理 (NLP) 模型的 PEFT 技术之一。研究人员努力克服在尽可能减少模型权重的同时为多个下游任务训练模型的挑战。答案就是适配器模块:小型附加组件,可将少量可训练的、特定于任务的参数插入到模型的每个转换器层中。
大语言模型的低秩适应 (LoRA) 于 2021 年推出,它使用孪生低秩分解矩阵来最大限度地减少模型权重,并进一步减少可训练参数的子集。
QLoRA 是 LoRA 的扩展版本,它将每个预训练参数的权重从典型的 32 位权重量化或标准化为仅 4 位。因此,QLoRA 可显著节省内存,并且只需在一个 GPU 上运行 LLM 即可。
前缀调整专为自然语言生成 (NLG) 模型而创建,它可将特定于任务的连续向量(称为前缀)附加到每个转换器层,同时使所有参数保持冻结状态。因此,与性能相当的完全微调模型相比,前缀调整模型存储的参数要少一千倍以上。
提示调整通过在输入或训练数据中注入定制的提示,来简化前缀调整并训练模型。硬提示是手动创建的,而软提示是 AI 生成的数字字符串,用于从基础模型中提取知识。在调整过程中已发现,软提示优于人工生成的硬提示。
P 调整是提示调整的一种变体,专为自然语言理解 (NLU) 任务而设计。P 调整不再使用手动创建的提示,而是引入了自动提示训练和生成,随着时间的推移,可以产生更具影响力的训练提示。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。