LLM 定制,即大型语言模型定制,是将预训练的 LLM 适应特定任务的过程。LLM 定制过程包括选择预训练模型(也称为基础模型),然后根据预期用例对其进行定制。
创建定制 LLM 的过程旨在将通用模型应用于更具体的环境。尽管有各种 LLM 定制方法可用,但一般过程往往遵循一系列类似的步骤。
数据准备:模型的最佳性能取决于强大的训练数据。模型创建者和数据科学家必须收集和汇编与模型预期用途相关的特定领域训练数据集。凭借高质量数据的知识库,模型的响应更有可能准确且有用。
模型选择:LLM 列表既庞大又多样。AI 模型在规模、有效性、计算资源使用和架构方面各不相同,所有这些都会影响其性能。选择合适的模型需要了解机器学习项目的目标和局限性。
模型定制:在此阶段,机器学习专家将基础模型转化为专门工具。该模型的输出将根据具体的下游任务进行定制。开发人员必须了解基础模型的工作原理和所选的定制方法,才能成功优化模型的行为。
迭代:ML 算法在逐步训练过程进行训练时表现最佳,而非通过大幅调整。开发人员可在每个步骤衡量定制技术的效果,并利用这些发现来指导下一次迭代。
测试:训练完成后,但在实际应用之前,需对模型进行测试以确保其性能可靠。开发人员需确保其调整是有效的,并且模型能够应用新获得的特定知识,而不会出现灾难性的遗忘。
模型部署:将自定义模型部署到其生产环境(例如 AI 驱动的软件应用程序或 API)中,并可用于现实世界中的特定用例。
根据用例和预期输出,开发人员和机器学习专家会从一系列 LLM 定制方法中进行选择。所有类型的 LLM 定制都能使生成式 AI (genAI) 模型的性能适应特定的下游任务。
LLM 定制技术包括:
检索增强生成 (RAG) 将 LLM 与外部数据源连接起来,以扩展其知识库。当用户提交查询时,RAG 系统会在配对数据库中搜索相关信息,然后将其与查询相结合,为 LLM 生成响应提供更丰富的上下文。
RAG 利用嵌入将数据库、源代码或其他信息转换为可搜索的矢量数据库。嵌入通过数学方式将每个数据点绘制在三维向量空间中。为了查找相关数据,RAG 系统中的信息检索模型将用户查询转换为嵌入,并在矢量数据库中查找相似的嵌入。
RAG 系统通常遵循以下标准流程:
提示:用户通过用户界面(例如,人工智能驱动聊天机器人)提交提示。
查询:信息检索模型将提示转换为嵌入,并在数据库中查询相似数据。
检索:检索模型从数据库中检索相关数据。
生成:RAG 系统将检索到的数据与用户查询相结合,并将其提交给 LLM,LLM 随即生成响应。
交付: RAG 系统将生成的响应返回给用户。
RAG 的名称,源于其系统检索相关数据,并复用这些数据增强 LLM 所生成响应的方式。更复杂的 RAG 系统会引入更多组件,以优化流程并进一步提升响应质量。
赋予 LLM 对特定领域知识的访问权限,使其能够将这些数据整合到其响应生成过程中。这能在不增加成本投资的情况下,提高 AI 解决方案的准确性和可靠性,特别是当外部数据已经可用且可用于机器学习时。
例如,当专为问答而设计的 RAG 模型能够在其关联的知识库中找到正确答案时,可以提供更好的答案。
将 RAG 与较小模型结合使用,可以帮助它们达到更高的性能水平。小型语言模型 (SLM) 具有更低的计算要求、更快的训练速度和更少的推理延迟。基于 SLM 构建 RAG 系统,既能保留这些优点,又能利用 RAG 所能提供的更强的特定环境准确性。
微调 LLM 涉及对指导其行为的内部设置进行迭代调整。这些设置称为模型参数或权重,它们控制模型如何处理和评估数据。
在训练过程中,模型的学习算法会持续调整参数,直至达到最佳性能。此时,训练过程即被视为成功完成。
进阶版 LLM,尤其是转换器(比如 OpenAI 的 GPT 和 Meta 的 Llama 2 等),可拥有数十亿个参数。由于这些模型过于庞大,因全面微调往往非常昂贵且耗时。
更细致的微调方法会对模型的部分参数进行调整或添加新参数,旨在既能保持其训练性能,又能提高其在特定任务上的熟练程度。
值得关注的微调方法包括:
PEFT 会冻结预训练模型的大部分参数,并侧重于调整那些与新任务最相关的参数。因此,它所消耗的计算资源比全面微调要少得多。PEFT 是一个范围广泛且有多种实现方法的领域。
低秩适应 (LoRA) 是一种模块化的微调方法,它为预训练模型添加补充参数。LoRA 会冻结预训练模型的参数,并添加了一个称为低秩矩阵的补充模块,该模块可调整模型的响应,以满足特定用例或任务的要求。
将 LoRA 想象成一套神奇的帽子,戴上它们就能掌握并执行相应的技能。戴上神奇厨师帽,便能烹制一顿五星级大餐。戴上神奇的安全帽,便能建造房屋。戴上神奇的摩托车头盔,便能赢得马恩岛 TT 摩托车赛。戴上神奇的棒球帽,便能给比赛带来制胜一击。
带有人类反馈的强化学习 (RLHF) 利用配对的奖励模型来微调训练模型,以处理复杂且主观的任务。ML 模型无法判断一篇文章是否具有启发性,但人类可以做到,并且这些人类可以训练模型模仿他们的偏好。
通过 RLHF,人类可为新任务训练一个奖励模型。奖励模型的工作是成功预测人类对给定输入会做出何种反应。与标准模型训练惩罚错误不同,奖励训练旨在激励良好性能。
然后,奖励模型反过来会根据人类训练师的偏好,教导基础模型如何行动。一旦奖励模型训练完成,它便可以在没有人为干预 (HITL) 的情况下对基础模型进行训练。
与所有类型的机器学习一样,该模型不会批判性思考,甚至根本不会思考。确切地说,它是在数学层面上选择最有可能符合人类训练师偏好的结果。
微调能够让现有模型适应新的用例,同时避免开发新模型所需的成本。许多微调方法只需通过调整少量参数,即可进一步提升效率。在训练数据不足,无法从零开始训练模型的情况下,微调也能发挥重要作用。
提示工程,又称为情境学习或基于提示的学习,其核心在于通过在提示中包含相关信息,引导 LLM 生成更好的响应。在推理阶段,也就是当模型处理用户提示时,用户通常会提供明确的指示和可供仿效的范例。
例如,在处理文本摘要任务时,如果提示中能展示如何将摘要格式化为项目列表,将对模型大有裨益。更全面的提示有助于模型根据用户期望返回特定类型的响应。
深度学习研究人员已经开发出多种类型的提示工程技术。其中一些具有里程碑意义的发展包括:
少样本提示:为模型提供少量示例输出(称为样本),然后对其响应进行建模。模型可以遵循示例,并根据用户在提示中提供的镜头做出响应。
思维链(CoT)提示:在提示中加入逐步推理的方法,让模型依次跟随思路生成答案。该模型会根据用户提供的思维链来构建并生成响应内容。思维链提示是一种高级技术,要求对大语言模型的响应生成机制具备实践经验和深入理解。
与许多其他 LLM 定制技术不同,提示工程无需额外的编码或开发工作。不过,提示工程师必须精通 LLM 即将部署的应用场景,才能设计出既有效又信息丰富的提示。
如果实施得当,提示工程会是一种非常有价值的自然语言处理 (NLP) 技术,它允许任何人(尤其是人工智能 (AI) 初学者)定制 LLM。随着开源 LLM 和开源 AI 工具的普及,提示工程已成为一个通往机器学习领域的便捷途径,它鼓励人们大胆实、保持好奇并坚持不懈。
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。