指令调整是更广泛的微调技术的一个子集,用于调整预训练的基础模型以适应下游任务。可以出于各种目的对基础模型进行微调,从风格定制到补充预训练模型的核心知识和词汇,再到优化特定用例的性能。尽管微调并非任何特定领域或人工智能模型架构所独有,但它已成为 LLM 生命周期不可或缺的一部分。例如,Meta 的 Llama 2 模型系列 (多种尺寸)有基本模型、对话微调模型(Llama-2-chat) 和编码微调模型(Code Llama)。

指令调整与其他微调技术并不相互排斥。例如,聊天模型通常会同时进行指令调整和来自人类反馈的强化学习 (RLHF),这是一种旨在提高乐于助人和诚实等抽象品质的微调技术;针对编码进行微调的模型通常会同时进行指令调整(以广泛优化对指令遵循的响应)和对特定于编程的数据的额外微调(增强模型对编码语法和词汇的了解)。

虽然 LLM 的起源可以追溯到 2017 年的“Attention is All You Need”论文,该论文将大规模转换器模型引入自然语言处理 (NLP) 任务中,而在谷歌(2021 年)1和 OpenAI(2022 年)2的有影响力的论文的推动下, 指令调整和 RLHF 的融入产生了现代 LLM,随着 ChatGPT 的推出,开启了当前的生成式 AI 时代。