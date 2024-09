指令调整是监督微调 (SFT) 的一部分,通常用于微调 LLM 以供聊天机器人使用,它使 LLM 能够生成更直接满足用户需求的响应:换句话说,更好地遵循指令。标记示例遵循格式(提示,响应),其中提示示例包括面向指令的任务,例如“translate the following sentence from English to Spanish”或“classify the following sentence as Positive or Negative”,标记示例演示如何响应代表各种用例的提示,例如问答、总结或翻译。在更新模型权重以最大程度地减少模型输出和标记样本之间的损失时,LLM 学会以更有用的方式将文本附加到提示中,并更好地遵循一般的说明。

继续前面的提示示例“teach me how to write a resumé”,用于 SFT 的数据集可以包含许多(提示、响应)对,表明响应以“teach me how to”开头的提示的理想方式是提供分步建议,而不仅仅是完成句子。