Think 时事通讯
超越提示思考,全面了解背景
通过 Think 时事通讯,随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外,还可以访问新的阅读解释器、教程和专家洞察分析,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
Think 时事通讯
通过 Think 时事通讯,随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外,还可以访问新的阅读解释器、教程和专家洞察分析,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
提示微调的方法基于若干核心组件,这些组件协同工作以让大型预训练模型适应新任务。该方法使用冻结的模型,通过基于梯度的优化学习一组软提示嵌入,并由特定任务的数据集进行指导。这些要素使模型能够在无需重新训练全部参数的情况下实现高效适配。1, 2
预训练冻结模型:一个大语言模型 (LLM) 或视觉转换器作为核心主干网络。模型主体在训练过程中保持冻结状态,既保留了通用知识又显著降低计算与存储成本。4
软提示嵌入:这些提示是可训练的矢量,也称为附加或插入到标记化输入中的虚拟标记。它们作为连续信号,引导模型生成符合目标任务的输出,而无需改变模型的内部权重。4
特定任务的数据集: 与下游任务保持一致的标注数据集对于软提示的监督优化至关重要。
基于梯度的优化:仅通过优化器更新软提示参数和轻量级头部(可选),而主干模型保持冻结不变。这种方法确保任务过程中的效率和稳定性。4
如图所示,提示微调通过在冻结的预训练模型输入中引入一小组可训练矢量来实现。这些提示作为隐藏指令,可以引导模型转向目标任务,而无需更新数十亿个参数。
除核心组件外,以下设计选择对性能产生显著影响:
提示长度:软提示中包含的虚拟令牌数量是关键超参数。多位研究人员的实验表明,最佳提示长度需根据具体任务而定。例如,简单的分类任务可能在较短的提示下表现最佳(例如少于 20 个令牌),而复杂的序列标注任务可能需要更长的提示(例如约 100 个令牌)。 5
提示位置:该要素通过优化提示在输入序列中的排列方式(前缀、后缀或交错排列)来提升模型性能。
初始化策略:使用随机值、采样嵌入或任务特定令牌来初始化软提示,将影响模型的收敛速度与精度。4
这些附加要素并非强制要求,但为实现最佳性能仍建议配置。
让我们通过情感分析任务来直观阐释提示微调的运行机制与优势。假设我们需要让一个拥有 1750 亿参数的模型适配电影评论分类任务,将其准确归类为“正面”或“负面”评价。全面微调的方法成本过高,速度过慢。采用提示微调时,其流程如下:
从冻结的预训练模型起步:1750 亿参数的主干网络保持完全锁定,完整保留预训练阶段习得的通用知识库。5
添加软提示:将少量可训练矢量(例如 20 个虚拟令牌)附加到每条电影评论的输入嵌入中。这些矢量并非人类可读文本,而是与模型词表处于同一高维空间(例如在此规模模型中为 12288 维空间)的连续嵌入表示。通过优化过程,这些矢量逐步习得编码连续的任务特定信号,从而有效引导模型行为。
输入:例如
[软提示] 这电影真是太精彩了!
在这个示例中,假设我们为情感分析任务初始化了 20 个软提示标记。训练后,输入在内部可能如下所示:
在这里,每个 v1 都是一个学习过的高维提示矢量。训练的目标是找到这些矢量的最优值,使其能够引导冻结的模型正确分类后续文本的情感。
仅培训软提示:通过使用标注好的电影评论数据集,训练过程得以启动。通过反向传播,会计算出误差梯度,但优化步骤只会更新软提示嵌入的参数。这种方法只需微调几千个参数,而非模型的 1750 亿个权重。5
模块化部署:一旦训练完成,生成的这 20 个矢量集合就构成了整个针对特定任务的适配内容。要让同一个基础模型适应不同的任务(例如垃圾邮件检测),只需在垃圾邮件数据集上训练一组新的软提示,并在推理时将它们替换进去即可。
该技术带来了显著的效率优势。企业不需要为每个任务都存储模型的单独完整副本(175 B 的参数模型可能需要高达 350 GB ),而是需要存储特定于任务的提示参数,而这些参数的大小可能只有几 KB。1这种模块性使得提示微调成为大规模模型适配的一种实用且经济的解决方案2
基于提示的微调是参数高效微调 (PEFT) 方法和途径中的几个分支之一。理解其方法与其他方法的重叠之处,对于从业者选择最合适的技术至关重要。这种选择在于性能、表达能力、效率和实现复杂度之间的权衡。
| 方法 | 架构修改 | 表达能力或强大程度 | 可训练大小 | 优点 | 缺点 |
|---|---|---|---|---|---|
深度提示微调 (P-tuning v2)3 | 向模型的每一层添加可训练矢量(“提示”),从而影响注意力机制。 | 高。有效地激发和结合现有的模型技能。 | 约 0.1-3% 的模型参数。 | 在各种模型规模上通用;对于许多 NLU/NLG 任务而言,它比 LoRA 更为简单。 | 对于真正的新任务而言,其表达能力不如 LoRA;同时可能对超参数较为敏感。 |
LoRA(低阶适应)6 | 在现有权重矩阵(例如注意力层中的矩阵)旁并行注入可训练的低秩矩阵。 | 非常高。能够学习全新的注意力模式和行为,使其比基于提示的方法更强大。 | 约 0.1-1% 的模型参数。 | 表达能力最强的 PEFT 方法;不会增加推理延迟,因为权重可以合并。 | 实现和调整秩超参数更为复杂。 |
适配器 | 在每个转换器层中,串行插入新的小型神经网络模块。 | 高。为模型增加新的计算能力。 | 约 1–4% 的模型参数 | 稳定且成熟,高度模块化。 | 由于串行处理,可能会引入轻微的推理延迟,参数数量比 LoRA 或提示符要多。 |
提示微调在实时应用程序中有很多优点,但了解其局限性也很重要。
提示微调的关键优势在于高效、模块化,以及能够保留基础模型的知识。
卓越的参数和成本效率:最显著的优势是可训练参数的大幅减少。通过仅更新一小部分软提示矢量(通常占整个模型的不到 1%),提示微调可以显著降低计算和存储空间成本。这种策略使得计算资源有限的组织也能采用大规模基础模型。
模块化和可扩展部署:由于每个任务都封装在一小组独立的提示参数中,只需在推理时替换这些轻量级提示文件,就可以让单个冻结的主干模型适应多项任务。这种“即插即用”架构具有高度模块化,避免了为每个应用程序存储和管理单独的、多 GB 的模型副本。
缓解灾难性遗忘:在学习新任务时,完全微调可能会覆盖或降低模型的预训练知识。通过完全冻结骨干模型的权重,提示微调可以保留在预训练过程中学到的大量常识,从而使模型在不丧失其功能的情况下被重新使用。
数据效率:与通常需要为每个新任务使用大型标记数据集的完全微调相比,提示微调可以使用较小、更适中的数据集实现强大的性能。
尽管快速微调具有诸多优点,但它也并非没有缺点,包括表达能力有限、训练困难以及缺乏可解释性。
表达能力有限:一个核心的理论限制是,提示微调和前缀微调的表达能力不如 LoRA 或全量微调方法。正式分析表明,这些方法通过向注意力块的输出添加偏置来发挥作用,但无法从根本上改变模型已学习的注意力模式。这意味着提示微调在激发和组合模型中已有的技能方面非常有效,但在学习需要全新推理模式的真正新任务时可能会失败。
训练不稳定和超参数敏感性:最显著的实际挑战之一是该方法对超参数的敏感性。训练过程可能难以收敛,并且高度依赖于学习率以及提示的初始化策略和长度,通常需要仔细且大量的微调才能达到最佳效果。
可解释性的“黑匣”问题:一个主要且持续存在的限制是软提示固有的缺乏可解释性。由于它们是通过梯度下降法优化的连续高维矢量,因此它们不对应于任何人类可读的文本。这种“黑匣”特性使得我们很难理解提示学习到了什么,为什么它会以某种方式引导模型,以及当它出现故障时如何进行调试。
对模型规模的依赖性:原始的输入级提示微调方法的有效性与主干模型的规模相关。虽然它在参数超过 100 亿的模型上可以与完全微调相媲美,但它在较小、更常用的模型上的性能要好得多。
提示微调的原则已被证明具有很强的适应性,远远超出了其最初在自然语言处理中的应用。目前,该技术已成为多模态领域、语音处理和高级学习范例中高效定制模型的关键推动因素。
多模态提示调整(视觉-语言模型):提示微调是一项关键技术,它可让预训练视觉-语言模型 (VLM)(例如 CLIP)适应下游视觉任务。在这种情况下,可以针对一种或两种模式设计提示。7、
在语音处理中的应用:提示微调范式已成功扩展到语音处理领域。在此应用中,原始语音语句被编码为离散声学单元,并将一组可学习的、特定任务的软提示附加到该序列上。该框架是统一的,允许单个预训练语音模型适应各种任务。这包括关键词检测、口语意图分类,甚至自动语音识别 (ASR),而训练的仅是一小组特定任务的提示。
多任务与多语言学习:为了进一步提升效率和泛化能力,研究人员已经超越了训练孤立的单任务提示的方法。先进方法现在专注于学习可在多任务或多语言之间迁移的共享提示。
[1] Li, Z., Su, Y., & Collier, N. (2025). A Survey on Prompt Tuning. arXiv preprint arXiv:2507.06085.
[2] Lester, B., Al-Rfou, R., & Constant, N. (2021, November). The Power of Scale for Parameter-Efficient Prompt Tuning. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 3045-3059).
[3]Liu, X., Ji, K., Fu, Y., Tam, W., Du, Z., Yang, Z., & Tang, J. (2022, May). P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pp. 61-68).
[4] Lei, S., Hua, Y., & Zhihao, S. (2025). Revisiting Fine-Tuning: A Survey of Parameter-Efficient Techniques for Large AI Models.
[5] Bian, J., Peng, Y., Wang, L., Huang, Y., & Xu, J. (2025)。A survey on parameter-efficient fine-tuning for foundation models in federated learning. arXiv preprint arXiv:2504.21099.
[6] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., ... & Chen, W. (2022). Lora: Low-rank adaptation of large language models. ICLR, 1(2), 3.
[7] Tian, Q., & Zhang, M. (2025). Enhancing visual-language prompt tuning through sparse knowledge-guided context optimization. Entropy, 27(3), 301.