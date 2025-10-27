让我们通过情感分析任务来直观阐释提示微调的运行机制与优势。假设我们需要让一个拥有 1750 亿参数的模型适配电影评论分类任务，将其准确归类为“正面”或“负面”评价。全面微调的方法成本过高，速度过慢。采用提示微调时，其流程如下：

从冻结的预训练模型起步：1750 亿参数的主干网络保持完全锁定，完整保留预训练阶段习得的通用知识库。5

添加软提示：将少量可训练矢量（例如 20 个虚拟令牌）附加到每条电影评论的输入嵌入中。这些矢量并非人类可读文本，而是与模型词表处于同一高维空间（例如在此规模模型中为 12288 维空间）的连续嵌入表示。通过优化过程，这些矢量逐步习得编码连续的任务特定信号，从而有效引导模型行为。



输入：例如

[软提示] 这电影真是太精彩了！

在这个示例中，假设我们为情感分析任务初始化了 20 个软提示标记。训练后，输入在内部可能如下所示：

[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]

在这里，每个 v1 都是一个学习过的高维提示矢量。训练的目标是找到这些矢量的最优值，使其能够引导冻结的模型正确分类后续文本的情感。



仅培训软提示：通过使用标注好的电影评论数据集，训练过程得以启动。通过反向传播，会计算出误差梯度，但优化步骤只会更新软提示嵌入的参数。这种方法只需微调几千个参数，而非模型的 1750 亿个权重。5



模块化部署：一旦训练完成，生成的这 20 个矢量集合就构成了整个针对特定任务的适配内容。要让同一个基础模型适应不同的任务（例如垃圾邮件检测），只需在垃圾邮件数据集上训练一组新的软提示，并在推理时将它们替换进去即可。



该技术带来了显著的效率优势。企业不需要为每个任务都存储模型的单独完整副本（175 B 的参数模型可能需要高达 350 GB ），而是需要存储特定于任务的提示参数，而这些参数的大小可能只有几 KB。1这种模块性使得提示微调成为大规模模型适配的一种实用且经济的解决方案2