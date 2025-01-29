Think 时事通讯
超越提示思考，全面了解背景
通过 Think 时事通讯，随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外，还可以访问新的阅读解释器、教程和专家洞察分析，我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
定向刺激提示法 (DSP) 是一种新的自然语言处理（NLP）提示方法，通过向模型提供指令或结构化的刺激来生成所需的输出。
与单样本、零样本或少样本提示等标准提示不同，这种方法通过建立标准或提供指导，直接控制模型的输出。在这种方法中，引导刺激作为模型生成过程的控制机制，沿着特定标准定义的路线进行。
当任务需要特定的一组响应，非常依赖上下文，但仍然没有标记数据时，定向刺激提示法（DSP）非常有用。
例如在摘要任务中，保留关键信息至关重要，DSP 提供了一个引导刺激，促使模型以特定的方式生成内容。这导致生成的摘要更准确、更符合上下文。1
Think 时事通讯
通过 Think 时事通讯，随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外，还可以访问新的阅读解释器、教程和专家洞察分析，我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
GPT-3、4 和 PaLM 等大型语言模型 (LLM) 通常被称为“黑匣”模型，因为用户无法访问其内部结构，例如参数、调整方法或决策流程。
这种互动本质上是通过文本提示进行的，主要的输入和输出机制是应用程序编程接口（API）调用。尽管这些模型非常出色，但它们生成精确任务特定输出的能力往往高度依赖于提示的质量。 2，3
因此，设计有针对性的提示来引导模型行为的提示工程就显得尤为重要。手动和自动化的提示工程方法都取得了显著的成功。然而，它们并非没有挑战，特别是对于那些需要强大控制或实例特定输出的任务。
例如，摘要或对话生成等任务要求模型系统地遵循目标行为，例如纳入关键细节，遵守严格的推理模式或规定的文体指南。传统技术通常不足以保证始终如一地遵守这些细微的要求。
定向刺激提示法（DSP）填补了这一空白。DSP 是一个小型辅助策略模型，可生成实例特定的定向刺激提示，引导 LLM 做出决策。
它发出的提示为每个实例提供特定的上下文，被认为可以促使 LLM 产生更一致和更理想的输出。通过将 DSP 插入流程，用户就拥有了一个强大的工具来纠正黑匣 LLM 的行为，使其在需要精确度的工作中更具一致性、相关性和准确性。 1
通过监督微调（SFT）训练策略模型
训练策略模型的过程从对预训练模型（例如 T5、GPT-2 或任何其他合适的 LLM）进行监督微调 (SFT) 开始。关键思路是在训练数据上微调较小的策略模型，以生成定向刺激，而不是直接修改 LLM。
这个过程效率很高，因为微调一个较小的任务特定策略模型，可以避免直接训练大型复杂模型的挑战和计算成本。
为了训练这一策略模型，我们创建了一个小型标记数据集，其中每个输入都与一个伪刺激配对。这些伪刺激旨在根据手头的任务引导 LLM 的响应朝着期望的方向发展。
例如，在摘要任务中，伪刺激可能由参考资料摘要的关键词或短语组成。同样，对于对话生成任务，请求、问题或陈述等对话行为可以用作伪刺激。
这些刺激作为策略模型用来生成特定于任务的输入的信号，有效地引导 LLM 的输出朝着目标行为发展。
用于 SFT 的标记数据集可能相对较小，因为重点是为策略语言模型提供必要的知识以生成刺激，而不是从头开始训练大规模的 LLM。这使得 SFT 成为一种资源高效的方法，为策略模型提供关于任务特定要求的基础知识。4
通过强化学习（RL）进行优化
在初始的 SFT 微调之后，策略模型通过强化学习（RL）进行优化。RL 使策略模型能够探索并优化其生成刺激的能力，从而提高 LLM 输出的质量。此阶段的核心思路是使用奖励函数来评估生成刺激的有效性。
例如在摘要任务中，奖励函数可以基于 ROUGE 或 BLEU 分数等指标，这些指标可以衡量生成摘要的质量与参考摘要的比较。
通过专注于训练策略模型而不是直接训练 LLM，DSP 克服了与微调黑匣模型相关的挑战，从而产生了一种更高效、更具可扩展性的方法。
图 1：DSP 框架架构
定向刺激提示法有显著的优势，也有一些挑战，使其成为一个有趣但复杂的技巧。以下是对其优缺点的仔细研究。5、
优点：
目标注意力机制：DSP 中的目标注意力机制强调相关的令牌或信息，通过集中处理重要组件来提高准确性和效率。
优化资源使用： 通过专注于相关刺激，定向刺激提示法减少了数据集需求，从而缩短处理时间并降低计算成本。
提高精确度： 通过隔离和强调最相关的输入令牌，定向刺激提示法可提高语言模型响应和解释的准确性。
适应性：这种方法可以根据各种语言任务进行定制，从文本生成到情感分析，提供跨不同自然语言处理应用的多功能性。
缺点：
依赖准确的提示：定向刺激提示法的成功在很大程度上依赖于精确的刺激，这在复杂或嘈杂的环境中可能难以实现。如果上下文或刺激发生重大变化，该方法的有效性可能会降低，从而导致可靠性降低。
配置复杂性： 设置定向刺激需要精心设计和校准，这可能使初始配置过程更加复杂。
泛化能力有限：其在不同信号类型或意外输入变化之间的泛化能力有限，限制了其在更广泛背景中的适用性。
定向刺激提示法 (DSP) 在各种 NLP 任务中展现出巨大的潜力，可有效地引导模型提高性能。
摘要：DSP 用于创建更符合参考摘要的所需摘要。在一项实验结果中，DSP 使用来自 CNN/Daily Mail 数据集的仅 4000 个样本的小型数据集，将 ROUGE 和 BLEU 等基准性能或其他包括人类偏好分数在内的指标提高了 4-13%，超过了一些完全监督的模型。6
对话响应生成：在面向任务的对话生成中，DSP 帮助 ChatGPT 生成更准确、更相关的响应。例如，仅使用 MultiWOZ 数据集中的 80 个对话，DSP 的性能就提升了 41.4%，超过了在更大数据集上训练的几种最先进的模型（例如 ChatGPT、Codex 和 InstructGPT）7
思维链推理：DSP 还通过生成实例特定的提示来增强思维链推理，这些提示优于人类设计的和自动生成的任务特定提示，从而提高了推理的准确性。这些示例说明了 DSP 如何提供针对性的指导，提高模型在一系列 NLP 应用中的性能。8
与 IBM 携手参与网络研讨会，在此期间我们将展示如何通过智能体 AI 计划实现真正的投资回报率，并提供跨行业、用例的示例，甚至还有 IBM 自身的成功案例。
IBM® Granite® 是一系列开放、高性能且值得信赖的 AI 模型，专为企业量身定制，并经过优化以扩展您的 AI 应用程序。深入了解语言、代码、时间序列和防护措施选项。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的 AI 专业知识和解决方案组合，让 AI 在您的业务中发挥作用。
IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。
通过使用 AI，IBM Concert 可揭示有关运营的重要洞察分析，并提供特定于应用程序的改进建议。了解 Concert 如何推动您的业务向前发展。
1 Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Xifeng Yan, jianfeng gao,(Microsoft, 22nd Feb 2023), Guiding Large Language Models via Directional Simulus Prompting, arXiv:2302.11520.
https://github.com/Leezekun/Directional-Stimulus-Prompting.
2 Sun, T., et.al, Black-box tuning for language-model as-a-service. In International Conference on Machine Learning, pp. 20841–20855. PMLR, 2022.
3 OpenAI. Gpt-4 technical report, 2023.
4 Wanwei He, et al., Galaxy: A generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection. In Proceedings of the AAAI Conference on Artificial Intelligence, pp. 10749–10757, 2022.
5 Fei Liu (11th October 2024), A Systematic Survey on Large Language Models for Algorithm Design. arXiv: 2410.14716.
6 Goyal, T., Li, J. J., and Durrett, G. News summarization and evaluation in the era of GPT-3. arXiv preprint arXiv: 2209.12356, 2022.
7 Khattab, O., Santhanam, K., Li, X. L., Hall, D., Liang, P., Potts, C., and Zaharia, M. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv preprint arXiv: 2212.14024, 2022.
8 Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., and Yih, W.-t. Replug: Retrieval-augmented black-box language models. arXiv preprint arXiv: 2301.12652, 2023.