Think 时事通讯
超越提示思考,全面了解背景
通过 Think 时事通讯,随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外,还可以访问新的阅读解释器、教程和专家洞察分析,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
提示工程技术是设计和构建提供给 AI 模型(尤其是像 OpenAI 的 GPT-4、Google Gemini 或 IBM® Granite 这样的大型语言模型)的提示、输入查询或指令的策略。这些技术旨在引导生成式 AI 系统产生准确、相关且符合上下文的响应,使用户能够有效地实现所需的输出。
大型语言模型建立在先进的机器学习算法之上,能够理解和生成类似人类的文本。提示工程利用这一能力,通过精心设计的输入帮助模型更精确地执行复杂任务,如总结、翻译、创意写作或解决问题。通过尝试不同的提示结构,用户可以影响 LLM 的行为,以优化其在各种应用中的性能。
随着生成式 AI 在各个领域继续发挥关键作用,了解提示工程技术对于充分发挥其潜力并高效地调整 AI 模型以满足特定需求至关重要。
提示是提供给 AI 模型(如大型语言模型)的输入文本或查询,用于生成响应。它作为引导模型行为的主要机制,定义任务并为互动设定上下文。提示的设计显著影响输出的质量和相关性,因此选择适合特定任务的提示类型至关重要。
为了从 AI 模型中获得最佳的结果,必须了解各种提示的构建方式,以适应不同的任务和目标。提示有三种主要的构建方式:直接指令、开放式指令和特定于任务的指令。
直接指令是清晰而具体的命令,明确告诉 AI 要做什么。这些提示适用于用户对输出有明确期望的简单任务。直接提示依赖于模型解析明确指令并生成与命令非常一致的响应的能力。指令越详细,输出就越有可能满足预期。
示例:
在此示例中,AI 知道确切的格式[一首诗]和主题[自然],从而生成文本。
开放式指令限制较少,鼓励 AI 探索更广泛的想法,或提供创造性和解释性响应。这些提示适用于头脑风暴、讲故事或探索性讨论,用户重视输出的多样性和独创性。开放式提示利用模型的生成能力,而不会施加限制。该模型依赖其训练数据来推断对提示的最佳处理方式,这可能会产生多样化或意想不到的结果。
示例:
在此示例中,AI 可以自由地决定要讨论宇宙的哪些方面,例如宇宙的起源、结构或科学理论。
特定任务指令是为精确的、以目标为导向的任务而设计的,如翻译、摘要或计算。这些提示通常设计得清晰明了,并且可以包含额外的上下文或示例以确保准确的响应。特定任务提示利用模型对专门任务的理解。它们可以结合高级提示技术,如少样本提示(提供示例)或零样本提示(不提供示例,但依赖模型的预训练知识)。
示例:
模型理解语言翻译任务和具体的输入文本,使其能够产生期望的输出:“Bonjour”。
通过了解这些提示类型及其背后的技术细节,用户可以精心设计提示,有效引导 AI 模型,优化响应的质量和相关性。
Think 时事通讯
通过 Think 时事通讯,随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外,还可以访问新的阅读解释器、教程和专家洞察分析,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
为了最大限度地提高 AI 模型的有效性,提示工程采用了针对不同任务和目标的各种技术。以下是几种关键技术,每种技术都通过设计用于实现特定结果的提示来解释。
为了展示各种提示工程技术的有效性,我们以一个单一任务作为中心用例:解释气候变化。任务框架如下:
每种技术以不同的方式完成任务,提供不同程度的指导、复杂性和方法。下面,我们探讨如何将这些技术应用于这个用例,设计的提示旨在突出它们的独特能力。
零样本提示要求模型在没有任何先前示例或指导的情况下执行任务。它完全依赖于 AI 的预训练知识来解释和响应提示。[1]
示例提示:
模型没有获得任何先前的示例或额外的上下文,必须完全依赖其预训练知识来生成输出。
少样本提示包括提示中的少量示例,以向模型演示任务。这种方法有助于模型更好地理解上下文和预期输出。[2]
示例提示:
通过提供一些解释其他主题的示例,引导模型了解对气候变化解释所期望的语气和简单程度。
元提示涉及要求模型生成或完善自己的提示,以更好地执行任务。这种技术可以通过利用模型的自我指导能力来提高输出质量。[4]
示例提示:
在尝试解释主题之前,该模型会生成自己的提示,从而有可能提高输出的相关性和质量。
自洽性使用模型中的多个独立生成来识别最连贯或最准确的响应。它对于需要推理或解释的任务特别有用。[5]
示例提示:
该模型产生多个独立的响应,并选择最一致或最连贯的响应作为最终输出。
这种技术要求模型在处理主要任务之前生成背景知识,增强其产生有根据和准确回应的能力。[6]
示例提示:
模型首先生成背景知识(例如,温室气体、全球变暖),以提供更有根据的解释。
提示链涉及将多个提示链接在一起,其中一个提示的输出作为下一个提示的输入。这种技术适用于多步骤过程。
示例提示:
根据之前的响应,提出下一个提示:
根据之前的响应,提出下一个提示:
任务被分解为一系列较小的提示,每个步骤的输出都为下一步提供输入,以获得更结构化的解释。
检索增强生成 (RAG) 将外部信息检索与生成式 AI 相结合,根据最新或特定领域的知识生成响应。[9]
示例提示:
该模型将其生成能力与外部知识相结合,从而得出一个有根据的解释。
该技术将推理功能与外部工具或应用程序编程接口相结合,使模型能够使用计算器或搜索引擎等资源。[10]
示例提示:
该模型将推理与外部工具(如计算器或 API)相结合,以分析数据并提供数据驱动的解释。
这种方法包括利用 AI 本身来生成和优化特定任务的提示,自动编制有效的指令。
示例提示:
该模型可自动创建优化的提示,以提高响应质量。
主动提示会根据模型的中间输出动态调整提示,改进输入以获得更好的结果。[11]
初始提示
后续提示
提示根据中间输出动态演变,通过迭代改进响应。
定向刺激提示(DSP)使用定向提示引导模型朝着特定类型的响应或视角发展。[12]
示例提示:
模型被推向特定的视角或语气,影响其解释的框架。
PALM 集成了编程能力,以增强模型的推理和计算技能。[13]
示例提示:
该模型将编程与语言生成相结合,提供可视化和解释。
Reflexion 允许模型评估其先前的输出并对其进行改进,以提高准确性或一致性。 [15]
示例提示:
模型反思之前的输出,然后通过迭代改进。
这种技术整合了跨多种模态(如文本、图像或音频)的思维链推理。[16]
示例提示:
该模型整合了多种模态(文本和图像)的推理,以提供全面的解释。
图表提示利用基于图表的结构来组织和推理概念或数据点之间的复杂关系。
示例提示:
模型使用基于图表的推理来连接数据点并生成有见地的解释。
因此,我们可以看到如何将不同的提示工程技术应用于单个任务。通过在零样本、少样本、思维链和思维树等方法中使用相同的任务,我们可以看到每种技术如何以不同的方式构建任务,并指导 AI 产生独特的响应。这些示例展示了提示工程在解决各种挑战方面的灵活性和创造性。我们鼓励读者使用不同的 AI 模型或应用尝试这些提示示例,例如 IBM Granite 模型、OpenAI 的 ChatGPT、Google 的 Bard、Anthropic 的 Claude、Cohere 或 AI21 Labs 的 Jurassic。这样做可以让用户查看输出如何变化并找到最适合他们需求的输出。
虽然提示工程技术很强大,但它们也面临着一些挑战。精心制作有效的提示,以始终如一地产生准确的输出,可能很困难,尤其是对于需要复杂推理、常识性理解或细微响应的任务。幻觉是另一个常见问题,即 AI 模型生成的信息不准确或完全是捏造的。依靠结构化模板或对模型进行微调有助于缓解其中的一些问题,但设计出适用于不同场景的提示仍然是一个反复试验的过程。此外,在人工智能的一般功能与特定任务目标之间取得平衡可能很棘手,特别是对于专门或特定领域的任务而言。
提示工程技术在各个领域有着广泛的应用。在聊天机器人中,它们有助于完善生成的响应,以增强实时用户交互。对于开发人员而言,提示可以帮助生成代码片段或创建编程概念的分步教程。在教育领域,提示可以通过详细的推理来简化解释或解决数学问题。企业利用提示工程进行决策,根据具体场景生成具有洞察力的 AI 输出。这些技术被广泛应用于内容创建、客户支持和自动化工作流,使 AI 系统更高效、更能适应各种任务。
提示工程技术的未来在于推进自然语言处理,帮助确保在不同的应用中获得更准确和更相关的响应。随着 AI 模型的不断发展,其推理能力也将不断提高,使其能够在极少提示的情况下处理更复杂的任务。我们还可以期待开发出更智能的工具和框架,以自动化和优化提示创建,从而使各领域用户与 AI 的互动更加直观、高效和个性化。
提示工程技术对于优化 AI 互动和充分发挥大型语言模型的潜力至关重要。通过使用零样本、少样本、思维链和思维树等结构化方法,这些技术使 AI 能够应对从聊天机器人到决策制定和教育的广泛任务。尽管面临诸如幻觉和设计有效提示的挑战,提示工程的应用仍在各个领域不断扩大,提供更智能、更定制化的 AI 输出。随着自然语言处理和推理能力的进步,提示工程的未来承诺将带来更高的效率和适应性。我们鼓励读者在不同的 AI 模型中试验这些技术,以探索它们的能力并优化结果。
[1] Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
[2] Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F. and Rodriguez, A., 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q.V. and Zhou, D., 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, pp.24824-24837.
[4] Zhang, Y., Yuan, Y. and Yao, A.C.C., 2023. Meta prompting for ai systems. arXiv preprint arXiv:2311.11482.
[5] Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A. and Zhou, D., 2022. Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.
[6] Liu, J., Liu, A., Lu, X., Welleck, S., West, P., Bras, R.L., Choi, Y. and Hajishirzi, H., 2021. Generated knowledge prompting for commonsense reasoning. arXiv preprint arXiv:2110.08387.
[7] Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y. and Narasimhan, K., 2023. Tree of thoughts: Deliberate problem solving with large language models. Advances in neural information processing systems, 36, pp.11809-11822.
[8] Long, J., 2023. Large language model guided tree-of-thought. arXiv preprint arXiv:2305.08291.
[9] Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.T., Rocktäschel, T. and Riedel, S., 2020. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in neural information processing systems, 33, pp.9459-9474.
[10] Paranjape, B., Lundberg, S., Singh, S., Hajishirzi, H., Zettlemoyer, L. and Ribeiro, M.T., 2023. Art: Automatic multi-step reasoning and tool-use for large language models. arXiv preprint arXiv:2303.09014.
[11] Diao, S., Wang, P., Lin, Y., Pan, R., Liu, X. and Zhang, T., 2023. Active prompting with chain-of-thought for large language models. arXiv preprint arXiv:2302.12246.
[12] Li, Z., Peng, B., He, P., Galley, M., Gao, J. and Yan, X., 2023. Guiding large language models via directional stimulus prompting. Advances in Neural Information Processing Systems, 36, pp.62630-62656
[13] Gao, L., Madaan, A., Zhou, S., Alon, U., Liu, P., Yang, Y., Callan, J. and Neubig, G., 2022. Pal: program-aided language models. arXiv. arXiv preprint arXiv:2211.10435.
[14] Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. and Cao, Y., 2023, January. React: Synergizing reasoning and acting in language models. In International Conference on Learning Representations (ICLR).
[15] Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K. and Yao, S., 2023. Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36, pp.8634-8652.
[16] Zhang, Z., Zhang, A., Li, M., Zhao, H., Karypis, G. and Smola, A., 2023. Multimodal chain-of-thought reasoning in language models. arXiv preprint arXiv:2302.00923.
[17] Liu, Z., Yu, X., Fang, Y. and Zhang, X., 2023, April. Graphprompt: Unifying pre-training and downstream tasks for graph neural networks. In Proceedings of the ACM web conference 2023 (pp. 417-428).