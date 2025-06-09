提示缓存可以加速并降低对大语言模型（如 GPT-4o）的 API 请求成本。提示缓存会存储内容，例如输入令牌、输出令牌、嵌入向量以及来自用户、系统提示或函数输出的消息，现在可以使用缓存内容，而无需为新版本发起网络请求。这种方法降低了定价，缩短了响应延迟，并提高了关键绩效指标 (KPI)。

提示缓存技术可为聊天机器人、RAG 系统、模型微调及代码助手等应用场景带来显著效益。包含缓存读取、缓存写入、系统消息、缓存控制以及适当生存时间 (TTL) 等功能的健全缓存策略，将提高缓存命中率并降低缓存未命中率。

一致使用相同的提示令牌、提示前缀，并遵循系统指令，有助于在多轮对话和后续请求中保持提示性能的一致性。无论是使用 Python、SDK，还是与 OpenAI 或其他提供商合作，了解提示缓存的工作原理，都有助于您更好地实施提示缓存，以在众多用例中使用。