模型问题
在对话式搜索中,您可能会遇到间歇性的 404 错误、延迟增加、 Kafka 锁超时以及 watsonx 的 ESOCKETTIMEDOUT 错误。
高延迟、超时问题和404错误
- 症状
- 可能会出现以下问题
- HTTP 404 错误和请求超时问题时有发生
- 诸如以下这类的备用响应: 恐怕我没明白。 请重新表述您的问题。
- 与之前的版本相比, 响应时间显著延长(例如,CPD 5.3.0 上的平均 8.54s 值,与 CPD 5.2.2 上的 3.88s 相比)
KafkaJSNonRetriableError: Timeout while acquiring lockPod 日志中的wa-store错误ESOCKETTIMEDOUT在调用 watsonx 进行对话式搜索时出现的错误
受影响的型号:
granite-3-8b-instruct受影响区域:WXA CPD、 5.3.x、Medium-HPA
- 根本原因
- IFM( IBM 基础模型)堆栈中的模型
granite-3-8b-instruct在并发配置和 vLLM 配置参数未优化状态下运行,导致在负载下出现请求积压、GPU争用严重以及下游超时连锁反应。 - 解决方案
granite-3-8b-instruct执行以下oc patch命令,根据. 的正确并发数和 vLLM 环境设置来调整自定义资源watsonxaiifm。