API延迟评估指标
API延迟指标用于衡量模型部署处理评分请求所需的时间(以毫秒为单位)。
度量详细信息
API延迟是模型运行状况监控评估的吞吐量和延迟指标,通过跟踪每毫秒处理评分请求所需的时间来计算延迟。
作用域
API延迟指标用于评估生成式人工智能资产和机器学习模型。
- 生成人工智能任务 :
- 文本摘要
- 文本分类
- 内容生成
- 实体抽取
- 问题回答
- 检索增强生成(RAG)
- 机器学习问题类型 :
- 二元分类
- 多重类分类
- 回归
- 支持的语言 :英语
评估过程
在模型运行状况监控评估期间,会计算评分请求和交易记录的平均、最大、中值和最小 API 延迟。
为了计算API延迟指标,您的评分请求中的 response_time 值用于跟踪模型部署处理评分请求所需的时间。
对于 watsonx.ai 运行时部署,配置评估时会自动检测 response_time 值。
对于外部部署和自定义部署,在发送评分请求以计算吞吐量和延迟时,必须指定 response_time 值,如下例中 Python SDK 所示:
from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord
client.data_sets.store_records(
data_set_id=payload_data_set_id,
request_body=[
PayloadRecord(
scoring_id=<uuid>,
request=openscale_input,
response=openscale_output,
response_time=<response_time>,
user_id=<user_id>)
]
)