API延迟评估指标

API延迟指标用于衡量模型部署处理评分请求所需的时间（以毫秒为单位）。

度量详细信息

API延迟是模型运行状况监控评估的吞吐量和延迟指标，通过跟踪每毫秒处理评分请求所需的时间来计算延迟。

作用域

API延迟指标用于评估生成式人工智能资产和机器学习模型。

生成人工智能任务 ：
- 文本摘要
- 文本分类
- 内容生成
- 实体抽取
- 问题回答
- 检索增强生成（RAG）
机器学习问题类型 ：
- 二元分类
- 多重类分类
- 回归
支持的语言 ：英语

评估过程

在模型运行状况监控评估期间，会计算评分请求和交易记录的平均、最大、中值和最小 API 延迟。

为了计算API延迟指标，您的评分请求中的 response_time 值用于跟踪模型部署处理评分请求所需的时间。

对于 watsonx.ai 运行时部署，配置评估时会自动检测 response_time 值。

对于外部部署和自定义部署，在发送评分请求以计算吞吐量和延迟时，必须指定 response_time 值，如下例中 Python SDK 所示：

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        )