API延迟评估指标

API延迟指标用于衡量模型部署处理评分请求所需的时间(以毫秒为单位)。

度量详细信息

API延迟是模型运行状况监控评估的吞吐量和延迟指标,通过跟踪每毫秒处理评分请求所需的时间来计算延迟。

作用域

API延迟指标用于评估生成式人工智能资产和机器学习模型。

  • 生成人工智能任务
    • 文本摘要
    • 文本分类
    • 内容生成
    • 实体抽取
    • 问题回答
    • 检索增强生成(RAG)
  • 机器学习问题类型
    • 二元分类
    • 多重类分类
    • 回归
  • 支持的语言 :英语

评估过程

在模型运行状况监控评估期间,会计算评分请求和交易记录的平均、最大、中值和最小 API 延迟。

为了计算API延迟指标,您的评分请求中的 response_time 值用于跟踪模型部署处理评分请求所需的时间。

对于 watsonx.ai 运行时部署,配置评估时会自动检测 response_time 值。

对于外部部署和自定义部署,在发送评分请求以计算吞吐量和延迟时,必须指定 response_time 值,如下例中 Python SDK 所示:

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        )