API 지연 평가 지표

API 지연 시간 측정 항목은 모델 배포에 의한 점수 요청을 처리하는 데 걸리는 시간(ms 단위)을 측정합니다.

메트릭 세부사항

API 지연 시간은 모델 상태 모니터 평가를 위한 처리량 및 지연 시간 측정 지표로서, 밀리초(ms) 단위로 점수 요청을 처리하는 데 걸리는 시간을 추적하여 지연 시간을 계산합니다.

범위

API 지연 시간 측정 항목은 생성적 AI 자산과 기계 학습 모델을 평가합니다.

생성적 AI 작업 :
- 텍스트 요약
- 텍스트 분류
- 컨텐츠 생성
- 엔티티 추출
- 질문 응답
- 증강 검색 생성(RAG)
머신 러닝 문제 유형 :
- 2진 분류
- 다중 클래스 분류
- 회귀
지원 언어 : 영어

평가 프로세스

스코어링 요청과 거래 기록에 대한 평균, 최대, 중앙값, 최소 API 지연 시간은 모델 상태 모니터 평가 중에 계산됩니다.

response_time API 지연 시간 측정 항목을 계산하기 위해, 스코어링 요청의 처리 시간이 모델 배포에 걸리는 시간을 추적하는 데 사용됩니다.

watsonx.ai 의 런타임 배포의 경우, 평가를 구성할 때 response_time 값이 자동으로 감지됩니다.

외부 및 사용자 정의 배포의 경우, 처리량과 지연 시간을 계산하기 위해 스코어링 요청을 보낼 때 response_time 값을 지정해야 합니다. Python SDK의 다음 예제를 참조하세요

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        )