API 지연 평가 지표
API 지연 시간 측정 항목은 모델 배포에 의한 점수 요청을 처리하는 데 걸리는 시간(ms 단위)을 측정합니다.
메트릭 세부사항
API 지연 시간은 모델 상태 모니터 평가를 위한 처리량 및 지연 시간 측정 지표로서, 밀리초(ms) 단위로 점수 요청을 처리하는 데 걸리는 시간을 추적하여 지연 시간을 계산합니다.
범위
API 지연 시간 측정 항목은 생성적 AI 자산과 기계 학습 모델을 평가합니다.
- 생성적 AI 작업 :
- 텍스트 요약
- 텍스트 분류
- 컨텐츠 생성
- 엔티티 추출
- 질문 응답
- 증강 검색 생성(RAG)
- 머신 러닝 문제 유형 :
- 2진 분류
- 다중 클래스 분류
- 회귀
- 지원 언어 : 영어
평가 프로세스
스코어링 요청과 거래 기록에 대한 평균, 최대, 중앙값, 최소 API 지연 시간은 모델 상태 모니터 평가 중에 계산됩니다.
response_time API 지연 시간 측정 항목을 계산하기 위해, 스코어링 요청의 처리 시간이 모델 배포에 걸리는 시간을 추적하는 데 사용됩니다.
watsonx.ai 의 런타임 배포의 경우, 평가를 구성할 때 response_time 값이 자동으로 감지됩니다.
외부 및 사용자 정의 배포의 경우, 처리량과 지연 시간을 계산하기 위해 스코어링 요청을 보낼 때 response_time 값을 지정해야 합니다. Python SDK의 다음 예제를 참조하세요
from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord
client.data_sets.store_records(
data_set_id=payload_data_set_id,
request_body=[
PayloadRecord(
scoring_id=<uuid>,
request=openscale_input,
response=openscale_output,
response_time=<response_time>,
user_id=<user_id>)
]
)