API 처리량 평가 지표

API 처리량 지표는 모델 배포가 초당 처리하는 점수 요청의 수를 측정합니다.

메트릭 세부사항

API 처리량은 모델 상태 모니터 평가를 위한 처리량 및 지연 시간 측정 지표로, 초당 처리되는 스코어링 요청 및 거래 기록의 수를 추적하여 처리량을 계산합니다.

범위

API 처리량 지표는 생성적 AI 자산과 기계 학습 모델을 평가합니다.

  • 생성적 AI 작업 :
    • 텍스트 요약
    • 텍스트 분류
    • 컨텐츠 생성
    • 엔티티 추출
    • 질문 응답
    • 증강 검색 생성(RAG)
  • 머신 러닝 문제 유형 :
    • 2진 분류
    • 다중 클래스 분류
    • 회귀
  • 지원 언어 : 영어

평가 프로세스

스코어링 요청과 거래 기록에 대한 평균, 최대, 중앙값, 최소 API 처리량은 모델 상태 모니터 평가 중에 계산됩니다.

API 처리량 지표를 계산하기 위해, 스코어링 요청의 처리 시간을 추적하기 위해 스코어링 요청의 response_time 값이 사용됩니다.

watsonx.ai 의 런타임 배포의 경우, 평가를 구성할 때 response_time 값이 자동으로 감지됩니다.

외부 및 사용자 정의 배포의 경우, 처리량과 지연 시간을 계산하기 위해 스코어링 요청을 보낼 때 response_time 값을 지정해야 합니다. Python SDK의 다음 예제를 참조하세요

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        )