Métrica de avaliação da latência da API
A métrica de latência da API mede o tempo (em milissegundos) que leva para a sua implantação do modelo processar uma solicitação de pontuação.
Detalhes da métrica
A latência da API é uma métrica de rendimento e latência utilizada nas avaliações do monitor de integridade do modelo, que calcula a latência monitorando o tempo necessário para processar solicitações de pontuação por milissegundo (ms).
Escopo
A métrica de latência da API avalia recursos de IA generativa e modelos de aprendizado de máquina.
- Tarefas de IA generativa :
- Resumo de textos
- Classificação de texto
- Geração de conteúdo
- Extração de entidade
- Resposta à pergunta
- Geração Aumentada por Recuperação (RAG)
- Tipo de problema de aprendizado de máquina :
- Classificação binária
- Classificação multiclasse
- Regressão
- Idiomas disponíveis : inglês
Processo de avaliação
A latência média, máxima, mediana e mínima da API para solicitações de pontuação e registros de transações é calculada durante as avaliações do monitor de integridade do modelo.
Para calcular a métrica de latência da API, response_time o valor das suas solicitações de pontuação é usado para monitorar o tempo que a implantação do seu modelo leva para processar essas solicitações.
Em implantações do Watson Machine Learning, o response_time valor é detectado automaticamente ao configurar as avaliações.
Para implantações externas e personalizadas, é necessário especificar o response_time valor ao enviar solicitações de pontuação para calcular a taxa de transferência e a latência, conforme mostrado no exemplo a seguir do SDK do Python :
from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord
client.data_sets.store_records(
data_set_id=payload_data_set_id,
request_body=[
PayloadRecord(
scoring_id=<uuid>,
request=openscale_input,
response=openscale_output,
response_time=<response_time>,
user_id=<user_id>)
]
)