Métrica de avaliação da latência da API

A métrica de latência da API mede o tempo (em milissegundos) que leva para a sua implantação do modelo processar uma solicitação de pontuação.

Detalhes da métrica

A latência da API é uma métrica de rendimento e latência utilizada nas avaliações do monitor de integridade do modelo, que calcula a latência monitorando o tempo necessário para processar solicitações de pontuação por milissegundo (ms).

Escopo

A métrica de latência da API avalia recursos de IA generativa e modelos de aprendizado de máquina.

  • Tarefas de IA generativa :
    • Resumo de textos
    • Classificação de texto
    • Geração de conteúdo
    • Extração de entidade
    • Resposta à pergunta
    • Geração Aumentada por Recuperação (RAG)
  • Tipo de problema de aprendizado de máquina :
    • Classificação binária
    • Classificação multiclasse
    • Regressão
  • Idiomas disponíveis : inglês

Processo de avaliação

A latência média, máxima, mediana e mínima da API para solicitações de pontuação e registros de transações é calculada durante as avaliações do monitor de integridade do modelo.

Para calcular a métrica de latência da API, response_time o valor das suas solicitações de pontuação é usado para monitorar o tempo que a implantação do seu modelo leva para processar essas solicitações.

Em implantações do Watson Machine Learning, o response_time valor é detectado automaticamente ao configurar as avaliações.

Para implantações externas e personalizadas, é necessário especificar o response_time valor ao enviar solicitações de pontuação para calcular a taxa de transferência e a latência, conforme mostrado no exemplo a seguir do SDK do Python :

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        )