Metrica di valutazione della produttività API

La metrica di throughput API misura il numero di richieste di scoring elaborate dal tuo modello di distribuzione al secondo.

Dettagli metrica

Il throughput API è una metrica di throughput e latenza per le valutazioni del monitoraggio dello stato del modello che calcola il throughput monitorando il numero di richieste di punteggio e record di transazione elaborati al secondo.

Ambito

La metrica di throughput API valuta le risorse di IA generativa e i modelli di apprendimento automatico.

Compiti di IA generativa :
- Riepilogo del testo
- Classificazione testo
- Generazione di contenuto
- Estrazione di entità
- Risposta alle domande
- Recupero Generazione Aumentata (RAG)
Problema di apprendimento automatico :
- Classificazione binaria
- Classificazione multiclasse
- Regressione
Lingue supportate : inglese

Processo di valutazione

Il throughput medio, massimo, mediano e minimo dell'API per la valutazione delle richieste e dei record di transazione viene calcolato durante le valutazioni del monitor di integrità del modello.

Per calcolare la metrica di throughput API, viene utilizzato un valore di " response_time " (tempo di elaborazione) delle richieste di scoring per monitorare il tempo impiegato dall'implementazione del modello per elaborare le richieste di scoring.

Per le distribuzioni Runtime di watsonx.ai, il valore dell' response_time e viene rilevato automaticamente quando si configurano le valutazioni.

Per le distribuzioni esterne e personalizzate, è necessario specificare il valore " response_time " quando si inviano richieste di scoring per calcolare il throughput e la latenza, come mostrato nel seguente esempio dell'SDK di Python :

    from ibm_watson_openscale.supporting_classes.payload_record import PayloadRecord            
        client.data_sets.store_records(
        data_set_id=payload_data_set_id, 
        request_body=[
        PayloadRecord(
            scoring_id=<uuid>,
            request=openscale_input,
            response=openscale_output,
            response_time=<response_time>,  
            user_id=<user_id>)
                    ]
        )