Metrica di valutazione della deriva dei metadati in uscita
La metrica di deriva dei metadati di output misura la variazione nella distribuzione dei metadati di testo di output LLM.
Dettagli metrica
La deriva dei metadati di output è una metrica di valutazione della deriva dell' v2, che può aiutare a misurare i cambiamenti nei dati nel tempo per garantire risultati coerenti per il modello.
I seguenti tipi di metadati di testo in uscita LLM sono misurati con la deriva dei metadati in uscita:
Conteggio caratteri : numero totale di caratteri nel testo di output
Conteggio parole : numero totale di parole nel testo di output
Conteggio token : numero totale di token nel testo di output
Conteggio frasi : numero totale di frasi nel testo di output
Lunghezza media delle parole : lunghezza media delle parole nel testo di output
Lunghezza totale delle parole : lunghezza totale delle parole nel testo di output
Lunghezza media della frase : lunghezza media delle frasi nel testo di output
Ambito
La deriva dei metadati di output valuta solo le risorse di IA generativa.
- Tipi di risorse AI : Modelli di prompt
- Compiti di IA generativa :
- Riepilogo del testo
- Classificazione testo
- Generazione di contenuto
- Risposta alle domande
- Lingue supportate : inglese
Punteggi e valori
Il punteggio di deriva dei metadati di output indica la variazione nella distribuzione dei metadati di testo di output LLM.
- Intervallo di valori : 0.0-1.0
- Il miglior punteggio possibile : 0.0
- Rapporti :
- A 0: non viene rilevato alcun cambiamento.
- Oltre 0: viene rilevato un cambiamento crescente.
Processo di valutazione
Watsonx.governance calcola la deriva dei metadati in uscita misurando la variazione nella distribuzione delle colonne dei metadati. La colonna del conteggio dei token di output, se presente nel payload, viene utilizzata anche per calcolare la deriva dei metadati di output. È inoltre possibile scegliere di specificare eventuali metacampi durante l'aggiunta di record alla tabella del payload. Questi metacampi vengono utilizzati anche per calcolare la deriva dei metadati in uscita.
Calcolo matematico
La seguente formula del logaritmo binario viene utilizzata per identificare le colonne di metadati di output numerico discreto:
If the `distinct_values_count` is less than the binary logarithm of the `total_count`, the feature is identified as discrete.
For discrete output metadata columns, watsonx.governance uses the [Jensen Shannon distance](#jensen-shannon-distance) formula to calculate output metadata drift.
For continuous output metadata columns, watsonx.governance uses the [total variation distance](#total-variation-distance) and [overlap coefficient](#overlap-coefficient) formulas to calculate output metadata drift:
La seguente formula di distanza Jensen Shannon viene utilizzata per calcolare la deriva dei metadati di output per colonne di metadati di output discreti:
Jensen Shannon La distanza è la forma normalizzata della divergenza di Kullback-Leibler (KL) che misura quanto una distribuzione di probabilità differisce dalla seconda distribuzione di probabilità. Jensen Shannon La distanza è un punteggio simmetrico e ha sempre un valore finito.
è la KL Divergence.
Le formule della distanza di variazione totale e del coefficiente di sovrapposizione sono utilizzate per calcolare la deriva dei metadati in uscita per le colonne di metadati in uscita continue.
La distanza di variazione totale misura la differenza massima tra le probabilità che due distribuzioni di probabilità, quella di base (B) e quella di produzione (P), assegnano alla stessa transazione, come mostrato nella seguente formula:
Se le due distribuzioni sono uguali, la distanza di variazione totale tra di esse diventa 0.
La seguente formula viene utilizzata per calcolare la distanza di variazione totale:
𝑥 è una serie di campioni equidistanti che coprono il dominio di
che vanno dal minimo combinato dei dati di riferimento e di produzione al massimo combinato dei dati di riferimento e di produzione.
è la differenza tra due campioni 𝑥 consecutivi.
è il valore della funzione densità per i dati di produzione a un campione 𝑥.
è il valore della funzione di densità per i dati di riferimento per un campione a 𝑥.
Il denominatore dell' e rappresenta l'area totale sotto i grafici della funzione di densità per i dati di produzione e di riferimento. Queste somme sono un'approssimazione delle integrazioni sullo spazio del dominio ed entrambi questi termini dovrebbero essere 1 e il totale dovrebbe essere 2.
Il coefficiente di sovrapposizione viene calcolato misurando l'area totale dell'intersezione tra due distribuzioni di probabilità. Per misurare la dissimilarità tra le distribuzioni, l'intersezione o l'area di sovrapposizione viene sottratta da 1 per calcolare la quantità di deriva. La formula seguente viene utilizzata per calcolare il coefficiente di sovrapposizione:
𝑥 è una serie di campioni equidistanti che coprono il dominio di
che vanno dal minimo combinato dei dati di riferimento e di produzione al massimo combinato dei dati di riferimento e di produzione.
è la differenza tra due campioni 𝑥 consecutivi.
è il valore della funzione densità per i dati di produzione a un campione 𝑥.
è il valore della funzione di densità per i dati di riferimento per un campione a 𝑥.