Métricas de evaluación

Las métricas de evaluación pueden ayudarle a supervisar continuamente el rendimiento de sus modelos de IA para proporcionar información a lo largo del ciclo de vida de la IA. Con watsonx.governance, puede utilizar estas métricas para ayudar a garantizar el cumplimiento de los requisitos normativos e identificar cómo realizar mejoras para mitigar los riesgos.

Puede ejecutar evaluaciones en Watsonx.governance para generar métricas con supervisión automatizada que pueden proporcionar información procesable para ayudarle a alcanzar sus objetivos de gobernanza de IA. Puede utilizar estas métricas para alcanzar los siguientes objetivos:

Garantice el cumplimiento : Realice un seguimiento automático del cumplimiento de las normativas y políticas organizativas en evolución con alertas que se activan cuando se superan los umbrales.
Fomentar la transparencia : Genere documentación detallada para ofrecer una visión clara del comportamiento del modelo, su rendimiento y la explicabilidad de los resultados.
Mitigar los riesgos : Detectar y abordar problemas como el sesgo o la deriva de la precisión mediante evaluaciones continuas y evaluaciones proactivas de los riesgos.
Proteja la privacidad y la seguridad : Supervise las vulnerabilidades de seguridad, como la exposición de información personal identificable (PII), y aplique barandillas para evitar el uso indebido de datos confidenciales.

Las métricas que puede utilizar para obtener información sobre el rendimiento de su modelo vienen determinadas por el tipo de evaluaciones que active. Cada tipo de evaluación genera métricas diferentes que puede analizar para obtener información.

También puedes utilizar el ibm-watsonx-gov SDK Python para calcular métricas en un entorno de ejecución de notebook o descargadas como trabajos de Spark en IBM Analytics Engine para evaluaciones. El SDK de Inteligencia Artificial ( Python, IA) es una biblioteca de aprendizaje automático ( Python ) que puede utilizar para supervisar, gestionar y gobernar mediante programación modelos de aprendizaje automático. Algunas métricas podrían estar disponibles solo con el SDK de Python. Para obtener más información, consulte Cálculo de métricas con el SDK de Python.

Deriva v2 métricas de evaluación

Drift v2 Las métricas de evaluación pueden ayudarle a medir los cambios en sus datos a lo largo del tiempo para garantizar la coherencia de los resultados de su modelo. Puede utilizar estas métricas para identificar cambios en los resultados de su modelo, la precisión de sus predicciones y la distribución de sus datos de entrada. Watsonx.governance admite las siguientes métricas de deriva v2 :

Tabla 2. Deriva v2 descripciones de las métricas de evaluación
Métrica	Descripción
Desviación de inclusiones	Detecta el porcentaje de registros que son valores atípicos en comparación con los datos de referencia
Desviación de características	Mide el cambio en la distribución de valores de las características importantes
Desviación de los metadatos de entrada	Mide el cambio en la distribución de los metadatos de texto de entrada del LLM
Desviación en la calidad del modelo	Compara la precisión estimada en tiempo de ejecución con la precisión de entrenamiento para medir la caída en la precisión.
Desviación de salida	Mide el cambio en la distribución de confianza del modelo
Desviación de los metadatos de salida	Mide el cambio en la distribución de los metadatos de texto de salida del LLM.
Desviación de la predicción	Mide el cambio en la distribución de las clases pronosticadas LLM.

Métricas de evaluación de la equidad

Las métricas de evaluación de la imparcialidad pueden ayudarle a determinar si su modelo produce resultados sesgados. Puede utilizar estas métricas para identificar cuándo su modelo muestra una tendencia a proporcionar resultados favorables más a menudo para un grupo que para otro. Watsonx.governance admite las siguientes métricas de evaluación de la equidad:

Tabla 3. Descripciones de las métricas de evaluación de la equidad
Métrica	Descripción
Diferencia de probabilidad media absoluta	Compara la media de la diferencia absoluta de las tasas de falsos positivos y de verdaderos positivos entre los grupos controlados y los grupos de referencia
Diferencia de probabilidad media	Mide la diferencia en las tasas de falsos positivos y falsos negativos entre los grupos monitorizados y de referencia
Impacto dispar	Compara el porcentaje de resultados favorables de un grupo supervisado con el porcentaje de resultados favorables de un grupo de referencia
Diferencia de tasa de error	Porcentaje de transacciones puntuadas incorrectamente por su modelo
Diferencia de tasa de falsos descubrimientos	La cantidad de transacciones con falsos positivos como porcentaje de todas las transacciones con un resultado positivo
Diferencia de tasa de falsos negativos	El porcentaje de transacciones positivas que su modelo calificó incorrectamente como negativas
Diferencia de tasa de falsas omisiones	El número de transacciones negativas falsas como porcentaje de todas las transacciones con un resultado negativo
Diferencia de tasa de falsos positivos	El porcentaje de transacciones negativas que su modelo calificó incorrectamente como positivas.
Puntuación de impacto	Compara el porcentaje de grupos supervisados seleccionados para obtener resultados favorables con el porcentaje de grupos de referencia seleccionados para obtener resultados favorables.
Diferencia de paridad estadística	Compara el porcentaje de resultados favorables de los grupos supervisados con los grupos de referencia.

Métricas de evaluación de la calidad de la IA generativa

Las métricas de evaluación de calidad de la IA generativa pueden ayudarte a medir el rendimiento de tu modelo de base en las tareas. Watsonx.governance admite las siguientes métricas de evaluación de calidad de IA generativa:

Tabla 4. Descripciones de métricas de evaluación de la calidad de la IA generativa
Métrica	Descripción
BLEU (Estudiante de Evaluación Bilingüe)	Compara frases traducidas de traducciones automáticas con frases de traducciones de referencia para medir la similitud entre los textos de referencia y las predicciones
Coincidencia exacta	Compara las cadenas de predicción del modelo con las cadenas de referencia para medir la frecuencia con la que coinciden las cadenas.
METEOR (métrico para la evaluación de la traducción con ordenación explícita)	Mide hasta qué punto el texto generado con las traducciones automáticas coincide con la estructura del texto de las traducciones de referencia
Legibilidad	Determina la dificultad de lectura de los resultados del modelo midiendo características como la longitud de las frases y la complejidad de las palabras
ROUGE (Modelo de sustitución orientado a la recuperación para la evaluación del resumen)	Mida la calidad de los resúmenes o traducciones generados en comparación con los resultados de referencia.
SARI (salida del sistema contra referencias y contra la sentencia de entrada)	Compara el resultado de la frase predicha con el resultado de la frase de referencia para medir la calidad de las palabras que el modelo utiliza para generar frases
Similaridad de las frases	Captura la información semántica de las frases para medir la similitud entre los textos
Calidad del texto	Evalúa el resultado de un modelo en relación con los conjuntos de datos de SuperGLUE midiendo la puntuación, la precisión y la recuperación de F1 en relación con las predicciones del modelo y los datos reales

Watsonx.governance también admite las siguientes categorías diferentes de métricas de calidad de IA generativa:

Responder a las métricas de calidad

Puede utilizar las métricas de calidad de las respuestas para evaluar la calidad de las respuestas modelo. Las métricas de calidad de respuesta se calculan con modelos de LLM como juez. Para calcular las métricas con modelos LLM como juez, puede crear una función de puntuación que llame a los modelos. Para obtener más información, consulte las métricas de calidad de respuesta informática y calidad de recuperación utilizando IBM watsonx.governance para el cuaderno de tareas RAG.

Puede calcular las siguientes métricas de calidad de respuesta:

Tabla 5. Descripciones de las métricas de evaluación de la calidad de las respuestas
Métrica	Descripción
Relevancia de la respuesta	Mide la pertinencia de la respuesta de la salida del modelo con respecto a la pregunta de la entrada del modelo
Similitud de respuesta	Mide la similitud entre la respuesta o el texto generado y la respuesta real o de referencia para determinar la calidad del rendimiento del modelo
Fidelidad	Mide hasta qué punto el resultado del modelo está fundamentado en el contexto del modelo y proporciona atribuciones del contexto para mostrar las frases más importantes que contribuyen al resultado del modelo.
Solicitudes incorrectas	Mide la proporción de preguntas que se responden sin éxito sobre el número total de preguntas

Métricas de análisis de contenido

Puede utilizar las siguientes métricas de análisis de contenido para evaluar el resultado de su modelo en comparación con la entrada o el contexto de su modelo:

Tabla 6. Descripciones de las métricas de evaluación del análisis de contenido
Métrica	Descripción
Abstracción	Mide la proporción de n-gramas en el texto generado que no aparecen en el contenido original del modelo de base
Compresión	Mide cuánto más corto es el resumen en comparación con el texto de entrada calculando la proporción entre el número de palabras del texto original y el número de palabras del resultado del modelo base
Cobertura	Mide el grado en que el resultado del modelo de base se genera a partir de la entrada del modelo calculando el porcentaje de texto de salida que también está en la entrada
Densidad	Mide el grado de extracción del resumen en la salida del modelo de base a partir de la entrada del modelo calculando el promedio de fragmentos de extracción que se asemejan mucho a las extracciones literales del texto original
Repetitividad	Mide el porcentaje de n-gramas que se repiten en el resultado del modelo de base calculando el número de n-gramas repetidos y el número total de n-gramas en el resultado del modelo

Métricas de seguridad de datos

Puede utilizar las siguientes métricas de seguridad de datos para identificar si la entrada o salida de su modelo contiene información perjudicial o sensible:

Tabla 7. Descripciones de las métricas de evaluación de la seguridad de los datos
Métrica	Descripción
HAP	Mide si hay algún contenido tóxico que contenga odio, abuso o blasfemia en los datos de entrada o salida del modelo.
PII	Mide si los datos de entrada o salida de su modelo contienen información personal identificable mediante el modelo de extracción de entidades de Procesamiento del Lenguaje Natural Watson

Métricas de varias etiquetas/clases

Puede utilizar las siguientes métricas de etiquetas/clases múltiples para medir el rendimiento del modelo para predicciones de etiquetas/clases múltiples:

Tabla 8. Descripciones de las métricas de evaluación de múltiples etiquetas/clases
Métrica	Descripción
Macropuntuación F1	La media de las puntuaciones de la prueba de evaluación de conocimientos ( F1 ) calculada por separado para cada clase
Macroprecisión	La media de las puntuaciones de precisión calculadas por separado para cada clase
Macroexhaustividad	La media de las puntuaciones de recuerdo calculadas por separado para cada clase
Micropuntuación F1	Calcula la media armónica de precisión y recuperación
Microprecisión	La proporción del número de predicciones correctas sobre todas las clases con respecto al número total de predicciones.
Microexhaustividad	La proporción del número de predicciones correctas sobre todas las clases con respecto al número de muestras verdaderas.

Métricas de calidad de recuperación

Puede utilizar las métricas de calidad de recuperación para medir la calidad de la forma en que el sistema de recuperación clasifica los contextos relevantes. Las métricas de calidad de recuperación se calculan con modelos de LLM como juez. Para calcular las métricas con modelos LLM como juez, puede crear una función de puntuación que llame a los modelos. Para obtener más información, consulte las métricas de calidad de respuesta informática y calidad de recuperación utilizando IBM watsonx.governance para el cuaderno de tareas RAG.

Puede calcular las siguientes métricas de calidad de recuperación:

Tabla 9. Descripciones de las métricas de evaluación de la calidad de la recuperación
Métrica	Descripción
Precisión promedio	Evalúa si todos los contextos relevantes están mejor clasificados o no calculando la media de las puntuaciones de precisión de los contextos relevantes
Relevancia del contexto	Mide la pertinencia del contexto que su modelo recupera con respecto a la pregunta especificada en la solicitud
Tasa de aciertos	Mide si hay al menos un contexto relevante entre los contextos recuperados.
Ganancia acumulada descontada normalizada	Mide la calidad de la clasificación de los contextos recuperados
Rango recíproco	El rango recíproco del primer contexto pertinente
Precisión de recuperación	Mide la cantidad de contextos relevantes del total de contextos recuperados

Métricas de evaluación de la vigilancia de la salud del modelo

Las métricas de evaluación del monitor de estado del modelo pueden ayudarle a comprender el comportamiento y el rendimiento de su modelo determinando la eficacia con la que el despliegue de su modelo procesa sus transacciones. Las métricas de evaluación del estado del modelo están activadas por defecto para las evaluaciones de modelos de aprendizaje automático en despliegues de activos de producción y de IA generativa. Watsonx.governance admite las siguientes métricas de evaluación del monitor de salud del modelo:

Tabla 10. Descripciones de las métricas de evaluación de la vigilancia de la salud del modelo
Métrica	Descripción
Tamaño de la carga útil	El tamaño total, medio, mínimo, máximo y medio de la carga útil de los registros de transacciones que procesa la implantación de su modelo a través de las solicitudes de puntuación en kilobytes (KB)
Registros	El número total, medio, mínimo, máximo y medio de registros de transacciones que se procesan a través de las solicitudes de calificación
Solicitudes de puntuación	El número de solicitudes de puntuación que recibe su despliegue de modelos
Usuarios	El número de usuarios que envían solicitudes de puntuación a sus implantaciones de modelos

Watsonx.governance también admite las siguientes categorías diferentes de métricas de evaluación de monitores de salud modelo:

Recuento de fichas

Las siguientes métricas de recuento de tokens calculan el número de tokens que se procesan en las solicitudes de puntuación para la implementación de su modelo:

Tabla 11. Descripciones de las métricas de evaluación del recuento de fichas del monitor de salud del modelo
Métrica	Descripción
Recuento de tokens de entrada	Calcula el recuento total, medio, mínimo, máximo y medio de tokens de entrada en varias solicitudes de puntuación durante las evaluaciones
Recuento de señales de salida	Calcula el recuento total, medio, mínimo, máximo y medio de tokens de salida entre las solicitudes de puntuación durante las evaluaciones

Rendimiento y latencia

Las evaluaciones de los monitores de salud de los modelos calculan la latencia mediante el seguimiento del tiempo que se tarda en procesar las solicitudes de puntuación y los registros de transacciones por milisegundo (ms). El rendimiento se calcula mediante el seguimiento del número de solicitudes de puntuación y registros de transacciones que se procesan por segundo.

Las siguientes métricas se calculan para medir el rendimiento y la latencia durante las evaluaciones:

Tabla 12. Descripciones de las métricas de rendimiento y latencia del monitor de salud del modelo
Métrica	Descripción
Latencia de API	Tiempo (en ms) que tarda en procesar una solicitud de puntuación su implementación de modelo.
Rendimiento de API	Número de solicitudes de puntuación procesadas por su implementación de modelo por segundo

Métricas de evaluación de calidad

Las evaluaciones de calidad pueden ayudarle a medir la capacidad de su modelo para proporcionar resultados correctos en función de su rendimiento. Watsonx.governance apoya los siguientes parámetros de evaluación de calidad:

Tabla 13. Descripciones de las métricas de evaluación de calidad
Métrica	Descripción
Precisión	Mide la precisión de las predicciones de su modelo calculando la proporción de resultados correctos entre el número total de resultados.
Área bajo PR	Mide lo bien que su modelo equilibra la identificación correcta de clases positivas con la búsqueda de todas las clases positivas
Área bajo ROC	Mide lo bien que su modelo identifica las diferencias entre clases.
Puntuación de Brier	Mide la diferencia cuadrática media entre la probabilidad prevista y el valor objetivo.
F1-Measure	Medidas: media armónica de precisión y recuerdo
Coeficiente de Gini	Mide la capacidad de los modelos para distinguir entre dos clases
Desvío de etiqueta	Mide la asimetría de las distribuciones de etiquetas
Pérdida logarítmica	Media de los logaritmos de las probabilidades de la clase objetivo (confianza)
Coeficiente de correlación de Matthews	La calidad de las clasificaciones binarias y multiclase teniendo en cuenta los positivos y negativos verdaderos y falsos
Error absoluto medio	Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino
Media del error porcentual absoluto	Mide la diferencia de error porcentual medio entre los valores previstos y reales
Error cuadrático medio	Media de la diferencia al cuadrado entre la predicción del modelo y el valor objetivo
Coeficiente de correlación de Pearson	Mide la relación lineal entre la predicción del modelo y los valores objetivo.
Precisión	Proporción de predicciones correctas en predicciones de clase positiva
Proporción de varianza explicada	La relación entre la varianza explicada y la varianza objetivo. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción.
Exhaustividad	Proporción de predicciones correctas en la clase positiva
Raíz del error cuadrático promedio	Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino
R cuadrado	Relación de la diferencia entre la varianza objetivo y la varianza del error de predicción con respecto a la varianza objetivo
coeficiente de correlación de Spearman	Mide la monotonía de la relación entre las predicciones del modelo y los valores objetivo.
Porcentaje de error absoluto de media simétrica	Mide la media simétrica del porcentaje de error de diferencia entre los valores previstos y reales
Tasa de positivos verdaderos	Proporción de predicciones correctas en predicciones de clase positiva
Índice de falsos positivos ponderados	Proporción de predicciones incorrectas en la clase positiva
Medida F1 ponderada	Media ponderada de la probabilidad de que se produzca un evento ( F1-measure ) con ponderaciones iguales a la probabilidad de clase
Precisión ponderada	Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase
Exhaustividad ponderada	Media ponderada de recuerdo con pesos iguales a la probabilidad de clase