Métricas de evaluación
Las métricas de evaluación pueden ayudarle a supervisar continuamente el rendimiento de sus modelos de IA para proporcionar información a lo largo del ciclo de vida de la IA. Con watsonx.governance, puede utilizar estas métricas para ayudar a garantizar el cumplimiento de los requisitos normativos e identificar cómo realizar mejoras para mitigar los riesgos.
Puede ejecutar evaluaciones en Watsonx.governance para generar métricas con supervisión automatizada que pueden proporcionar información procesable para ayudarle a alcanzar sus objetivos de gobernanza de IA. Puede utilizar estas métricas para alcanzar los siguientes objetivos:
- Garantice el cumplimiento : Realice un seguimiento automático del cumplimiento de las normativas y políticas organizativas en evolución con alertas que se activan cuando se superan los umbrales.
- Fomentar la transparencia : Genere documentación detallada para ofrecer una visión clara del comportamiento del modelo, su rendimiento y la explicabilidad de los resultados.
- Mitigar los riesgos : Detectar y abordar problemas como el sesgo o la deriva de la precisión mediante evaluaciones continuas y evaluaciones proactivas de los riesgos.
- Proteja la privacidad y la seguridad : Supervise las vulnerabilidades de seguridad, como la exposición de información personal identificable (PII), y aplique barandillas para evitar el uso indebido de datos confidenciales.
Las métricas que puede utilizar para obtener información sobre el rendimiento de su modelo vienen determinadas por el tipo de evaluaciones que active. Cada tipo de evaluación genera métricas diferentes que puede analizar para obtener información.
También puedes utilizar el ibm-watsonx-gov SDK Python para calcular métricas en un entorno de ejecución de notebook o descargadas como trabajos de Spark en IBM Analytics Engine para evaluaciones. El SDK de Inteligencia Artificial ( Python, IA) es una biblioteca de aprendizaje automático ( Python ) que puede utilizar para supervisar, gestionar y gobernar mediante programación modelos de aprendizaje automático. Algunas métricas podrían estar disponibles solo con el SDK de Python. Para obtener más información, consulte Cálculo de métricas con el SDK de Python.
Deriva v2 métricas de evaluación
Drift v2 Las métricas de evaluación pueden ayudarle a medir los cambios en sus datos a lo largo del tiempo para garantizar la coherencia de los resultados de su modelo. Puede utilizar estas métricas para identificar cambios en los resultados de su modelo, la precisión de sus predicciones y la distribución de sus datos de entrada. Watsonx.governance admite las siguientes métricas de deriva v2 :
| Métrica | Descripción |
|---|---|
| Desviación de inclusiones | Detecta el porcentaje de registros que son valores atípicos en comparación con los datos de referencia |
| Desviación de características | Mide el cambio en la distribución de valores de las características importantes |
| Desviación de los metadatos de entrada | Mide el cambio en la distribución de los metadatos de texto de entrada del LLM |
| Desviación en la calidad del modelo | Compara la precisión estimada en tiempo de ejecución con la precisión de entrenamiento para medir la caída en la precisión. |
| Desviación de salida | Mide el cambio en la distribución de confianza del modelo |
| Desviación de los metadatos de salida | Mide el cambio en la distribución de los metadatos de texto de salida del LLM. |
| Desviación de la predicción | Mide el cambio en la distribución de las clases pronosticadas LLM. |
Métricas de evaluación de la equidad
Las métricas de evaluación de la imparcialidad pueden ayudarle a determinar si su modelo produce resultados sesgados. Puede utilizar estas métricas para identificar cuándo su modelo muestra una tendencia a proporcionar resultados favorables más a menudo para un grupo que para otro. Watsonx.governance admite las siguientes métricas de evaluación de la equidad:
| Métrica | Descripción |
|---|---|
| Diferencia de probabilidad media absoluta | Compara la media de la diferencia absoluta de las tasas de falsos positivos y de verdaderos positivos entre los grupos controlados y los grupos de referencia |
| Diferencia de probabilidad media | Mide la diferencia en las tasas de falsos positivos y falsos negativos entre los grupos monitorizados y de referencia |
| Impacto dispar | Compara el porcentaje de resultados favorables de un grupo supervisado con el porcentaje de resultados favorables de un grupo de referencia |
| Diferencia de tasa de error | Porcentaje de transacciones puntuadas incorrectamente por su modelo |
| Diferencia de tasa de falsos descubrimientos | La cantidad de transacciones con falsos positivos como porcentaje de todas las transacciones con un resultado positivo |
| Diferencia de tasa de falsos negativos | El porcentaje de transacciones positivas que su modelo calificó incorrectamente como negativas |
| Diferencia de tasa de falsas omisiones | El número de transacciones negativas falsas como porcentaje de todas las transacciones con un resultado negativo |
| Diferencia de tasa de falsos positivos | El porcentaje de transacciones negativas que su modelo calificó incorrectamente como positivas. |
| Puntuación de impacto | Compara el porcentaje de grupos supervisados seleccionados para obtener resultados favorables con el porcentaje de grupos de referencia seleccionados para obtener resultados favorables. |
| Diferencia de paridad estadística | Compara el porcentaje de resultados favorables de los grupos supervisados con los grupos de referencia. |
Métricas de evaluación de la calidad de la IA generativa
Las métricas de evaluación de calidad de la IA generativa pueden ayudarte a medir el rendimiento de tu modelo de base en las tareas. Watsonx.governance admite las siguientes métricas de evaluación de calidad de IA generativa:
| Métrica | Descripción |
|---|---|
| BLEU (Estudiante de Evaluación Bilingüe) | Compara frases traducidas de traducciones automáticas con frases de traducciones de referencia para medir la similitud entre los textos de referencia y las predicciones |
| Coincidencia exacta | Compara las cadenas de predicción del modelo con las cadenas de referencia para medir la frecuencia con la que coinciden las cadenas. |
| METEOR (métrico para la evaluación de la traducción con ordenación explícita) | Mide hasta qué punto el texto generado con las traducciones automáticas coincide con la estructura del texto de las traducciones de referencia |
| Legibilidad | Determina la dificultad de lectura de los resultados del modelo midiendo características como la longitud de las frases y la complejidad de las palabras |
| ROUGE (Modelo de sustitución orientado a la recuperación para la evaluación del resumen) | Mida la calidad de los resúmenes o traducciones generados en comparación con los resultados de referencia. |
| SARI (salida del sistema contra referencias y contra la sentencia de entrada) | Compara el resultado de la frase predicha con el resultado de la frase de referencia para medir la calidad de las palabras que el modelo utiliza para generar frases |
| Similaridad de las frases | Captura la información semántica de las frases para medir la similitud entre los textos |
| Calidad del texto | Evalúa el resultado de un modelo en relación con los conjuntos de datos de SuperGLUE midiendo la puntuación, la precisión y la recuperación de F1 en relación con las predicciones del modelo y los datos reales |
Watsonx.governance también admite las siguientes categorías diferentes de métricas de calidad de IA generativa:
Responder a las métricas de calidad
Puede utilizar las métricas de calidad de las respuestas para evaluar la calidad de las respuestas modelo. Las métricas de calidad de respuesta se calculan con modelos de LLM como juez. Para calcular las métricas con modelos LLM como juez, puede crear una función de puntuación que llame a los modelos. Para obtener más información, consulte las métricas de calidad de respuesta informática y calidad de recuperación utilizando IBM watsonx.governance para el cuaderno de tareas RAG.
Puede calcular las siguientes métricas de calidad de respuesta:
| Métrica | Descripción |
|---|---|
| Relevancia de la respuesta | Mide la pertinencia de la respuesta de la salida del modelo con respecto a la pregunta de la entrada del modelo |
| Similitud de respuesta | Mide la similitud entre la respuesta o el texto generado y la respuesta real o de referencia para determinar la calidad del rendimiento del modelo |
| Fidelidad | Mide hasta qué punto el resultado del modelo está fundamentado en el contexto del modelo y proporciona atribuciones del contexto para mostrar las frases más importantes que contribuyen al resultado del modelo. |
| Solicitudes incorrectas | Mide la proporción de preguntas que se responden sin éxito sobre el número total de preguntas |
Métricas de análisis de contenido
Puede utilizar las siguientes métricas de análisis de contenido para evaluar el resultado de su modelo en comparación con la entrada o el contexto de su modelo:
| Métrica | Descripción |
|---|---|
| Abstracción | Mide la proporción de n-gramas en el texto generado que no aparecen en el contenido original del modelo de base |
| Compresión | Mide cuánto más corto es el resumen en comparación con el texto de entrada calculando la proporción entre el número de palabras del texto original y el número de palabras del resultado del modelo base |
| Cobertura | Mide el grado en que el resultado del modelo de base se genera a partir de la entrada del modelo calculando el porcentaje de texto de salida que también está en la entrada |
| Densidad | Mide el grado de extracción del resumen en la salida del modelo de base a partir de la entrada del modelo calculando el promedio de fragmentos de extracción que se asemejan mucho a las extracciones literales del texto original |
| Repetitividad | Mide el porcentaje de n-gramas que se repiten en el resultado del modelo de base calculando el número de n-gramas repetidos y el número total de n-gramas en el resultado del modelo |
Métricas de seguridad de datos
Puede utilizar las siguientes métricas de seguridad de datos para identificar si la entrada o salida de su modelo contiene información perjudicial o sensible:
| Métrica | Descripción |
|---|---|
| HAP | Mide si hay algún contenido tóxico que contenga odio, abuso o blasfemia en los datos de entrada o salida del modelo. |
| PII | Mide si los datos de entrada o salida de su modelo contienen información personal identificable mediante el modelo de extracción de entidades de Procesamiento del Lenguaje Natural Watson |
Métricas de varias etiquetas/clases
Puede utilizar las siguientes métricas de etiquetas/clases múltiples para medir el rendimiento del modelo para predicciones de etiquetas/clases múltiples:
| Métrica | Descripción |
|---|---|
| Macropuntuación F1 | La media de las puntuaciones de la prueba de evaluación de conocimientos ( F1 ) calculada por separado para cada clase |
| Macroprecisión | La media de las puntuaciones de precisión calculadas por separado para cada clase |
| Macroexhaustividad | La media de las puntuaciones de recuerdo calculadas por separado para cada clase |
| Micropuntuación F1 | Calcula la media armónica de precisión y recuperación |
| Microprecisión | La proporción del número de predicciones correctas sobre todas las clases con respecto al número total de predicciones. |
| Microexhaustividad | La proporción del número de predicciones correctas sobre todas las clases con respecto al número de muestras verdaderas. |
Métricas de calidad de recuperación
Puede utilizar las métricas de calidad de recuperación para medir la calidad de la forma en que el sistema de recuperación clasifica los contextos relevantes. Las métricas de calidad de recuperación se calculan con modelos de LLM como juez. Para calcular las métricas con modelos LLM como juez, puede crear una función de puntuación que llame a los modelos. Para obtener más información, consulte las métricas de calidad de respuesta informática y calidad de recuperación utilizando IBM watsonx.governance para el cuaderno de tareas RAG.
Puede calcular las siguientes métricas de calidad de recuperación:
| Métrica | Descripción |
|---|---|
| Precisión promedio | Evalúa si todos los contextos relevantes están mejor clasificados o no calculando la media de las puntuaciones de precisión de los contextos relevantes |
| Relevancia del contexto | Mide la pertinencia del contexto que su modelo recupera con respecto a la pregunta especificada en la solicitud |
| Tasa de aciertos | Mide si hay al menos un contexto relevante entre los contextos recuperados. |
| Ganancia acumulada descontada normalizada | Mide la calidad de la clasificación de los contextos recuperados |
| Rango recíproco | El rango recíproco del primer contexto pertinente |
| Precisión de recuperación | Mide la cantidad de contextos relevantes del total de contextos recuperados |
Métricas de evaluación de la vigilancia de la salud del modelo
Las métricas de evaluación del monitor de estado del modelo pueden ayudarle a comprender el comportamiento y el rendimiento de su modelo determinando la eficacia con la que el despliegue de su modelo procesa sus transacciones. Las métricas de evaluación del estado del modelo están activadas por defecto para las evaluaciones de modelos de aprendizaje automático en despliegues de activos de producción y de IA generativa. Watsonx.governance admite las siguientes métricas de evaluación del monitor de salud del modelo:
| Métrica | Descripción |
|---|---|
| Tamaño de la carga útil | El tamaño total, medio, mínimo, máximo y medio de la carga útil de los registros de transacciones que procesa la implantación de su modelo a través de las solicitudes de puntuación en kilobytes (KB) |
| Registros | El número total, medio, mínimo, máximo y medio de registros de transacciones que se procesan a través de las solicitudes de calificación |
| Solicitudes de puntuación | El número de solicitudes de puntuación que recibe su despliegue de modelos |
| Usuarios | El número de usuarios que envían solicitudes de puntuación a sus implantaciones de modelos |
Watsonx.governance también admite las siguientes categorías diferentes de métricas de evaluación de monitores de salud modelo:
Recuento de fichas
Las siguientes métricas de recuento de tokens calculan el número de tokens que se procesan en las solicitudes de puntuación para la implementación de su modelo:
| Métrica | Descripción |
|---|---|
| Recuento de tokens de entrada | Calcula el recuento total, medio, mínimo, máximo y medio de tokens de entrada en varias solicitudes de puntuación durante las evaluaciones |
| Recuento de señales de salida | Calcula el recuento total, medio, mínimo, máximo y medio de tokens de salida entre las solicitudes de puntuación durante las evaluaciones |
Rendimiento y latencia
Las evaluaciones de los monitores de salud de los modelos calculan la latencia mediante el seguimiento del tiempo que se tarda en procesar las solicitudes de puntuación y los registros de transacciones por milisegundo (ms). El rendimiento se calcula mediante el seguimiento del número de solicitudes de puntuación y registros de transacciones que se procesan por segundo.
Las siguientes métricas se calculan para medir el rendimiento y la latencia durante las evaluaciones:
| Métrica | Descripción |
|---|---|
| Latencia de API | Tiempo (en ms) que tarda en procesar una solicitud de puntuación su implementación de modelo. |
| Rendimiento de API | Número de solicitudes de puntuación procesadas por su implementación de modelo por segundo |
Métricas de evaluación de calidad
Las evaluaciones de calidad pueden ayudarle a medir la capacidad de su modelo para proporcionar resultados correctos en función de su rendimiento. Watsonx.governance apoya los siguientes parámetros de evaluación de calidad:
| Métrica | Descripción |
|---|---|
| Precisión | Mide la precisión de las predicciones de su modelo calculando la proporción de resultados correctos entre el número total de resultados. |
| Área bajo PR | Mide lo bien que su modelo equilibra la identificación correcta de clases positivas con la búsqueda de todas las clases positivas |
| Área bajo ROC | Mide lo bien que su modelo identifica las diferencias entre clases. |
| Puntuación de Brier | Mide la diferencia cuadrática media entre la probabilidad prevista y el valor objetivo. |
| F1-Measure | Medidas: media armónica de precisión y recuerdo |
| Coeficiente de Gini | Mide la capacidad de los modelos para distinguir entre dos clases |
| Desvío de etiqueta | Mide la asimetría de las distribuciones de etiquetas |
| Pérdida logarítmica | Media de los logaritmos de las probabilidades de la clase objetivo (confianza) |
| Coeficiente de correlación de Matthews | La calidad de las clasificaciones binarias y multiclase teniendo en cuenta los positivos y negativos verdaderos y falsos |
| Error absoluto medio | Promedio de la diferencia absoluta entre la predicción del modelo y el valor de destino |
| Media del error porcentual absoluto | Mide la diferencia de error porcentual medio entre los valores previstos y reales |
| Error cuadrático medio | Media de la diferencia al cuadrado entre la predicción del modelo y el valor objetivo |
| Coeficiente de correlación de Pearson | Mide la relación lineal entre la predicción del modelo y los valores objetivo. |
| Precisión | Proporción de predicciones correctas en predicciones de clase positiva |
| Proporción de varianza explicada | La relación entre la varianza explicada y la varianza objetivo. La varianza explicada es la diferencia entre la varianza de destino y la varianza de error de predicción. |
| Exhaustividad | Proporción de predicciones correctas en la clase positiva |
| Raíz del error cuadrático promedio | Raíz cuadrada de media de cuadrado de la diferencia entre la predicción del modelo y el valor de destino |
| R cuadrado | Relación de la diferencia entre la varianza objetivo y la varianza del error de predicción con respecto a la varianza objetivo |
| coeficiente de correlación de Spearman | Mide la monotonía de la relación entre las predicciones del modelo y los valores objetivo. |
| Porcentaje de error absoluto de media simétrica | Mide la media simétrica del porcentaje de error de diferencia entre los valores previstos y reales |
| Tasa de positivos verdaderos | Proporción de predicciones correctas en predicciones de clase positiva |
| Índice de falsos positivos ponderados | Proporción de predicciones incorrectas en la clase positiva |
| Medida F1 ponderada | Media ponderada de la probabilidad de que se produzca un evento ( F1-measure ) con ponderaciones iguales a la probabilidad de clase |
| Precisión ponderada | Media ponderada de precisión con ponderaciones iguales a la probabilidad de clase |
| Exhaustividad ponderada | Media ponderada de recuerdo con pesos iguales a la probabilidad de clase |