Aplicación de pruebas de equidad a los experimentos de « AutoAI »
Evalúa la imparcialidad de un experimento para asegurarte de que los resultados no estén sesgados a favor de un grupo frente a otro.
Limitaciones
Las evaluaciones de equidad no están disponibles para los experimentos con series temporales.
Evaluación de experimentos y modelos en materia de equidad
Cuando defines un experimento y creas un modelo de aprendizaje automático, quieres asegurarte de que tus resultados sean fiables e imparciales. En un modelo de aprendizaje automático puede producirse un sesgo cuando el modelo extrae conclusiones erróneas durante el entrenamiento. Esta situación puede darse cuando la insuficiencia de datos o una recopilación o gestión deficiente de los mismos dan lugar a resultados erróneos al generar el modelo sus predicciones. Es importante evaluar un experimento para detectar posibles sesgos, con el fin de corregirlos cuando sea necesario y reforzar la confianza en los resultados del modelo.
AutoAI incluye las siguientes herramientas, técnicas y funciones para ayudarte a evaluar y corregir los sesgos de un experimento.
Definiciones y términos
Atributo de equidad: el sesgo o la equidad suelen medirse utilizando un atributo de equidad, como el género, el origen étnico o la edad.
Grupo de control/grupo de referencia : el grupo de control está formado por aquellos valores del atributo de equidad para los que se desea medir el sesgo. Los valores del grupo de estudio se comparan con los del grupo de referencia. Por ejemplo, si Fairness Attribute=Gender se utiliza para medir el sesgo contra las mujeres, el valor del grupo observado es «Mujer» y el del grupo de referencia es «Hombre».
Resultado favorable/desfavorable : un concepto importante en la detección de sesgos es el de los resultados favorables y desfavorables del modelo. Por ejemplo, Claim approved podría considerarse un resultado favorable y Claim denied podría considerarse un resultado desfavorable.
Impacto desigual : indicador utilizado para medir el sesgo (que se calcula como la relación entre el porcentaje de resultados favorables para el grupo objeto de seguimiento y el porcentaje de resultados favorables para el grupo de referencia). Se considera que existe un sesgo si el valor del impacto desigual es inferior a un umbral determinado.
Por ejemplo, si se aprueba el 80 % de las reclamaciones de seguro presentadas por hombres, pero solo el 60 % de las presentadas por mujeres, el impacto desigual es: 60/80 = 0, 0.75. Por lo general, el valor umbral para el sesgo es de 0.8. Dado que este índice de impacto desigual es inferior a 0.8, se considera que el modelo presenta un sesgo.
Ten en cuenta que cuando el índice de impacto desigual es superior a 1.25 [el valor inverso (impacto 1/disparate ) está por debajo del umbral 0.8 ], también se considera sesgado.
Mira un vídeo sobre cómo evaluar y mejorar la equidad
Mira este vídeo para ver cómo evaluar la imparcialidad de un modelo de aprendizaje automático y asegurarte de que tus resultados no estén sesgados.
Este vídeo ofrece un método visual para aprender los conceptos y las tareas que se describen en esta documentación.
Aplicación de la prueba de equidad a un experimento de « AutoAI » en la interfaz de usuario
Abre la configuración del experimento.
Haz clic en la pestaña «Equidad ».
Activa las opciones de equidad. Las opciones son las siguientes:
- Evaluación de equidad: activa esta opción para comprobar si cada proceso presenta sesgos mediante el cálculo del índice de impacto desigual. Este método permite determinar si un proceso tiende a dar lugar a un resultado favorable (preferido) para un grupo con mayor frecuencia que para otro.
- Umbral de equidad: Establezca un umbral de equidad para determinar si existe sesgo en un proceso basándose en el valor del índice de impacto desigual. El valor predeterminado es 80, lo que representa un índice de impacto desigual inferior a 0.80.
- Resultados favorables: especifica el valor de la columna de predicción que se consideraría favorable. Por ejemplo, el valor podría ser «aprobado», «aceptado» o cualquier otro que se ajuste a tu tipo de predicción.
- Método automático de atributos protegidos: elige cómo evaluar las características que pueden ser una fuente de sesgo. Puede configurar la detección automática; en ese caso, AutoAI detectará los atributos que suelen estar protegidos, entre los que se incluyen: sexo, origen étnico, estado civil, edad y código postal. Dentro de cada categoría, AutoAI intenta identificar un grupo protegido. Por ejemplo, para la
sexcategoría, el grupo objeto de seguimiento seríafemale.
Nota: En el modo automático, es probable que una característica no se identifique correctamente como un atributo protegido si presenta valores atípicos; por ejemplo, si está en un idioma distinto del inglés. La detección automática solo está disponible en inglés.- Método de atributo protegido manual: especifica manualmente un resultado y selecciona el atributo protegido de una lista de atributos. Ten en cuenta que, cuando introduzcas atributos manualmente, deberás definir un grupo y especificar si es probable que este presente los resultados esperados (el grupo de referencia) o si debe ser objeto de revisión para detectar desviaciones respecto a los resultados esperados (el grupo supervisado).
Por ejemplo, esta imagen muestra un conjunto de grupos de atributos especificados manualmente para la supervisión.

Guarda la configuración para aplicarla y ejecuta el experimento para aplicar la evaluación de equidad a tus flujos de trabajo.
Notas:
- En los modelos multiclase, puedes seleccionar varios valores en la columna de predicción para clasificarlos como favorables o no.
- En los modelos de regresión, se puede especificar un rango de resultados que se consideren favorables o no.
- Actualmente no hay evaluaciones de equidad disponibles para los experimentos con series temporales.
Lista de atributos detectados automáticamente para evaluar la imparcialidad
Cuando la detección automática está activada, « AutoAI » detectará automáticamente los siguientes atributos si están presentes en los datos de entrenamiento. Los atributos deben estar en inglés.
- edad
- condición de ciudadano
- color
- discapacidad
- grupo étnico
- género
- información genética
- hándicap
- lengua
- conyugal
- convicción política
- embarazo
- religión
- condición de veterano
Aplicación de la prueba de equidad a un experimento de « AutoAI » en un cuaderno
Puedes realizar pruebas de equidad en un experimento de « AutoAI » entrenado en un cuaderno y ampliar las capacidades más allá de lo que ofrece la interfaz de usuario.
Ejemplo de detección de sesgos
En este ejemplo, al utilizar la API de Watson Machine Learning Python (ibm-watson-machine-learning), la configuración del optimizador para la detección de sesgos se establece con los siguientes datos de entrada, donde:
- nombre - nombre del experimento
- prediction_type: tipo de problema
- prediction_column: nombre de la columna de destino
- fairness_info - Configuración de detección de sesgos
fairness_info = {
"protected_attributes": [
{
"feature": "personal_status",
"reference_group": ["male div/sep", "male mar/wid", "male single"],
"monitored_group": ["female div/dep/mar"]
},
{
"feature": "age",
"reference_group": [[26, 100]],
"monitored_group": [[1, 25]]}
],
"favorable_labels": ["good"],
"unfavorable_labels": ["bad"],
}
from ibm_watson_machine_learning.experiment import AutoAI
experiment = AutoAI(wml_credentials, space_id=space_id)
pipeline_optimizer = experiment.optimizer(
name='Credit Risk Prediction and bias detection - AutoAI',
prediction_type=AutoAI.PredictionType.BINARY,
prediction_column='class',
scoring='accuracy',
fairness_info=fairness_info,
retrain_on_holdout=False
)
Evaluación de los resultados
Puedes consultar los resultados de la evaluación de cada canalización.
- En la página de resumen del experimento, haz clic en el icono de filtro de la tabla de clasificación del Pipeline.
- Selecciona los indicadores de impacto desigual para tu experimento. Esta opción evalúa una métrica general y una métrica para cada grupo supervisado.
- Revisa las métricas del proceso de selección para detectar posibles efectos discriminatorios, ya sea para determinar si existe un problema de sesgo o simplemente para identificar qué proceso ofrece mejores resultados a efectos de una evaluación de equidad.
En este ejemplo, el proceso que obtuvo la primera posición en cuanto a precisión también presenta una puntuación de ingresos dispar que se encuentra dentro de los límites aceptables.

Reducción del sesgo
Si se detecta un sesgo en un experimento, puedes mitigarlo optimizando el experimento mediante el uso de «puntuadores combinados»: accuracy_and_disparate_impact o r2_and_disparate_impact, ambos definidos por el paquete de código abierto LALE.
En el proceso de búsqueda y optimización se utilizan puntuaciones combinadas para obtener modelos justos y precisos.
Por ejemplo, para optimizar la detección de sesgos en un experimento de clasificación:
- Abre la configuración del experimento.
- En la página «Predicciones», selecciona la opción de optimizar la precisión y el impacto desigual en el experimento.
- Vuelve a realizar el experimento.
La métrica de precisión y impacto desigual genera una puntuación combinada que refleja la precisión y la equidad en los experimentos de clasificación. Una puntuación más alta indica mejores resultados y mayores niveles de equidad. Si la puntuación de impacto desigual se encuentra entre 0.9 y 1.11 (un nivel aceptable), se devuelve la puntuación de precisión. De lo contrario, se devuelve un valor de impacto desigual inferior a la puntuación de precisión; un valor más bajo (negativo) indica una brecha de equidad.
Lee esta entrada del blog de Medium sobre la detección de sesgos en AutoAI.