A veces, como científicos de datos, estamos tan decididos a construir un modelo perfecto que podemos incluir involuntariamente sesgos humanos en nuestros modelos. A menudo el sesgo se infiltra a través de los datos de entrenamiento y luego se amplifica e integra en el modelo. Si dicho modelo entra en un ciclo de producción, puede tener algunas implicaciones graves dirigidas por sesgos, como la predicción falsa de la puntuación crediticia o el examen de estado. En diversas industrias, los requisitos normativos para la equidad de los modelos y la IA confiable tienen como objetivo evitar que los modelos con sesgo ingresen en los ciclos de producción.
Para ser un científico de datos responsable, hay dos consideraciones clave al crear un pipeline de modelos:
Detectar y definir el sesgo y la injusticia no es fácil. Para ayudar a los científicos de datos a reflexionar e identificar posibles preocupaciones éticas, el proceso estándar para la minería de datos debe incluir 3 pasos adicionales: evaluación de riesgos de datos, evaluación de riesgos de modelos y monitoreo de producción.
Este paso permite a un científico de datos evaluar si existe algún desequilibrio entre los diferentes grupos de personas con respecto a la variable objetivo. Por ejemplo, seguimos observando que los hombres son aceptados en puestos directivos con más frecuencia que las mujeres. Pero todos sabemos que es ilegal ofrecer un trabajo basado en el género, por lo que para equilibrar el modelo se podría argumentar que el género no debería importar y podría eliminarse. Pero, ¿qué más podría afectar eliminando el género? Antes de actuar, este paso debe examinarse con los expertos adecuados para determinar si las comprobaciones actuales son suficientes para mitigar el posible sesgo en el modelo.
El objetivo de equilibrar los datos es imitar la distribución de los datos utilizados en la producción; esto es para garantizar que los datos de entrenamiento sean lo más parecidos posible a los datos utilizados en tiempo real en el entorno de producción. Por lo tanto, aunque la reacción inicial sea descartar la variable con sesgo, es poco probable que este enfoque resuelva el problema. A menudo, las variables están correlacionadas y el sesgo puede colarse a través de uno de los campos correlacionados, actuando como sustituto en el modelo. Por lo tanto, todas las correlaciones deben analizarse antes de eliminar el sesgo para garantizar que realmente se elimine.
Las predicciones de los modelos tienen implicaciones inmediatas y graves; de hecho, pueden cambiar la vida de alguien por completo. Si un modelo predijera que tienes una puntuación crediticia baja, esto podría afectar a todos los aspectos de tu vida, ya que tendrías dificultades para obtener tarjetas de crédito y préstamos, encontrar vivienda y conseguir tasas de interés razonables. Además, si no se conoce el motivo de la baja puntuación, no hay oportunidad de mejorar.
El trabajo del científico de datos es asegurar que un modelo dé el resultado más justo para todos. Si los datos tienen sesgo, el modelo aprenderá de ese sesgo y hará predicciones injustas. Los modelos de caja negra proporcionan excelentes resultados, pero con poca interpretabilidad y explicabilidad, lo que hace imposible verificar si hay señales de alerta para garantizar la imparcialidad. Por lo tanto, es necesario profundizar en los resultados del modelo. El científico de datos debe evaluar el equilibrio entre interpretabilidad y rendimiento del modelo y seleccionar modelos que mejor cumplan ambos requisitos.
Una vez que los científicos de datos desarrollan un modelo, a menudo se entrega al equipo de MLOps. Cuando los datos del nuevo modelo se ponen en producción, pueden traer una nueva posibilidad de sesgo o mejorar el sesgo que anteriormente se pasaba por alto sin un monitoreo adecuado. Los datos de producción pueden provocar deriva en el rendimiento o la consistencia, e infundir sesgo en el modelo y los datos. Es muy importante monitorear los modelos introduciendo alertas adecuadas que indiquen el deterioro del rendimiento del modelo y un mecanismo para decidir cuándo retirar un modelo que ya no es apto para su uso mediante una herramienta como IBM Watson Studio. Nuevamente, la calidad de los datos debe rastrearse comparando la distribución de datos de producción con los datos utilizados para entrenar el modelo.
La ciencia de datos responsable implica pensar en el modelo más allá del código y el rendimiento, y se ve enormemente afectada por los datos con los que se trabaja y su fiabilidad. En última instancia, mitigar el sesgo es un proceso delicado pero crucial que ayuda a garantizar que los modelos sigan los procesos humanos correctos. Esto no significa que deba hacer nada nuevo, pero es importante repensar y replantear lo que nosotros, como científicos de datos, ya hacemos para garantizar que se haga de manera responsable.
