A veces, como científicos de datos, estamos tan decididos a construir un modelo perfecto que podemos incluir involuntariamente sesgos humanos en nuestros modelos. A menudo el sesgo se infiltra a través de los datos de entrenamiento y luego se amplifica e integra en el modelo. Si dicho modelo entra en un ciclo de producción, puede tener algunas implicaciones graves dirigidas por sesgos como la predicción falsa de la puntuación crediticia o el examen de salud. En varios sectores, los requisitos reglamentarios de equidad de los modelos y una IA fiable tienen como objetivo evitar que modelos sesgados entren en los ciclos de producción.
Para ser un científico de datos responsable, hay dos consideraciones clave a la hora de crear una canalización de modelos:
Detectar y definir el sesgo y la injusticia no es fácil. Para ayudar a los científicos de datos a reflexionar e identificar posibles preocupaciones éticas, el proceso estándar de minería de datos debería incluir tres pasos adicionales: evaluación del riesgo de datos, evaluación de riesgos de modelos y monitorización de la producción.
Este paso permite a un científico de datos evaluar si existen desequilibrios entre diferentes grupos de personas respecto a la variable objetivo. Por ejemplo, todavía observamos que los hombres son aceptados en puestos directivos con mayor frecuencia que las mujeres. Pero todos sabemos que es ilegal ofrecer un trabajo basado en el género, por lo que para equilibrar el modelo se podría argumentar que el género no debería importar y podría eliminarse. Pero, ¿en qué más podría influir eliminando el género? Antes de actuar, este paso debe examinarse con los expertos adecuados para determinar si las comprobaciones actuales son suficientes para mitigar el posible sesgo del modelo.
El objetivo de equilibrar los datos es imitar la distribución de los datos utilizados en la producción, es decir, garantizar que los datos de entrenamiento sean lo más parecidos posible a los datos utilizados en tiempo real en el entorno de producción. Por tanto, aunque la reacción inicial sea eliminar la variable sesgada, es poco probable que este enfoque resuelva el problema. A menudo las variables están correlacionadas y el sesgo puede colarse a través de uno de los campos correlacionados, viviendo como un sustituto indirecto en el modelo. Por lo tanto, todas las correlaciones deben examinarse antes de eliminar el sesgo para garantizar que realmente se elimine.
Las predicciones de los modelos tienen implicaciones inmediatas y graves; de hecho, pueden cambiar la vida de alguien por completo. Si un modelo predice que tiene una puntuación de crédito baja, podría afectar a todo en su vida, ya que tiene dificultades para obtener tarjetas de crédito y préstamos, encontrar vivienda y obtener tipos de interés razonables. Además, si no encuentra una razón detrás de la puntuación baja, no hay oportunidad de mejorar.
El trabajo del científico de datos es asegurar que un modelo ofrezca el resultado más justo para todos. Si los datos están sesgados, el modelo aprenderá de ese sesgo y hará predicciones injustas. Los modelos de caja negra proporcionan grandes resultados, pero con poca interpretabilidad y explicabilidad, lo que hace imposible comprobar si hay señales de alerta para garantizar la imparcialidad. Por lo tanto, es necesario analizar en profundidad los resultados del modelo. El científico de datos debe evaluar el equilibrio entre interpretabilidad y rendimiento del modelo y seleccionar modelos que mejor cumplan ambos requisitos.
Una vez que los científicos de datos desarrollan un modelo, a menudo se entrega al equipo de MLOps. Cuando los datos del nuevo modelo se ponen en producción, pueden generar una nueva posibilidad de sesgo o aumentar el sesgo que antes se pasaba por alto sin una supervisión adecuada. Los datos de producción pueden provocar deriva en el rendimiento o la consistencia, e infundir sesgo en el modelo y los datos. Es muy importante monitorizar los modelos introduciendo alertas adecuadas que indiquen la disminución del rendimiento del modelo y un mecanismo para decidir cuándo retirar un modelo que ya no es apto para su uso utilizando una herramienta como IBM watsonx Studio. Una vez más, la calidad de los datos debe controlarse comparando la distribución de los datos de producción con los datos utilizados para entrenar el modelo.
La ciencia de datos responsable implica pensar en el modelo más allá del código y el rendimiento, y se ve enormemente afectada por los datos con los que se trabaja y su fiabilidad. En última instancia, mitigar los sesgos es un proceso delicado, pero crucial, que ayuda a garantizar que los modelos siguen los procesos humanos correctos. Esto no significa que haya que hacer nada nuevo, pero es importante repensar y replantear lo que ya hacemos como científicos de datos para asegurarnos de que se hace de forma responsable.
