Este otoño, LinkedIn lanzó su primer agente de IA para reclutadores: Hiring Assistant. El nuevo producto, impulsado por GPT de OpenAI, automatiza una serie de tareas que normalmente consumirían el tiempo de un reclutador, como la elaboración de descripciones de puestos, la búsqueda de candidatos y la gestión de la divulgación. Utilizando el vasto tesoro de datos de usuarios de LinkedIn, la herramienta prioriza las habilidades sobre los filtros tradicionales, que suelen clasificar a los candidatos en función de factores como la ubicación o el alma mater.
Hiring Assistant es la última entrada en el vasto y variado campo de la IA diseñada para el reclutamiento: existen herramientas de Microsoft, Indeed, Google, IBM y muchos otros. Y hay una demanda para ello: una encuesta reciente de IBM encontró que las necesidades de recursos humanos y adquisición de talento representan el 19 % de los casos de uso que impulsan la adopción de la IA. Como muchos de sus colegas, LinkedIn es consciente de los posibles sesgos de su nueva herramienta y afirma que trabajará para mitigarlos. ¿Pero será suficiente?
“[HR Assistant] es una gran idea, pero necesitamos transparencia y saber qué habilidades o palabras clave en la descripción del puesto la herramienta infiere”, dice Hilke Schellmann, periodista y autora de El algoritmo: Cómo la IA decide quién es contratado, monitoreado, promovido y despedido y por qué debemos luchar ahora. “Hemos visto demasiados errores en este tipo de tecnología”.
A medida que crece el uso de herramientas de reclutamiento impulsadas por IA, las legislaturas estatales y de las ciudades están comenzando a tomar nota. La ciudad de Nueva York ahora exige a las empresas que revelen el rendimiento de los sistemas de contratación basados en IA y que realicen auditorías de sesgos. En California, una nueva ley protege contra la discriminación basada en identidades interseccionales (aunque no especifica la IA). Y el Departamento de Trabajo de Estados Unidos ha creado una infraestructura para ayudar a los empleadores a promover la contratación inclusiva a medida que crece el uso de estas herramientas.
Kyra Wilson, estudiante de doctorado en la Escuela de Información de la Universidad de Washington, está interesada en investigar cómo las herramientas de contratación de IA podrían discriminar entre diversas ocupaciones y grupos sociales. Recientemente, dirigió un estudio en el que se analizaron 554 currículos y 571 descripciones de puestos de trabajo, con nombres alterados para representar diferentes géneros y razas. "Queríamos ver si estas herramientas podrían perjudicar injustamente a ciertos candidatos", dice Wilson.
Los investigadores probaron tres LLM de código abierto de Salesforce, Contextual IA y Mistral IA. Lo que encontraron fue sorprendente: a pesar de controlar calificaciones como la experiencia y la educación, los modelos seguían favoreciendo desproporcionadamente a los candidatos con nombres asociados a blancos el 85 % de las veces, y a aquellos con nombres asociados a mujeres solo el 11 % de las veces. Y descubrieron que los modelos no solo replicaban los sesgos sociales existentes, sino que también introducían nuevos patrones.
"Los modelos que utilizamos no se ajustaron a ningún conjunto de datos específico del dominio, por lo que observamos que los sesgos sociales generales que favorecían a las personas blancas y masculinas también comenzaron a ocurrir en puestos que no suelen estar asociados con estos grupos", dice Wilson. "El uso de estos modelos a escala podría tener el potencial de cambiar los patrones sociales de empleo de manera negativa".
Los sesgos vinculados a la interseccionalidad (en este caso, superposiciones entre raza y género) también surgieron en los resultados, particularmente para los hombres negros, que estaban en desventaja hasta en el 100 % de los casos. "La interseccionalidad fue una parte importante de nuestra investigación porque es una mejor representación de cómo se discrimina a las personas en la vida real", dijo Wilson. "Las personas no perciben características como el género y la raza de forma aislada, por lo que estudiarlas de forma aislada no necesariamente proporciona una imagen completa de los verdaderos impactos sociales de estos sistemas".
Si bien la investigación de Wilson solo investigó identidades señaladas por nombres, señaló que en el mundo real, las personas pueden señalar sus identidades a través de premios que han recibido, lugares en los que han vivido e incluso las palabras que usan en sus currículos. Todos estos factores podrían desempeñar un papel en la forma en que la IA los evalúa, y debido a que muchos de ellos también son relevantes para distinguir a los candidatos fuertes, no se pueden eliminar fácilmente durante los comentarios (como se puede hacer con los nombres) sin deshacerse de información importante .
"Aprender más sobre cómo estos factores pueden señalar identidades que se cruzan y si eso desempeña un papel en la evaluación de la IA es un siguiente paso importante para los investigadores y desarrolladores de modelos", dice Wilson.
Después de todo, los datos son la base sobre la que se construyen estos modelos de IA. Y según el científico investigador sénior de IBM Moninder Singh, es donde se introducen la mayoría de los sesgos, ya sean implícitos o explícitos, históricos o sociales. La forma más eficaz de mitigar el sesgo en cualquier tipo de herramienta de IA es abordar estos problemas desde el principio de la etapa de entrenamiento de LLM (y, si procede, durante los ajustes finos posteriores).
Singh explica que para la mayoría de las organizaciones que construyen herramientas basadas en IA, como las utilizadas por los reclutadores, abordar el sesgo no siempre es factible a nivel fundacional. Pocas empresas tienen los recursos para entrenar sus propios LLM, por lo que suelen confiar en modelos previamente entrenados como GPT de OpenAI o PaLM de Google y ajustarlos para casos de uso específicos. Sin embargo, este ajuste fino solo puede llegar hasta cierto punto, dice Singh. En la práctica, la mitigación de sesgos a menudo ocurre a nivel de datos, con empresas que adaptan los LLM a sus conjuntos de datos específicos, que a su vez están determinados por los datos a los que tienen acceso.
"A pesar de emplear las mejores prácticas y el ajuste con cantidades potencialmente enormes de datos que son relevantes para la tarea específica, como la contratación, los sesgos seguirán apareciendo cuando los sistemas se apliquen en la vida real", dice Singh.
A nivel de salida, explica Singh, las compañías pueden implementar una variedad de estrategias para detectar y mitigar los sesgos a medida que surgen en tiempo real. Por ejemplo, las herramientas de contratación de IA pueden generar una lista corta de candidatos, y las empresas pueden evaluar esas recomendaciones para determinar si son imparciales, lo que exige la nueva ley de la ciudad de Nueva York. Si se detecta un sesgo, por ejemplo, un grupo se clasifica constantemente por debajo de otros, los desarrolladores pueden ajustar el modelo refinando los datos de entrenamiento o utilizando técnicas de posprocesamiento para volver a ponderar las recomendaciones.
Los métodos de posprocesamiento también se pueden utilizar para ajustar las puntuaciones o clasificaciones con el fin de que sean más justas sin afectar negativamente al rendimiento general del sistema, explica Singh. Herramientas como AI Fairness 360 de IBM, una suite de código abierto para la detección y mitigación de sesgos, proporcionan un conjunto de técnicas para hacer precisamente eso. IBM también está trabajando en la detección de sesgos a través de modelos como Granite Guardian 3.0, que está ajustado para identificar riesgos de sesgos en el contenido generado por IA.
Estos modelos se pueden utilizar para evaluar los resultados, como las clasificaciones de currículums, generando explicaciones para las decisiones y verificando si aparecen indicadores de sesgo en esas explicaciones. Del mismo modo, el kit de herramientas watsonx.governance de IBM permite la gobernanza de modelos generativos, incluida la detección de sesgos, desplegados en la plataforma watsonx. Y el punto de referencia SocialStigmaQA de IBM prueba los LLM en busca de sesgos relacionados con estigmas que a menudo se pasan por alto en las pruebas de sesgo tradicionales, pero que pueden ser críticos en aplicaciones sensibles como la contratación, como las relacionadas con el estado mental o el consumo de drogas.
"A pesar de los mejores esfuerzos por parte del desarrollador de un sistema basado en IA, como una herramienta de contratación, para eliminar el sesgo, es importante tener en cuenta que no puede dar direcciones a situaciones específicas de cada usuario final, especialmente si ese usuario final tampoco lo hace. tenga cuidado de no magnificar o introducir sesgos a ese nivel”, dice Singh. "Un usuario final de una herramienta de contratación debe aportar diversidad en cada paso".
