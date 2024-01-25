Todos queremos ver nuestros valores humanos ideales reflejados en nuestras tecnologías. Esperamos que tecnologías como la inteligencia artificial (IA) no nos mientan, no discriminen y que sean seguras para nosotros y nuestros hijos. Sin embargo, muchos creadores de IA se enfrentan actualmente a reacciones violentas por los sesgos, las imprecisiones y las prácticas de datos problemáticas que ponen de manifiesto sus modelos. Estos problemas requieren algo más que una solución técnica, algorítmica o basada en IA. En realidad, se requiere un enfoque holístico y sociotécnico.
Todos los modelos predictivos, incluyendo la IA, son más precisos cuando incorporan inteligencia y experiencia humanas diversas. Esto no es una opinión; tiene validez empírica. Consideremos el teorema de predicción de la diversidad. En pocas palabras, cuando la diversidad en un grupo es grande, el error de la multitud es pequeño, lo que respalda el concepto de “la sabiduría de la multitud”. En un influyente estudio, se demostró que diversos grupos de solucionadores de problemas de baja capacidad pueden superar a grupos de solucionadores de problemas de alta capacidad (Hong & Page, 2004).
En lenguaje matemático: cuanto más amplia sea la varianza, más estándar será la media. La ecuación tiene este aspecto:
Donde
c = la predicción media de la multitud
𝜽= el valor real
si = la predicción del i-ésimo individuo
n = el número de individuos
Otro estudio proporcionó más cálculos que refinan las definiciones estadísticas de un grupo sabio, incluido el desconocimiento de las predicciones de otros miembros y la inclusión de aquellos con predicciones o juicios muy diferentes (correlacionados negativamente). Así que no es solo el volumen, sino la diversidad lo que mejora las predicciones. ¿Cómo podría este conocimiento afectar a la evaluación de modelos de IA?
Para citar un aforismo común, todos los modelos son erróneos. Esto es válido en las áreas de la estadística, la ciencia y la IA. Los modelos creados con falta de experiencia en el dominio pueden conducir a outputs erróneos.
Hoy en día, un pequeño grupo homogéneo de personas determina qué datos usar para entrenar modelos de IA generativa, que provienen de fuentes que sobrerrepresentan ampliamente el inglés. "Para la mayoría de los más de 6000 idiomas del mundo, los datos de texto disponibles no son suficientes para entrenar un modelo fundacional a gran escala" (de "On the Opportunities and Risks of Foundation Models", Bommasani et al., 2022).
Además, los propios modelos se crean a partir de arquitecturas limitadas: “Casi todos los modelos de PNL de última generación ahora se adaptan a partir de uno de los pocos modelos fundacionales, como BERT, RoBERTa, BART, T5, etc. Si bien esta homogeneización produce un aprovechamiento extremadamente alto (cualquier mejora en los modelos fundacionales puede generar beneficios inmediatos en todo el PLN), también es una desventaja; todos los sistemas de IA pueden heredar los mismos sesgos problemáticos de algunos modelos fundacionales (Bommasani et al.)
Para que la IA generativa refleje mejor las diversas comunidades a las que sirve, es necesario representar en los modelos una variedad mucho más amplia de datos de seres humanos.
La evaluación de la precisión del modelo va de la mano con la evaluación del sesgo. Debemos preguntarnos: ¿cuál es la intención del modelo y para quién está optimizado? Piense, por ejemplo, quién obtiene más beneficio de los algoritmos de recomendación de contenido y de los algoritmos de los motores de búsqueda. Las partes interesadas pueden tener intereses y objetivos muy diferentes. Los algoritmos y modelos requieren objetivos o proxies para el error de Bayes: el error mínimo que debe mejorar un modelo. Este proxy suele ser una persona, como un experto en la materia con experiencia en el dominio.
Los nuevos reglamentos y planes de acción sobre la IA subrayan cada vez más la importancia de los formularios algorítmicos de evaluación del impacto. El objetivo de estos formularios es capturar información crítica sobre los modelos de IA para que los equipos de gobierno puedan evaluar y abordar sus riesgos antes de implementarlos. Las preguntas típicas incluyen:
Aunque diseñados con buenas intenciones, el problema es que la mayoría de los propietarios de modelos de IA no entienden cómo evaluar los riesgos para su caso de uso. Un estribillo común podría ser: "¿Cómo podría ser injusto mi modelo si no recopila información de identificación personal (PII)?" Por ello, rara vez se completan los formularios con la reflexión necesaria para que los sistemas de gobierno marquen con precisión los factores de riesgo.
De esta manera se pone de relieve el carácter sociotécnico de la solución. Al propietario de un modelo (un individuo) no se le puede dar simplemente una lista de casillas de verificación para evaluar si su caso de uso causará daño. En cambio, lo que se requiere son grupos de personas con experiencias vividas muy variadas que se reúnan en comunidades que ofrezcan seguridad psicológica para tener conversaciones difíciles sobre impacto dispar.
IBM cree en adoptar un enfoque de "cliente cero", implementando las recomendaciones y los sistemas que haría para sus propios clientes a través de soluciones de consultoría y basadas en productos. Este enfoque se extiende a las prácticas éticas, por lo que IBM creó un centro de excelencia en IA fiable (COE).
Como se ha explicado anteriormente, la diversidad de experiencias y habilidades es crítica para evaluar adecuadamente los impactos de la IA. Pero la perspectiva de participar en un centro de excelencia puede ser intimidante en una empresa repleta de innovadores en IA, expertos e ingenieros distinguidos, por lo que es necesario cultivar una comunidad de seguridad psicológica. IBM lo comunica claramente diciendo: "¿Le interesa la IA? ¿Le interesa la ética de la IA? Tiene un asiento en esta mesa".
El COE ofrece formación en ética de la IA a profesionales de todos los niveles. Se ofrecen tanto programas de aprendizaje síncronos (profesor y alumnos en clase) como asíncronos (autoguiados).
Pero es la formación aplicada del COE la que proporciona a nuestros profesionales los conocimientos más profundos, ya que trabajan con equipos globales, diversos y multidisciplinares en proyectos reales para comprender mejor el impacto dispar. También aprovechan los marcos de pensamiento de diseño que el grupo de Design for AI de IBM utiliza internamente y con los clientes para evaluar los efectos no deseados de los modelos de IA, manteniendo en mente a aquellos que a menudo están marginados. (Véase Wheel of Power and Privilege de Sylvia Duckworth para ejemplos de cómo las características personales se cruzan para privilegiar o marginar a las personas). IBM también donó muchos de los marcos a la comunidad de código abierto Design Ethically.
A continuación se muestran algunos de los informes que IBM ha publicado sobre estos proyectos:
Se requieren herramientas automatizadas de gobierno de modelos de IA para obtener conocimientos importantes sobre cómo está funcionando su modelo de IA. Pero tenga en cuenta que capturar el riesgo mucho antes de que su modelo se haya desarrollado y esté en producción es óptimo. Creando comunidades de profesionales diversos y multidisciplinares que ofrezcan un espacio seguro para que las personas tengan conversaciones difíciles sobre impacto dispar, puede comenzar su camino para operacionalizar sus principios y desarrollar IA de forma responsable.
En la práctica, cuando contrate profesionales de IA, tenga en cuenta que más del 70 % del esfuerzo en la creación de modelos consiste en seleccionar los datos correctos. Quiere contratar a personas que sepan recopilar datos representativos y que también se recopilen con consentimiento. También quiere que las personas que sepan trabajar en estrecha colaboración con los expertos en dominios se aseguren de que tienen el enfoque correcto. Es clave asegurar que estos profesionales tengan la inteligencia emocional necesaria para afrontar el reto de curar la IA de forma responsable con humildad y discernimiento. Debemos aprender a reconocer cómo y cuándo los sistemas de IA pueden exacerbar la inequidad tanto como pueden aumentar la inteligencia humana.
