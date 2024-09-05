Cómo IBM está dando forma al gobierno de la IA en la formación con Smarter Balanced

Niña programando robótica en un ordenador en el aula

El Consorcio de Evaluación Smarter Balanced con sede en California es una organización pública dirigida por sus miembros que proporciona sistemas de evaluación a docentes que trabajan en educación primaria, secundaria y superior. La organización, fundada en 2010, colabora con agencias estatales de formación para desarrollar sistemas innovadores de evaluación de pruebas alineados con los estándares. Smarter Balanced apoya a los educadores con herramientas, lecciones y recursos que incluyen evaluaciones formativas, intermedias y sumativas, que ayudan a los educadores a identificar oportunidades de aprendizaje y fortalecer el aprendizaje de los estudiantes.

Smarter Balanced está comprometido con la evolución y la innovación en un panorama educativo en constante cambio. A través de una colaboración con IBM Consulting, pretende explorar un enfoque basado en principios para el uso de la inteligencia artificial (IA) en evaluaciones educativas. La colaboración se anunció a principios de 2024 y sigue en curso.

Definir el desafío

Las evaluaciones tradicionales de las aptitudes de los alumnos de K-12, incluidos los exámenes estandarizados y las pruebas estructuradas, son criticadas por diversas razones relacionadas con la equidad. Si se implementa de forma responsable, la IA tiene el potencial transformador de ofrecer experiencias personalizadas de aprendizaje y evaluación para mejorar la equidad en las evaluaciones entre poblaciones estudiantiles que incluyen grupos marginados. Por tanto, el reto central es definir cómo es la implementación y gobernanza responsable de la IA en un entorno escolar.

Como primer paso, Smarter Balanced e IBM Consulting crearon un panel asesor multidisciplinario que incluye expertos en medición educativa, inteligencia artificial, ética y política de IA y educadores. El objetivo del panel es desarrollar principios rectores para integrar la precisión y la equidad en el uso de la IA para la medición educativa y los recursos de aprendizaje. Algunas de las consideraciones del panel asesor se detallan a continuación.

Diseño 3D de bolas rodando por un circuito

Liderando con un diseño centrado en el ser humano

El uso de marcos de pensamiento de diseño ayuda a las organizaciones a diseñar un enfoque centrado en el ser humano para la implementación de la tecnología. Tres principios centrados en el ser humano guían el pensamiento de diseño: un enfoque en los resultados del usuario, la reinvención inquieta y el empoderamiento de equipos diversos. Este marco ayuda a garantizar que los stakeholders estén estratégicamente alineados y respondan a los requisitos de gobernanza organizacional funcional y no funcional. El pensamiento de diseño permite a los desarrolladores y a las partes interesadas comprender en profundidad las necesidades de los usuarios, idear soluciones innovadoras y crear prototipos de forma iterativa.

Esta metodología es inestimable para identificar y evaluar los riesgos en una fase temprana del proceso de desarrollo y facilitar la creación de modelos de IA fiables y eficaces. Al interactuar continuamente con diversas comunidades de expertos en dominios y otras partes interesadas e incorporar sus comentarios, el pensamiento de diseño ayuda a crear soluciones de IA tecnológicamente sólidas, socialmente responsables y centradas en el ser humano.

Incorporación de la diversidad

Para el proyecto Smarter Balanced, los equipos combinados crearon un think tank que incluía a un conjunto diverso de expertos en la materia y líderes de opinión. Este grupo estaba formado por expertos en los campos de la evaluación educativa y el derecho, personas neurodivergentes, estudiantes, personas con problemas de accesibilidad y otros.

"El think tank sobre IA de Smarter Balanced se trata de garantizar que la IA sea fiable y responsable, y que nuestra IA mejore las experiencias de aprendizaje de los estudiantes", dijo Charlotte Dungan, miembro del think tank, arquitecta del programa de AI Bootcamps para la Fundación Mark Cuban.

El objetivo del think tank no es simplemente incorporar la experiencia, los puntos de vista y las experiencias vividas de sus miembros en el marco de gobierno de una sola vez, sino de forma iterativa. El enfoque refleja un principio clave de la ética de la IA en IBM: el propósito de la IA es aumentar la inteligencia humana, no reemplazarla. Los sistemas que incorporan aportaciones, evaluaciones y revisiones continuas por parte de diversas partes interesadas pueden fomentar mejor la confianza y promover resultados equitativos, creando en última instancia un entorno educativo más inclusivo y eficaz.

Estos sistemas son cruciales para crear evaluaciones educativas justas y eficaces en los centros de primaria. Los equipos diversos aportan una amplia gama de perspectivas, experiencias y conocimientos culturales esenciales para desarrollar modelos de IA que sean representativos de todos los estudiantes. Esta inclusión ayuda a minimizar los sesgos y a crear sistemas de IA que no perpetúen inadvertidamente las desigualdades ni pasen por alto las necesidades únicas de los diferentes grupos demográficos. Esto refleja otro principio clave de la ética de la IA en IBM: la importancia de la diversidad en la IA no es una opinión, es matemática.

Explorar los valores centrados en el alumno

Uno de los primeros esfuerzos que Smarter Balanced e IBM Consulting emprendieron como grupo fue determinar los valores humanos que queremos ver reflejados en los modelos de IA. Esta no es una cuestión ética nueva y, por lo tanto, llegamos a un conjunto de valores y definiciones que se corresponden con los pilares de la IA de IBM, o propiedades fundamentales para una IA fiable:

  • Explicabilidad: tener funciones y resultados que puedan explicarse de forma no técnica
  • Equidad: tratar a las personas de forma equitativa
  • Robustez: seguridad y fiabilidad, resistencia a ataques adversariales
  • Transparencia: divulgación del uso, la funcionalidad y la utilización de datos de la IA
  • Privacidad de datos: divulgación y protección de la privacidad y los derechos de datos de los usuarios

Operacionalizar estos valores en cualquier organización es un desafío. En una organización que evalúa las habilidades de los estudiantes, el listón es aún más alto. Pero los beneficios potenciales de la IA hacen que este trabajo valga la pena: "Con la IA generativa, tenemos la oportunidad de involucrar mejor a los estudiantes, evaluarlos con precisión con feedback oportuno y que se puede ejecutar, y desarrollar habilidades del siglo XXI que se mejoran activamente con herramientas de IA, incluyendo creatividad, pensamiento crítico, estrategia de comunicación, aprendizaje socioemocional y mentalidad de crecimiento", dijo Dungan. El siguiente paso, ya en marcha, es explorar y definir los valores que guiarán el uso de la IA en la evaluación de niños y jóvenes aprendices.

Las preguntas a las que se enfrentan los equipos incluyen:

  • ¿Qué barreras basadas en valores son necesarias para fomentar estas habilidades de forma responsable?
  • ¿Cómo se operacionalizarán y gobernarán, y quién debería ser responsable?
  • ¿Qué instrucciones damos a los profesionales que construyen estos modelos?
  • ¿Qué requisitos funcionales y no funcionales son necesarios y a qué nivel de fuerza?

Explorar las capas de efecto y el impacto dispar

Para este ejercicio, adoptamos un marco de design thinking llamado Layers of Effect, uno de varios marcos que IBM Design for IA ha donado a la comunidad de código abierto Design Ethically. El marco Layers of Effect pide a las partes interesadas que consideren los efectos primarios, secundarios y terciarios de sus productos o experiencias.

  • Los efectos primarios describen los efectos previstos y conocidos del producto, en este caso un modelo de IA. Por ejemplo, el efecto principal de una plataforma de redes sociales podría ser conectar a los usuarios en torno a intereses similares.
  • Los efectos secundarios son menos intencionados, pero pueden pasar rápidamente a ser relevantes para las partes interesadas. Siguiendo con el ejemplo de las redes sociales, un efecto secundario podría ser el valor de la plataforma para los anunciantes.
  • Los efectos terciarios son efectos no deseados o imprevistos que se hacen evidentes con el tiempo, como la tendencia de una plataforma de redes sociales a recompensar las publicaciones enfurecidas o las falsedades con más visitas.

Para este caso de uso, el efecto principal (deseado) del sistema de evaluación de pruebas mejorado por IA es una herramienta más equitativa, representativa y eficaz que mejora los resultados de aprendizaje en todo el sistema educativo.

Los efectos secundarios podrían incluir el aumento de la eficiencia y la recopilación de datos relevantes para ayudar a asignar mejor los recursos donde más se necesitan.

Los efectos terciarios son posiblemente conocidos e involuntarios. Aquí es donde las partes interesadas deben explorar cómo podrían ser los posibles daños no intencionados.

Los equipos identificaron cinco categorías de posibles daños de alto nivel:

  • Consideraciones de sesgo perjudicial que no tienen en cuenta ni apoyan a los estudiantes de poblaciones vulnerables que pueden necesitar recursos y perspectivas adicionales para satisfacer sus diversas necesidades.
  • Problemas relacionados con la ciberseguridad y la información de identificación personal (PII) en sistemas escolares que no cuentan con procedimientos adecuados para sus dispositivos y redes.
  • Falta de gobernanza y medidas de protección que garanticen que los modelos de IA sigan comportándose de la manera prevista.
  • Falta de comunicaciones adecuadas a padres, estudiantes, profesores y personal administrativo sobre el uso previsto de los sistemas de IA en las escuelas. Estas comunicaciones deben describir las protecciones contra el uso inapropiado y la agencia, como la forma de darse de baja.
  • Una conectividad limitada fuera del campus que podría reducir el acceso a la tecnología y el consiguiente uso de la IA, especialmente en las zonas rurales.

Aplicadas inicialmente en casos legales, las evaluaciones del impacto dispar ayudan a las organizaciones a identificar posibles sesgos. Estas evaluaciones exploran cómo las políticas y prácticas aparentemente neutras pueden afectar de forma desproporcionada a individuos de clases protegidas, como aquellos susceptibles de sufrir discriminación por motivos de raza, religión, género y otras características. Estas evaluaciones han demostrado su eficacia en el desarrollo de políticas relacionadas con la contratación, los préstamos y la atención sanitaria. En nuestro caso de uso de formación, buscamos considerar cohortes de estudiantes que podrían experimentar resultados inequitativos en las evaluaciones debido a sus circunstancias.

Los grupos identificados como más susceptibles a posibles daños incluyeron:

  • Los que tienen problemas de salud mental
  • Aquellos que provienen de entornos socioeconómicos más variados, incluidos aquellos que no tienen vivienda
  • Aquellos cuyo idioma dominante no es el inglés
  • Aquellos con otras consideraciones culturales no lingüísticas
  • Aquellos que son neurodivergentes o tienen problemas de accesibilidad

Como colectivo, nuestro próximo conjunto de ejercicios es utilizar más marcos de pensamiento de diseño, como la piratería informática ética, para explorar cómo mitigar estos daños. También detallaremos los requisitos mínimos para las organizaciones que buscan utilizar la IA en las evaluaciones de los estudiantes.

En conclusión

Esta es una conversación más amplia que solo IBM y Smarter Balanced. Publicamos nuestro proceso porque creemos que quienes experimentan con nuevos usos de la IA deben tener en cuenta los efectos no deseados de sus modelos. Queremos ayudar a garantizar que los modelos de IA que se están construyendo para la formación satisfagan las necesidades no solo de unos pocos, sino de la sociedad en su conjunto, con toda su diversidad.

"Vemos esto como una oportunidad para utilizar un enfoque basado en principios y desarrollar valores centrados en el estudiante que ayudarán a la comunidad de medición educativa a adoptar una IA fiable. Al detallar el proceso que está utilizando esta iniciativa, esperamos ayudar a las organizaciones que están considerando evaluaciones con IA a tener conversaciones mejores y más granulares sobre el uso de la IA responsable en la medición educativa. 

- Rochelle Michel, directora ejecutiva adjunta de programas, Smarter Balanced.

 
