La gobernanza de la IA es la capacidad de monitorizar y gestionar las actividades de IA dentro de una organización. Incluye procesos y procedimientos para rastrear y documentar el origen de los datos y modelos desplegados dentro de la empresa; así como las técnicas utilizadas para entrenar, validar y monitorizar la precisión continua de los modelos. Una gobernanza de la IA eficaz ofrece tres resultados principales para las empresas:
Cumplimiento. Ayudamos a garantizar que las soluciones de IA y las decisiones generadas por IA sean coherentes con las prácticas aceptadas por las industrias, los estándares regulatorios y los requisitos legales.
Confianza. Permitir que se confíe en las decisiones tomadas por la IA ayudando a garantizar que los modelos de IA sean explicables y justos.
Eficiencia. Mejorar la velocidad de comercialización y reducir los costos de desarrollo de IA mediante la estandarización y optimización de las prácticas de desarrollo y despliegue de IA.
Las empresas que no adoptan la gobernanza de la IA corren el riesgo de tener múltiples consecuencias negativas. El proceso de machine learning es iterativo y requiere colaboración. Sin una buena gobernanza y documentación, los científicos de datos o los validadores no pueden estar seguros del linaje de los datos de un modelo o de cómo se creó el modelo. Lograr resultados puede ser difícil de reproducir. Si los administradores entrenan un modelo con datos incorrectos o incompletos, podrían destruirse meses de trabajo.
La falta de gobernanza de la IA también puede resultar en sanciones importantes. A los operadores bancarios se les han impuesto multas de siete cifras por utilizar modelos con sesgo a la hora de determinar la aptitud para el préstamo. La UE planea añadir regulaciones de IA al Reglamento General de Protección de Datos (RGPD). Las infracciones del RGPD actualmente pueden "dar lugar a una multa de hasta 20 millones de euros, o el 4 % de los ingresos anuales mundiales de la empresa del año financiero anterior, la cantidad que sea mayor".
La reputación de la marca también está en riesgo. Un experimento utilizó software de IA para aprender los patrones de habla de los jóvenes en las redes sociales. Los funcionarios administrativos eliminaron el software rápidamente después de que los trolls de Internet "enseñaran" la herramienta a crear publicaciones racistas, sexistas y antisemitas.
El diagrama anterior muestra los componentes principales de una solución de gobernanza de la IA para una solución de IA generativa que utiliza modelos de lenguaje grandes (LLM).
La gobernanza de modelos es el centro de intercambio de información para el gobierno de la IA. Proporciona paneles de control, informes y capacidades de alerta utilizados por el personal de la empresa para garantizar, auditar e informar de que los modelos de IA cumplen los requisitos de imparcialidad, transparencia y cumplimiento. El componente de gobierno de modelos también permite a las empresas establecer criterios de paso y otras políticas que afectan a cuándo y cómo los modelos mover del desarrollo a la producción.
El monitoreo de modelos supervisa activamente el resultado de los modelos para garantizar que los modelos sean explicables, justos y cumplan con las normativas, y que sigan siéndolo cuando se despliegan. Si los modelos comienzan a desviarse o a mostrar sesgos en sus resultados, el componente de monitorización de modelos los marca para que el personal de operaciones de IA los investigue.
El siguiente diagrama muestra las interacciones de los componentes de alto nivel para la gobernanza de la IA empresarial.
Los miembros del equipo de gobierno empresarial utilizan el componente de gobierno de modelos para (i) visualizar los modelos de IA (fundacionales y no fundacionales) desplegados dentro de la empresa a través de infraestructura privada, hiperescaladores y plataformas basadas en la nube, y (ii) establecer criterios operativos mínimos y otras políticas para que los modelos se implementen y operen dentro de la empresa. Los criterios y controles de políticas se propagan al componente de monitoreo de modelos para su posterior monitorización y alerta.
Un desarrollador de modelos sintoniza un modelos de lenguaje grandes (LLM) y evalúa la respuesta del modelo a los mensajes de prueba. Los resultados de estas pruebas, junto con las estadísticas resumidas, se capturan y propagan al componente de monitorización de modelos, donde se registran para proporcionar el linaje de modelos y datos.
Un validador de modelos revisa los resultados de la puesta a punto y las pruebas y, con la ayuda del componente de monitorización de modelos, los compara con los criterios y controles establecidos por el equipo de gobierno de la empresa. Una vez que se cumplen los criterios y controles, el modelo se aprueba para su uso en producción.
Un desarrollador de modelos usa el componente de monitoreo de modelos para supervisar el rendimiento del modelo con el tiempo; específicamente, el desarrollador busca asegurar que las respuestas del modelo continúen cumpliendo con los criterios de la empresa en cuanto a equidad (falta de sesgo), precisión (respuestas correctas) y transparencia (respuestas explicables).
El componente de monitorización de modelos supervisa continuamente los modelos de IA desplegados (modelos fundacionales/generativos, así como modelos de machine learning "tradicionales") para capturar estadísticas de precisión y rendimiento.
El componente de monitoreo del modelo también captura las instrucciones del usuario y las respuestas del modelo para (i) proteger aún más contra la desviación del modelo (desviaciones en el sesgo y/o la precisión del modelo) y (ii) capturar datos de prueba y ayudar a identificar áreas temáticas o dominios de datos donde el ajuste adicional será beneficioso.
La correlación actual de IBM watsonx.governance, y las soluciones de IBM OpenPages para el modelo conceptual se muestran en el diagrama siguiente. watsonx.governance monitorea en tiempo de ejecución los modelos fundacionales que se ejecutan en el kit de herramientas integrales de watsonx.ai, on-premises, en infraestructuras basadas en la nube o en plataformas de IA de terceros como Amazon Sagemaker. watsonx.governance también proporciona capacidades para crear, actualizar y gestionar tarjetas modelo, conocidas como hojas de datos de IA dentro de watsonx.governance, y capturar e informar sobre las métricas de rendimiento del modelo. El módulo Model Risk Management de IBM OpenPages proporciona las capacidades de gestión e informes de riesgos, y las capacidades de desarrollo de modelos y gestión de políticas de despliegue del gobierno de modelos.
En un futuro próximo, watsonx.governance proporcionará las capacidades tanto de gobierno de modelos como de monitoreo de modelos
La gobernanza de las soluciones de IA generativa es similar al gobierno de los modelos de IA "tradicionales", pero sus capacidades generativas requieren una gestión más estricta de las entradas y salidas de los modelos que los modelos tradicionales, a fin de protegerse contra instrucciones inapropiadas o malintencionadas y garantizar que los modelos produzcan salidas aceptables y objetivamente correctas. Esta sección ilustra cómo se aplica IBM watsonx.governance a los modelos fundacionales en dos casos de uso principales: gestión del ciclo de vida del modelo, y riesgo del modelo y cumplimiento normativo.
El diagrama anterior ilustra cómo se emplea watsonx.governance para gestionar el ciclo de vida del modelo desde las pruebas y la validación iniciales hasta el despliegue.
Un desarrollador de modelos ajusta un modelo en la solución local de watsonx.ai, el servicio watsonx.ai o en otra plataforma on-premises o basada en la nube y desarrolla y prueba instrucciones con él.
Las instrucciones y los datos de respuesta del modelo, junto con las métricas de rendimiento del modelo como ROUGE, SARI, Chrf y BLEU, se capturan en watsonx.governance Modele la funcionalidad de gestión de inventario. Se capturan varias versiones de los datos de instrucción y respuesta para permitir la comparación cruzada y la selección de un modelo y una combinación de instrucción que mejor se adapte a los requisitos de la compañía.
Un validador de modelos revisa los resultados de la instrucción individual y las combinaciones de modelos y selecciona una versión para aprobar su despliegue a producción.
Los desarrolladores de modelos utilizan la misma capacidad para realizar un seguimiento de las combinaciones de modelo/instrucción y su rendimiento para casos de uso empresariales específicos.
A continuación se muestra el tutorial de componentes para el riesgo de modelo y el cumplimiento normativo dentro de watsonx.governance.
Los miembros del equipo de Gobernanza de la IA de la empresa determinan y establecen criterios, especificados como variaciones mínimas, máximas y permitidas de métricas de modelos como ROUGE, que deben cumplir los modelos en producción. Estos criterios se establecen dentro de la herramienta IBM OpenPages Model Risk Management y posteriormente se propagan a watsonx.governance.
Una instrucción del desarrollador de modelos ajusta y desarrolla solicitudes de prueba contra un modelo fundacional implementado dentro de la solución on-premise de watsonx.ai, el servicio watsonx.ai, o en otra solución on-premise o basada en la nube como Sagemaker.
La información de instrucción y los datos de respuesta del modelo, junto con las métricas de rendimiento del modelo, se propagan a watsonx.governance, donde las métricas se comparan con los umbrales establecidos por el equipo de gobernanza.
Los resultados de la comparación de métricas se propagan a IBM OpenPages para que el equipo de gobernanza los revise y genere comentarios. En concreto, si la combinación de instrucción y modelo cumple todos los criterios establecidos, puede marcar como lista para producción o como sin riesgos. Si el modelo cumple solo algunos de los criterios, puede marcar como potencialmente de bajo rendimiento y aún no apto para producción, dependiendo de qué tan estricta estableció la política el equipo de gobernanza.
Garantice un mecanismo para hacer operativa la IA con confianza. Es crítico evaluar el modelo durante el desarrollo y el despliegue para que las respuestas de los LLM no sean el resultado de alucinaciones y carezcan de palabras malsonantes que inciten al odio. Asegúrese de que las respuestas del LLM sean explicables, éticas, confiables y sin sesgo. Las métricas de calidad del LLM son muy diferentes a las de los modelos de IA tradicionales, puesto que el científico de datos puede elegir las métricas correctas de forma coherente.
Las soluciones de IA generativa desplegadas deben ser coherentes, sin ningún sesgo o deriva introducida a lo largo del tiempo. No es raro ver a una empresa utilizando una variedad de LLM a través de varias nubes, lo que permite el gobierno centralizado en todos los ámbitos es crítico. Tener un enfoque de gobernanza en varios entornos de despliegue en varias nubes es una consideración clave.
Garantizar que las aplicaciones de IA generativa implementadas sean actuales y cumplan con las regulaciones de sectores en constante evolución. Obtención de visibilidad de todos los modelos y la salud implementados por la empresa en una vista única.
Asegúrese de que no se utilicen blasfemias de abuso de odio en los datos de entrenamiento. También puede indemnizar a la compañía por cualquier uso de datos de propiedad mientras garantiza que no se filtren datos PII o IP. Poder auditar y obtener el linaje de datos para la solución de IA generativa es clave.
Describe cómo se despliega un modelo RAG de extremo a extremo con capacidades de monitoreo y gobernanza durante todo el ciclo de vida. Además del componente de gobierno de modelos, también es importante la gobernanza de datos. Mostramos cómo al aprovechar los componentes de gobernanza de IBM watsonx.governance como AI OpenScale, FactSheets e IBM Open Pages podemos asegurar que las aplicaciones de IA generativa son administradas y gestionadas. IBM watsonx Knowledge Catalog permite una gestión adecuada de los datos, incluida la catalogación de datos, el linaje de datos y la gestión de datos PII.