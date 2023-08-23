El reciente éxito de los modelos de lenguaje grandes basados en inteligencia artificial impulsó al mercado a pensar con más ambición sobre cómo la IA podría transformar muchos procesos empresariales. Sin embargo, los consumidores y los entes reguladores también se han preocupado cada vez más por la seguridad tanto de sus datos como de los propios modelos de IA. La adopción segura y generalizada de la IA nos obligará a adoptar la gobernanza de la IA en todo el ciclo de vida de los datos con el fin de generar confianza entre los consumidores, las empresas y los entes reguladores. Pero, ¿cómo se ve esto?
En su mayor parte, los modelos de inteligencia artificial son bastante simples, toman datos y luego aprenden patrones a partir de estos datos para generar un resultado. Los modelos de lenguaje grandes (LLM) complejos como ChatGPT y Google Bard no son diferentes. Por ello, cuando queremos gestionar y gobernar el despliegue de modelos de IA, primero debemos centrarnos en gobernar los datos con los que se capacitan los modelos de IA. Esta gestión de datos nos obliga a comprender el origen, la sensibilidad y el ciclo de vida de todos los datos que utilizamos. Esta es la base de cualquier práctica de gobernanza de la IA y es crucial para mitigar diversos riesgos empresariales.
Los modelos de lenguaje grandes pueden entrenarse con datos privados para satisfacer casos de uso empresariales específicos. Por ejemplo, una empresa podría tomar ChatGPT y crear un modelo privado entrenado con los datos de ventas de CRM de la empresa. Este modelo podría desplegarse como un chatbot de Slack para ayudar a los equipos de ventas a encontrar respuestas a consultas como “¿Cuántas oportunidades ha ganado el producto X en el último año?” o "Actualizarme sobre la oportunidad del producto Z con la empresa Y".
Es fácil imaginar que estos LLM se ajusten para cualquier número de casos de uso de atención al cliente, recursos humanos o marketing. Incluso podríamos ver que estos consejos legales y médicos aumenten, convirtiendo a los LLM en una herramienta de diagnóstico de primera línea utilizada por los proveedores de atención médica. El problema es que estos casos de uso requieren entrenar los LLM con datos confidenciales de propiedad exclusiva. Esto es inherentemente riesgoso. Algunos de estos riesgos incluyen:
Los modelos de IA aprenden a partir de datos de entrenamiento, pero ¿qué pasa si esos datos son privados o confidenciales? Una cantidad considerable de datos se puede utilizar directa o indirectamente para identificar a personas específicas. Por lo tanto, si estamos entrenando un LLM con datos privados sobre los clientes de una empresa, podemos encontrarnos con situaciones en las que el uso de ese modelo podría utilizarse para filtrar información confidencial.
Muchos modelos de IA simples tienen una fase de entrenamiento y luego una fase de despliegue durante la cual se pausa el entrenamiento. Los LLM son un poco diferentes. Toman el contexto de tu conversación, aprenden de él y luego responden en consecuencia.
Esto hace que la tarea de gestionar los datos de entrada del modelo sea infinitamente más compleja, ya que no solo tenemos que preocuparnos por los datos de entrenamiento iniciales. También nos preocupamos cada vez que se consulta el modelo. ¿Qué pasa si alimentamos al modelo con información sensible durante la conversación? ¿Podemos identificar la sensibilidad y evitar que el modelo la use en otros contextos?
En cierta medida, la sensibilidad de los datos de entrenamiento determina la sensibilidad del modelo. Aunque contamos con mecanismos bien establecidos para controlar el acceso a los datos, supervisar quién accede a qué datos y luego ocultarlos dinámicamente en función de la situación, la seguridad en el despliegue de la IA aún se encuentra en desarrollo. Aunque están surgiendo soluciones en este espacio, todavía no podemos controlar completamente la sensibilidad de la salida del modelo en función del rol de la persona que usa el modelo (por ejemplo, el modelo que identifica que una salida en particular podría ser sensible y luego cambia de manera confiable la resultado basado en quién consulta el LLM). Debido a esto, estos modelos pueden convertirse fácilmente en fugas de cualquier tipo de información confidencial involucrada en el entrenamiento del modelo.
¿Qué sucede cuando entrenamos un modelo con cada canción de Drake y luego el modelo comienza a generar copias de Drake? ¿El modelo infringe los derechos de Drake? ¿Puede demostrar si el modelo está copiando su trabajo de alguna manera?
Los entes reguladores aún están tratando de resolver este problema, pero podría convertirse fácilmente en un tema importante para cualquier tipo de IA generativa que aprenda de la propiedad intelectual artística. Esperamos que esto dé lugar a importantes demandas judiciales en el futuro, lo que deberá mitigarse mediante una supervisión adecuada de la propiedad intelectual de cualquier dato utilizado en la formación.
Una de las ideas clave detrás de la normativa moderna sobre privacidad de datos es el consentimiento. Los clientes deben dar su consentimiento para el uso de sus datos y deben poder solicitar que se eliminen. Esto plantea un problema único para el uso de la IA.
Si entrena un modelo de IA con datos confidenciales de clientes, ese modelo se convierte en una posible fuente de exposición de esos datos confidenciales. Si un cliente revocara el uso de sus datos por parte de la empresa (un requisito para el RGPD) y si esa empresa ya hubiera entrenado un modelo con los datos, el modelo tendría que ser dado de baja y volver a entrenarse sin acceso a los datos revocados.
Para que los LLM sean útiles como software empresarial, es necesario controlar los datos de entrenamiento, de modo que las empresas puedan confiar en la seguridad de los datos y dispongan de un registro de auditoría del consumo de datos por parte del LLM.
El mejor análisis de la arquitectura LLM que he visto proviene de este artículo de a16z. Está muy bien hecho, pero como alguien que dedica todo su tiempo a trabajar en gobernanza de datos y privacidad, a esa sección superior izquierda de “datos contextuales → pipelines de datos” le falta algo: gobernanza de datos.
Si agrega las soluciones de gobernanza de datos de IBM, la parte superior izquierda se verá un poco más así:
La solución de gobernanza de datos impulsada por IBM Knowledge Catalog ofrece varias capacidades para ayudar a facilitar el descubrimiento avanzado de datos, la calidad automatizada de los datos y la protección de datos. Puede:
El último paso anterior es uno que a menudo se pasa por alto: la implementación de la técnica de mejora de la privacidad. ¿Cómo eliminamos la información confidencial antes de introducirla en la IA? Puede dividirlo en tres pasos:
Con IBM watsonx, IBM ha logrado avances rápidos para poner el poder de la IA generativa en manos de los "constructores de IA". IBM watsonx.ai es un estudio listo para su uso en empresas que combina machine learning (ML) y nuevas capacidades de IA generativa impulsadas por modelos fundacionales. Watsonx también incluye watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse abierta. Cuenta con el respaldo de consultas, gobernanza y formatos de datos abiertos para acceder y compartir datos en la nube híbrida.
Una base de datos sólida es fundamental para el éxito de las implementaciones de IA. Con el tejido de datos de IBM, los clientes pueden crear la infraestructura de datos adecuada para la IA utilizando capacidades de integración y gobernanza de datos para adquirir, preparar y organizar los datos antes de que los creadores de IA puedan acceder fácilmente a ellos mediante watsonx.ai y watsonx.data.
IBM ofrece una solución de tejido de datos componible como parte de una cartera abierta y extensible de productos de IA que se pueden desplegar en nubes de terceros. Esta solución incluye gobernanza de datos, integración de datos, observabilidad de los datos, linaje de datos, calidad de datos, resolución de entidades y capacidades de privacidad de datos
Los modelos de IA, en particular los LLM, serán una de las tecnologías más transformadoras de la próxima década. Dado que las nuevas regulaciones de IA imponen directrices sobre el uso de IA, es crítico no solo gestionar y gobernar los modelos de IA, sino también, y lo que es igualmente importante, gobernar los datos que se introducen en la IA.
