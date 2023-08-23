El reciente éxito de los modelos de lenguaje de gran tamaño basados en la inteligencia artificial ha empujado al mercado a pensar de forma más ambiciosa en cómo la IA podría transformar muchos procesos empresariales. Sin embargo, los consumidores y los reguladores también están cada vez más preocupados por la seguridad tanto de sus datos como de los propios modelos de IA. La adopción segura y generalizada de la IA requerirá que adoptemos la gobernanza de la IA a lo largo del ciclo de vida de los datos para dar confianza a los consumidores, las empresas y los reguladores. Pero, ¿en qué consiste esto?
En su mayor parte, los modelos de inteligencia artificial son bastante simples, toman datos y luego aprenden patrones a partir de estos datos para generar un resultado. Los modelos de lenguaje de gran tamaño (LLM) complejos como ChatGPT y Google Bard no son diferentes. Por eso, cuando buscamos gestionar y gobernar la implementación de los modelos de IA, primero debemos centrarnos en gobernar los datos en los que se entrenan los modelos de IA. Este gobierno de datos exige que comprendamos el origen, la sensibilidad y el ciclo de vida de todos los datos que utilizamos. Esta es la base de cualquier práctica de gobierno de la IA y es crucial para mitigar diversos riesgos empresariales.
Los modelos de lenguaje de gran tamaño pueden entrenarse con datos propietarios para satisfacer casos de uso empresariales específicos. Por ejemplo, una empresa podría tomar ChatGPT y crear un modelo privado entrenado con los datos de ventas de CRM de la empresa. Este modelo podría implementarse como un chatbot de Slack para ayudar a los equipos de ventas a encontrar respuestas a consultas como "¿Cuántas oportunidades ha ganado el producto X en el último año?” o "Ponme al día sobre la oportunidad del producto Z con la empresa Y".
Es fácil imaginar que estos LLM se ajusten a cualquier número de casos de uso de servicio de atención al cliente, RR. HH. o marketing. Incluso podríamos ver que estos consejos legales y médicos aumenten, convirtiendo los LLM en una herramienta de diagnóstico de primera línea utilizada por los proveedores de asistencia sanitaria. El problema es que estos casos de uso requieren entrenar a los LLM en datos confidenciales de propiedad. Esto es inherentemente arriesgado. Algunos de estos riesgos incluyen:
Los modelos de IA aprenden de los datos de entrenamiento, pero ¿qué ocurre si esos datos son privados o sensibles? Una cantidad considerable de datos puede utilizarse directa o indirectamente para identificar a personas específicas. Así que, si estamos formando un LLM en datos privados sobre los clientes de una empresa, podemos encontrarnos con situaciones en las que el consumo de ese modelo podría utilizarse para filtrar información confidencial.
Muchos modelos de IA simples tienen una fase de entrenamiento y luego una fase de implementación durante la cual se pausa el entrenamiento. Los LLM son un poco diferentes. Toman el contexto de su conversación con ellos, aprenden de eso y luego responden en consecuencia.
Esto hace que el trabajo de gobernar los datos de entrada del modelo sea infinitamente más complejo, ya que no solo tenemos que preocuparnos por los datos de entrenamiento iniciales. También nos preocupamos por cada vez que se consulta el modelo. ¿Y si le damos al modelo información confidencial durante la conversación? ¿Podemos identificar la sensibilidad y evitar que el modelo la utilice en otros contextos?
En cierta medida, la sensibilidad de los datos de entrenamiento determina la sensibilidad del modelo. Aunque contamos con mecanismos bien establecidos para controlar el acceso a los datos, monitorizar quién accede a qué datos y luego enmascarar dinámicamente los datos según la situación, la seguridad en la implementación de IA aún está desarrollándose. Aunque están surgiendo soluciones en este espacio, todavía no podemos controlar completamente la sensibilidad del output del modelo en función del rol de la persona que utiliza el modelo (por ejemplo, el modelo que identifica que un output particular podría ser sensible y luego cambia de manera fiable la salida del modelo basada en quién está consultando el LLM). Por ello, estos modelos pueden convertirse fácilmente en filtraciones de cualquier tipo de información sensible relacionada con el entrenamiento de modelos.
¿Qué sucede cuando entrenamos un modelo con cada canción de Drake y luego el modelo comienza a generar copias de Drake? ¿El modelo infringe los derechos de autor de Drake? ¿Puedes demostrar si el modelo está copiando tu trabajo de alguna manera?
Este problema aún está siendo resuelto por los reguladores, pero podría convertirse fácilmente en un problema importante para cualquier forma de IA generativa que aprenda de la propiedad intelectual artística. Esperamos que esto conduzca a importantes demandas en el futuro, y eso tendrá que mitigarse monitorizando suficientemente la IP de cualquier dato utilizado en la formación.
Una de las ideas clave de la moderna normativa sobre privacidad de datos es el consentimiento. Los clientes deben dar su consentimiento para el uso de sus datos y deben poder solicitar que se eliminen. Esto plantea un problema único para el uso de la IA.
Si entrena un modelo de IA con datos confidenciales de clientes, ese modelo se convierte en una posible fuente de exposición para esos datos confidenciales. Si un cliente revocara el uso de sus datos por parte de la empresa (un requisito del RGPD) y si esa empresa ya hubiera entrenado un modelo sobre los datos, el modelo tendría que ser desactivado y reentrenado sin acceso a los datos revocados.
Hacer que los LLM sean útiles como software empresarial requiere gobernar los datos de entrenamiento para que las empresas puedan confiar en la seguridad de los datos y tener una pista de auditoría para el consumo de datos por parte del LLM.
El mejor desglose de la arquitectura LLM que he visto procede de este artículo de a16z. Está muy bien hecho, pero como alguien que dedica todo su tiempo a trabajar en el gobierno de datos y la privacidad, a esa sección superior izquierda de "datos contextuales → pipelines de datos" le falta algo: el gobierno de datos.
Si añade las soluciones de gobierno de datos de IBM, la parte superior izquierda se parecerá un poco a esto:
La solución de gobierno de datos impulsada por IBM® Knowledge Catalog ofrece varias capacidades para ayudar a facilitar la detección de datos, la calidad de los datos y la protección de datos. Usted puede:
El último paso anterior es uno que a menudo se pasa por alto: la implementación de la técnica de mejora de la privacidad. ¿Cómo eliminamos las cosas sensibles antes de dárselas a la IA? Puede dividirlo en tres pasos:
Con IBM watsonx, IBM ha avanzado rápidamente para poner el poder de la IA generativa en manos de los "AI Builders". IBM watsonx.ai es un estudio preparado para la empresa, que aúna machine learning (ML) y las nuevas capacidades de IA generativa impulsadas por modelo fundacional. Watsonx también incluye watsonx.data, un almacén de datos adaptado creado sobre una arquitectura de lakehouse abierta. Se apoya en la consulta, el gobierno y los formatos de datos abiertos para acceder a los datos y compartirlos en toda la nube híbrida.
Una base de datos sólida es crucial para el éxito de las implementaciones de IA. Con el tejido de datos de IBM, nuestros clientes pueden crear la infraestructura de datos adecuada para la IA utilizando las capacidades de integración y gobierno de datos para adquirir, preparar y organizar los datos antes de que los generadores de IA puedan acceder a ellos con facilidad mediante watsonx.ai y watsonx.data.
IBM ofrece una solución de tejido de datos componible como parte de un portfolio abierto y ampliable de productos de IA que se pueden implementar en nubes de terceros. Esta solución incluye gobierno de datos, integración de datos, observabilidad de datos, linaje de datos, calidad de datos, resolución de entidades y capacidades de gestión de privacidad de datos.
Los modelos de IA, en particular los LLM, serán una de las tecnologías más transformadoras de la próxima década. A medida que las nuevas normas sobre la IA imponen directrices en torno al uso de la IA, es crítico no solo gestionar y gobernar los modelos de IA, sino, lo que es igualmente importante, gobernar los datos que se introducen en la IA.
