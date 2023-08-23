Los modelos de lenguaje de gran tamaño pueden entrenarse con datos propietarios para satisfacer casos de uso empresariales específicos. Por ejemplo, una empresa podría tomar ChatGPT y crear un modelo privado entrenado con los datos de ventas de CRM de la empresa. Este modelo podría implementarse como un chatbot de Slack para ayudar a los equipos de ventas a encontrar respuestas a consultas como "¿Cuántas oportunidades ha ganado el producto X en el último año?” o "Ponme al día sobre la oportunidad del producto Z con la empresa Y".

Es fácil imaginar que estos LLM se ajusten a cualquier número de casos de uso de servicio de atención al cliente, RR. HH. o marketing. Incluso podríamos ver que estos consejos legales y médicos aumenten, convirtiendo los LLM en una herramienta de diagnóstico de primera línea utilizada por los proveedores de asistencia sanitaria. El problema es que estos casos de uso requieren entrenar a los LLM en datos confidenciales de propiedad. Esto es inherentemente arriesgado. Algunos de estos riesgos incluyen:

1. Riesgo de privacidad y reidentificación

Los modelos de IA aprenden de los datos de entrenamiento, pero ¿qué ocurre si esos datos son privados o sensibles? Una cantidad considerable de datos puede utilizarse directa o indirectamente para identificar a personas específicas. Así que, si estamos formando un LLM en datos privados sobre los clientes de una empresa, podemos encontrarnos con situaciones en las que el consumo de ese modelo podría utilizarse para filtrar información confidencial.

2. Datos de aprendizaje dentro del modelo

Muchos modelos de IA simples tienen una fase de entrenamiento y luego una fase de implementación durante la cual se pausa el entrenamiento. Los LLM son un poco diferentes. Toman el contexto de su conversación con ellos, aprenden de eso y luego responden en consecuencia.

Esto hace que el trabajo de gobernar los datos de entrada del modelo sea infinitamente más complejo, ya que no solo tenemos que preocuparnos por los datos de entrenamiento iniciales. También nos preocupamos por cada vez que se consulta el modelo. ¿Y si le damos al modelo información confidencial durante la conversación? ¿Podemos identificar la sensibilidad y evitar que el modelo la utilice en otros contextos?

3. Riesgo de seguridad y acceso

En cierta medida, la sensibilidad de los datos de entrenamiento determina la sensibilidad del modelo. Aunque contamos con mecanismos bien establecidos para controlar el acceso a los datos, monitorizar quién accede a qué datos y luego enmascarar dinámicamente los datos según la situación, la seguridad en la implementación de IA aún está desarrollándose. Aunque están surgiendo soluciones en este espacio, todavía no podemos controlar completamente la sensibilidad del output del modelo en función del rol de la persona que utiliza el modelo (por ejemplo, el modelo que identifica que un output particular podría ser sensible y luego cambia de manera fiable la salida del modelo basada en quién está consultando el LLM). Por ello, estos modelos pueden convertirse fácilmente en filtraciones de cualquier tipo de información sensible relacionada con el entrenamiento de modelos.

4. Riesgo de propiedad intelectual

¿Qué sucede cuando entrenamos un modelo con cada canción de Drake y luego el modelo comienza a generar copias de Drake? ¿El modelo infringe los derechos de autor de Drake? ¿Puedes demostrar si el modelo está copiando tu trabajo de alguna manera?

Este problema aún está siendo resuelto por los reguladores, pero podría convertirse fácilmente en un problema importante para cualquier forma de IA generativa que aprenda de la propiedad intelectual artística. Esperamos que esto conduzca a importantes demandas en el futuro, y eso tendrá que mitigarse monitorizando suficientemente la IP de cualquier dato utilizado en la formación.

5. Consentimiento y riesgo de DSAR

Una de las ideas clave de la moderna normativa sobre privacidad de datos es el consentimiento. Los clientes deben dar su consentimiento para el uso de sus datos y deben poder solicitar que se eliminen. Esto plantea un problema único para el uso de la IA.

Si entrena un modelo de IA con datos confidenciales de clientes, ese modelo se convierte en una posible fuente de exposición para esos datos confidenciales. Si un cliente revocara el uso de sus datos por parte de la empresa (un requisito del RGPD) y si esa empresa ya hubiera entrenado un modelo sobre los datos, el modelo tendría que ser desactivado y reentrenado sin acceso a los datos revocados.

Hacer que los LLM sean útiles como software empresarial requiere gobernar los datos de entrenamiento para que las empresas puedan confiar en la seguridad de los datos y tener una pista de auditoría para el consumo de datos por parte del LLM.