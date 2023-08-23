Los modelos de lenguaje grandes pueden entrenarse con datos privados para satisfacer casos de uso empresariales específicos. Por ejemplo, una empresa podría tomar ChatGPT y crear un modelo privado entrenado con los datos de ventas de CRM de la empresa. Este modelo podría desplegarse como un chatbot de Slack para ayudar a los equipos de ventas a encontrar respuestas a consultas como “¿Cuántas oportunidades ha ganado el producto X en el último año?” o "Actualizarme sobre la oportunidad del producto Z con la empresa Y".

Es fácil imaginar que estos LLM se ajusten para cualquier número de casos de uso de atención al cliente, recursos humanos o marketing. Incluso podríamos ver que estos consejos legales y médicos aumenten, convirtiendo a los LLM en una herramienta de diagnóstico de primera línea utilizada por los proveedores de atención médica. El problema es que estos casos de uso requieren entrenar los LLM con datos confidenciales de propiedad exclusiva. Esto es inherentemente riesgoso. Algunos de estos riesgos incluyen:

1. Riesgo de privacidad y reidentificación

Los modelos de IA aprenden a partir de datos de entrenamiento, pero ¿qué pasa si esos datos son privados o confidenciales? Una cantidad considerable de datos se puede utilizar directa o indirectamente para identificar a personas específicas. Por lo tanto, si estamos entrenando un LLM con datos privados sobre los clientes de una empresa, podemos encontrarnos con situaciones en las que el uso de ese modelo podría utilizarse para filtrar información confidencial.

2. Datos de aprendizaje dentro del modelo

Muchos modelos de IA simples tienen una fase de entrenamiento y luego una fase de despliegue durante la cual se pausa el entrenamiento. Los LLM son un poco diferentes. Toman el contexto de tu conversación, aprenden de él y luego responden en consecuencia.

Esto hace que la tarea de gestionar los datos de entrada del modelo sea infinitamente más compleja, ya que no solo tenemos que preocuparnos por los datos de entrenamiento iniciales. También nos preocupamos cada vez que se consulta el modelo. ¿Qué pasa si alimentamos al modelo con información sensible durante la conversación? ¿Podemos identificar la sensibilidad y evitar que el modelo la use en otros contextos?

3. Riesgos de seguridad y acceso

En cierta medida, la sensibilidad de los datos de entrenamiento determina la sensibilidad del modelo. Aunque contamos con mecanismos bien establecidos para controlar el acceso a los datos, supervisar quién accede a qué datos y luego ocultarlos dinámicamente en función de la situación, la seguridad en el despliegue de la IA aún se encuentra en desarrollo. Aunque están surgiendo soluciones en este espacio, todavía no podemos controlar completamente la sensibilidad de la salida del modelo en función del rol de la persona que usa el modelo (por ejemplo, el modelo que identifica que una salida en particular podría ser sensible y luego cambia de manera confiable la resultado basado en quién consulta el LLM). Debido a esto, estos modelos pueden convertirse fácilmente en fugas de cualquier tipo de información confidencial involucrada en el entrenamiento del modelo.

4. Riesgo de propiedad intelectual

¿Qué sucede cuando entrenamos un modelo con cada canción de Drake y luego el modelo comienza a generar copias de Drake? ¿El modelo infringe los derechos de Drake? ¿Puede demostrar si el modelo está copiando su trabajo de alguna manera?

Los entes reguladores aún están tratando de resolver este problema, pero podría convertirse fácilmente en un tema importante para cualquier tipo de IA generativa que aprenda de la propiedad intelectual artística. Esperamos que esto dé lugar a importantes demandas judiciales en el futuro, lo que deberá mitigarse mediante una supervisión adecuada de la propiedad intelectual de cualquier dato utilizado en la formación.

5. Consentimiento y riesgo de DSAR

Una de las ideas clave detrás de la normativa moderna sobre privacidad de datos es el consentimiento. Los clientes deben dar su consentimiento para el uso de sus datos y deben poder solicitar que se eliminen. Esto plantea un problema único para el uso de la IA.

Si entrena un modelo de IA con datos confidenciales de clientes, ese modelo se convierte en una posible fuente de exposición de esos datos confidenciales. Si un cliente revocara el uso de sus datos por parte de la empresa (un requisito para el RGPD) y si esa empresa ya hubiera entrenado un modelo con los datos, el modelo tendría que ser dado de baja y volver a entrenarse sin acceso a los datos revocados.

Para que los LLM sean útiles como software empresarial, es necesario controlar los datos de entrenamiento, de modo que las empresas puedan confiar en la seguridad de los datos y dispongan de un registro de auditoría del consumo de datos por parte del LLM.