Por qué el control de datos es esencial para la IA empresarial

Joven trabajando desde casa

Autor

Corey Keyser

Senior Product Manager - Data privacy and regulatory compliance

IBM

El reciente éxito de los modelos de lenguaje grandes basados en inteligencia artificial impulsó al mercado a pensar con más ambición sobre cómo la IA podría transformar muchos procesos empresariales. Sin embargo, los consumidores y los entes reguladores también se han preocupado cada vez más por la seguridad tanto de sus datos como de los propios modelos de IA. La adopción segura y generalizada de la IA nos obligará a adoptar la gobernanza de la IA en todo el ciclo de vida de los datos con el fin de generar confianza entre los consumidores, las empresas y los entes reguladores. Pero, ¿cómo se ve esto?

En su mayor parte, los modelos de inteligencia artificial son bastante simples, toman datos y luego aprenden patrones a partir de estos datos para generar un resultado. Los modelos de lenguaje grandes (LLM) complejos como ChatGPT y Google Bard no son diferentes. Por ello, cuando queremos gestionar y gobernar el despliegue de modelos de IA, primero debemos centrarnos en gobernar los datos con los que se capacitan los modelos de IA. Esta gestión de datos nos obliga a comprender el origen, la sensibilidad y el ciclo de vida de todos los datos que utilizamos. Esta es la base de cualquier práctica de gobernanza de la IA y es crucial para mitigar diversos riesgos empresariales.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Riesgos de entrenar modelos LLM con datos sensibles

Los modelos de lenguaje grandes pueden entrenarse con datos privados para satisfacer casos de uso empresariales específicos. Por ejemplo, una empresa podría tomar ChatGPT y crear un modelo privado entrenado con los datos de ventas de CRM de la empresa. Este modelo podría desplegarse como un chatbot de Slack para ayudar a los equipos de ventas a encontrar respuestas a consultas como “¿Cuántas oportunidades ha ganado el producto X en el último año?” o "Actualizarme sobre la oportunidad del producto Z con la empresa Y".

Es fácil imaginar que estos LLM se ajusten para cualquier número de casos de uso de atención al cliente, recursos humanos o marketing. Incluso podríamos ver que estos consejos legales y médicos aumenten, convirtiendo a los LLM en una herramienta de diagnóstico de primera línea utilizada por los proveedores de atención médica. El problema es que estos casos de uso requieren entrenar los LLM con datos confidenciales de propiedad exclusiva. Esto es inherentemente riesgoso. Algunos de estos riesgos incluyen:

1. Riesgo de privacidad y reidentificación

Los modelos de IA aprenden a partir de datos de entrenamiento, pero ¿qué pasa si esos datos son privados o confidenciales? Una cantidad considerable de datos se puede utilizar directa o indirectamente para identificar a personas específicas. Por lo tanto, si estamos entrenando un LLM con datos privados sobre los clientes de una empresa, podemos encontrarnos con situaciones en las que el uso de ese modelo podría utilizarse para filtrar información confidencial.

2. Datos de aprendizaje dentro del modelo

Muchos modelos de IA simples tienen una fase de entrenamiento y luego una fase de despliegue durante la cual se pausa el entrenamiento. Los LLM son un poco diferentes. Toman el contexto de tu conversación, aprenden de él y luego responden en consecuencia.

Esto hace que la tarea de gestionar los datos de entrada del modelo sea infinitamente más compleja, ya que no solo tenemos que preocuparnos por los datos de entrenamiento iniciales. También nos preocupamos cada vez que se consulta el modelo. ¿Qué pasa si alimentamos al modelo con información sensible durante la conversación? ¿Podemos identificar la sensibilidad y evitar que el modelo la use en otros contextos?

3. Riesgos de seguridad y acceso

En cierta medida, la sensibilidad de los datos de entrenamiento determina la sensibilidad del modelo. Aunque contamos con mecanismos bien establecidos para controlar el acceso a los datos, supervisar quién accede a qué datos y luego ocultarlos dinámicamente en función de la situación, la seguridad en el despliegue de la IA aún se encuentra en desarrollo. Aunque están surgiendo soluciones en este espacio, todavía no podemos controlar completamente la sensibilidad de la salida del modelo en función del rol de la persona que usa el modelo (por ejemplo, el modelo que identifica que una salida en particular podría ser sensible y luego cambia de manera confiable la resultado basado en quién consulta el LLM). Debido a esto, estos modelos pueden convertirse fácilmente en fugas de cualquier tipo de información confidencial involucrada en el entrenamiento del modelo.

4. Riesgo de propiedad intelectual

¿Qué sucede cuando entrenamos un modelo con cada canción de Drake y luego el modelo comienza a generar copias de Drake? ¿El modelo infringe los derechos de Drake? ¿Puede demostrar si el modelo está copiando su trabajo de alguna manera?

Los entes reguladores aún están tratando de resolver este problema, pero podría convertirse fácilmente en un tema importante para cualquier tipo de IA generativa que aprenda de la propiedad intelectual artística. Esperamos que esto dé lugar a importantes demandas judiciales en el futuro, lo que deberá mitigarse mediante una supervisión adecuada de la propiedad intelectual de cualquier dato utilizado en la formación.

5. Consentimiento y riesgo de DSAR

Una de las ideas clave detrás de la normativa moderna sobre privacidad de datos es el consentimiento. Los clientes deben dar su consentimiento para el uso de sus datos y deben poder solicitar que se eliminen. Esto plantea un problema único para el uso de la IA.

Si entrena un modelo de IA con datos confidenciales de clientes, ese modelo se convierte en una posible fuente de exposición de esos datos confidenciales. Si un cliente revocara el uso de sus datos por parte de la empresa (un requisito para el RGPD) y si esa empresa ya hubiera entrenado un modelo con los datos, el modelo tendría que ser dado de baja y volver a entrenarse sin acceso a los datos revocados.

Para que los LLM sean útiles como software empresarial, es necesario controlar los datos de entrenamiento, de modo que las empresas puedan confiar en la seguridad de los datos y dispongan de un registro de auditoría del consumo de datos por parte del LLM.

AI Academy

Confianza, transparencia y gobernanza en IA

Es probable que la confianza en la IA sea el tema más importante en el campo de la IA. También es, comprensiblemente, un tema abrumador. Desentrañaremos cuestiones, como las alucinaciones, el sesgo y el riesgo, y compartiremos medidas para adoptar la IA de manera ética, responsable y justa.

Gobernanza de datos para LLM

El mejor análisis de la arquitectura LLM que he visto proviene de este artículo de a16z. Está muy bien hecho, pero como alguien que dedica todo su tiempo a trabajar en gobernanza de datos y privacidad, a esa sección superior izquierda de “datos contextuales → pipelines de datos” le falta algo: gobernanza de datos.

Si agrega las soluciones de gobernanza de datos de IBM, la parte superior izquierda se verá un poco más así:

La solución de gobernanza de datos impulsada por IBM Knowledge Catalog ofrece varias capacidades para ayudar a facilitar el descubrimiento avanzado de datos, la calidad automatizada de los datos y la protección de datos. Puede:

  • Detectar datos automáticamente y agregar contexto empresarial para una comprensión coherente
  • Crear un inventario de datos auditable catalogando los datos para permitir el descubrimiento de datos de autoservicio
  • Identificar y proteger proactivamente los datos confidenciales para hacer frente a los requerimientos reglamentarios y de privacidad de los datos

El último paso anterior es uno que a menudo se pasa por alto: la implementación de la técnica de mejora de la privacidad. ¿Cómo eliminamos la información confidencial antes de introducirla en la IA? Puede dividirlo en tres pasos:

  1. Identifique los componentes sensibles de los datos que deben eliminarse (pista: esto se establece durante el descubrimiento de datos y está vinculado al "contexto" de los datos)
  2. Elimine los datos confidenciales de manera que aún sea posible utilizarlos (por ejemplo, manteniendo la integridad referencial, distribuciones estadísticas aproximadamente equivalentes, etc.).
  3. Mantenga un registro de lo que ocurrió en 1) y 2) para que esta información acompañe a los datos a medida que son consumidos por los modelos. Ese seguimiento es útil para la auditabilidad.

Cree una base regulada para la IA generativa con IBM watsonx y la estructura de datos.

Con IBM watsonx, IBM ha logrado avances rápidos para poner el poder de la IA generativa en manos de los "constructores de IA". IBM watsonx.ai es un estudio listo para su uso en empresas que combina machine learning (ML) y nuevas capacidades de IA generativa impulsadas por modelos fundacionales. Watsonx también incluye watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse abierta. Cuenta con el respaldo de consultas, gobernanza y formatos de datos abiertos para acceder y compartir datos en la nube híbrida.

Una base de datos sólida es fundamental para el éxito de las implementaciones de IA. Con el tejido de datos de IBM, los clientes pueden crear la infraestructura de datos adecuada para la IA utilizando capacidades de integración y gobernanza de datos para adquirir, preparar y organizar los datos antes de que los creadores de IA puedan acceder fácilmente a ellos mediante watsonx.ai y watsonx.data.

IBM ofrece una solución de tejido de datos componible como parte de una cartera abierta y extensible de productos de IA que se pueden desplegar en nubes de terceros. Esta solución incluye gobernanza de datos, integración de datos, observabilidad de los datos, linaje de datos, calidad de datos, resolución de entidades y capacidades de privacidad de datos

Primeros pasos con la gobernanza de datos para la IA empresarial

Los modelos de IA, en particular los LLM, serán una de las tecnologías más transformadoras de la próxima década. Dado que las nuevas regulaciones de IA imponen directrices sobre el uso de IA, es crítico no solo gestionar y gobernar los modelos de IA, sino también, y lo que es igualmente importante, gobernar los datos que se introducen en la IA.

Soluciones relacionadas
IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.

Descubra watsonx.governance
Soluciones de gobernanza de la IA

Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación y mejorar la confianza de los clientes.

Descubra las soluciones de gobernanza de la IA
Servicios de consultoría sobre gobernanza de la IA

Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza para la IA responsable con la ayuda de IBM® Consulting.

Descubra los servicios de gobernanza de la IA
Dé el siguiente paso

Dirija, gestione y monitoree su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Agende una demostración en vivo