Reevaluación de la gestión de datos en la era de la IA generativa

Cuatro colegas sentados y de pie alrededor de un escritorio en una oficina con ventanas altas

Autor

Geoff Baird

Associate Partner

Data & Technology Transformation

La IA generativa ha alterado la industria tecnológica al introducir nuevos riesgos de datos, como la fuga de datos confidenciales a través de modelos de lenguaje grandes (LLM), e impulsar un aumento de los requisitos de los organismos reguladores y los gobiernos. Para navegar con éxito en este entorno, es importante que las organizaciones observen los principios básicos de la gestión de datos. Y deben asegurarse de que están utilizando un enfoque sólido para aumentar los modelos de lenguaje grandes con datos empresariales/no públicos.

Un buen lugar para comenzar es actualizar la forma en que las organizaciones gobiernan los datos, particularmente en lo que respecta a su uso en soluciones de IA generativa. Por ejemplo:

  • Validación y creación de capacidades de protección de datos: las plataformas de datos deben prepararse para niveles más altos de protección y monitoreo. Esto requiere capacidades como cifrado, anonimización y tokenización, pero también crear capacidades para clasificar automáticamente los datos (sensibilidad, alineación de taxonomía) mediante el uso de machine learning. Las herramientas de descubrimiento de datos y catalogación pueden ayudar, pero deben aumentarse para que la clasificación sea específica para la comprensión de la organización de sus propios datos. Esto permite a las organizaciones aplicar eficazmente nuevas políticas y cerrar la brecha entre la comprensión conceptual de los datos y la realidad de cómo se han implementado las soluciones de datos.
  • Mejorar los controles, la auditabilidad y la supervisión: el acceso a los datos, el uso y la interacción de terceros con los datos empresariales requiere nuevos diseños con las soluciones existentes. Por ejemplo, capture una parte de los requisitos necesarios para garantizar el uso autorizado de los datos. Pero las empresas necesitan pistas de auditoría y sistemas de monitoreo completos. Esto es para rastrear cómo se utilizan los datos, cuándo se modifican y si los datos se comparten a través de interacciones de terceros para soluciones de IA generativa y de otro tipo. Ya no es suficiente controlar los datos restringiendo el acceso a ellos, y también debemos rastrear los casos de uso para los que se accede a los datos y se aplican dentro de las soluciones analíticas y operativas. Los equipos de infraestructura y gobernanza de datos deben desarrollar alertas automatizadas e informes de acceso y uso inadecuados (medidos mediante análisis de consultas, exfiltración de datos y movimiento de red) y revisarlos periódicamente para garantizar el cumplimiento de manera proactiva.
  • Preparación de datos para la IA generativa: hay una desviación de los patrones y habilidades tradicionales de gestión de datos que requiere una nueva disciplina para garantizar la calidad, precisión y relevancia de los datos para entrenar y aumentar los modelos de lenguaje para el uso de la IA. Dado que las bases de datos vectoriales se están convirtiendo en un lugar común en el dominio de la IA generativa, la gobernanza de datos debe mejorarse para tener en cuenta las plataformas de gestión de datos no tradicionales. Esto es para garantizar que se apliquen las mismas prácticas de gobernanza a estos nuevos componentes arquitectónicos. El linaje de datos se vuelve aún más importante a medida que los organismos reguladores exigen la necesidad de proporcionar "explicabilidad" en los modelos.

Los datos empresariales suelen ser complejos, diversos y dispersos en varios repositorios, lo que dificulta su integración en las soluciones de IA generativa. Esta complejidad se ve agravada por la necesidad de garantizar el cumplimiento normativo, mitigar el riesgo y abordar las brechas de habilidades en la integración de datos y los patrones de generación aumentada por recuperación (RAG, por sus siglas en inglés). Además, los datos suelen ser una ocurrencia tardía en el diseño y despliegue de soluciones de IA generativa, lo que genera ineficiencias e incongruencias.

Desbloquear todo el potencial de los datos empresariales para la IA generativa

En IBM, hemos desarrollado un enfoque para resolver estos desafíos de datos. La fábrica de ingesta de datos de IA generativa de IBM, un servicio gestionado diseñado para abordar el "problema de los datos" de la IA y desbloquear todo el potencial de los datos empresariales para la IA generativa. Nuestra arquitectura predefinida y nuestros proyectos técnicos que se pueden desplegar como un servicio gestionado simplifican y aceleran el proceso de integración de datos empresariales en soluciones de IA generativa. Abordamos este problema teniendo en cuenta la gestión de datos, preparando los datos para la gobernanza, el riesgo y el cumplimiento desde el principio. 

Nuestras capacidades principales incluyen:

  • Ingesta de datos escalable: servicios reutilizables para escalar la ingesta de datos y RAG en casos de uso y soluciones de IA generativa, con patrones optimizados de fragmentación e incorporación.
  • Normativa y cumplimiento: los datos se preparan para el uso de IA generativa que cumple con las regulaciones actuales y futuras, lo que ayuda a las empresas a cumplir con los requisitos y las regulaciones del mercado centradas en la IA generativa.
  • Gestión de privacidad de datos: el texto de formato largo se puede anonimizar a medida que se descubre, lo que reduce el riesgo y garantiza la privacidad de datos.

El servicio es agnóstico, lo que permite su despliegue en cualquier lugar, y ofrece personalización para los entornos y casos de uso del cliente. Al utilizar la fábrica de ingesta de datos de IA generativa de IBM, las empresas pueden lograr varios resultados clave, entre ellos:

  • Reducir el tiempo dedicado a la integración de datos: un servicio gestionado que reduce el tiempo y el esfuerzo necesarios para resolver el "problema de datos" de la IA. Por ejemplo, utilizar un proceso repetible para "fragmentar" e "incorporar" datos para que no requiera esfuerzos de desarrollo para cada nuevo caso de uso de IA generativa.
  • Uso de datos compatible: ayudar a cumplir con las regulaciones de uso de datos centradas en las aplicaciones de IA generativa desplegadas por la empresa. Por ejemplo, garantizar que los datos que se obtienen en patrones RAG estén aprobados para su uso empresarial en soluciones de IA generativa.
  • Mitigar el riesgo: reducir el riesgo asociado con los datos utilizados en las soluciones de IA generativa. Por ejemplo, proporcionar resultados transparentes sobre qué datos se obtuvieron para producir un resultado de un modelo reduce el riesgo del modelo y el tiempo dedicado a demostrar a los entes reguladores cómo se obtuvo la información.
  • Resultados congruentes y reproducibles: entrega de resultados congruentes y reproducibles de LLM y soluciones de IA generativa. Por ejemplo, capturar el linaje y comparar los resultados (es decir, los datos generados) a lo largo del tiempo para informar sobre la coherencia a través de métricas estándar como ROUGE y BLEU.

Abordar las complejidades del riesgo de datos requiere una experiencia multifuncional. Nuestro equipo de antiguos entes reguladores, líderes de industrias y expertos en tecnología en IBM® Consulting están en una posición única para abordar esto con nuestros servicios y soluciones de consultoría. 

 
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data