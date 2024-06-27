Etiquetas
Reevaluación de la gestión de datos en la era de la IA generativa

Autor

Geoff Baird

Associate Partner

Data & Technology Transformation

La IA generativa ha alterado la industria tecnológica al introducir nuevos riesgos para los datos, como la fuga de datos confidenciales a través de modelos de lenguaje de gran tamaño (LLM), y al impulsar un aumento de los requisitos de los organismos reguladores y el gobierno. Para navegar con éxito en este entorno, es importante que las organizaciones observen los principios básicos de la gestión de datos. Y asegúrese de que están utilizando un enfoque sólido para aumentar los grandes modelos lingüísticos con datos empresariales/no públicos.

Un buen punto de partida es refrescar la manera en que las organizaciones gobiernan los datos, especialmente en lo que respecta a su uso en soluciones de IA generativa. Por ejemplo:

  • Validación y creación de capacidades de protección de datos: las plataformas de datos deben prepararse para niveles más altos de protección y monitorización. Esto requiere capacidades como el cifrado, la anonimización y la tokenización, pero también la creación de capacidades para clasificar automáticamente los datos (sensibilidad, taxonomía) mediante el machine learning. Las herramientas de detección y catalogación de datos pueden ayudar, pero deben ampliarse para que la clasificación sea específica de la comprensión de la organización de sus propios datos. Esto permite a las organizaciones aplicar eficazmente nuevas políticas y cerrar la brecha entre la comprensión conceptual de los datos y la realidad de cómo se han implementado las soluciones de datos.
  • Mejorar los controles, la auditabilidad y la supervisión: el acceso a datos, el uso y la interacción de terceros con los datos empresariales requiere nuevos diseños con las soluciones existentes. Por ejemplo, capture una parte de los requisitos necesarios para garantizar el uso autorizado de los datos. Pero las empresas necesitan pistas de auditoría y sistemas de monitorización completos. Esto es para rastrear cómo se utilizan los datos, cuándo se modifican y si los datos se comparten a través de interacciones de terceros para soluciones de IA generativa y no generativa. Ya no basta con controlar los datos restringiendo el acceso a ellos, y también debemos hacer un seguimiento de los casos de uso para los que se accede a los datos y se aplican dentro de las soluciones analíticas y operativas. Los equipos de infraestructura y gobierno de datos deben desarrollar alertas automatizadas e informes de acceso y uso inadecuados (medidos mediante análisis de consultas, exfiltración de datos y movimiento de red) y revisarlos periódicamente para garantizar el cumplimiento de forma proactiva.
  • Preparación de datos para la IA generativa: hay una desviación de los patrones y habilidades tradicionales de gestión de datos que requiere una nueva disciplina para garantizar la calidad, precisión y relevancia de los datos para entrenar y aumentar los modelos de lenguaje para el uso de la IA. Dado que las bases de datos vectoriales se están convirtiendo en un lugar común en el dominio de la IA generativa, el gobierno de datos debe mejorarse para tener en cuenta las plataformas de gestión de datos no tradicionales. Esto es para garantizar que se apliquen las mismas prácticas de gobierno a estos nuevos componentes arquitectónicos. El linaje de datos se vuelve aún más importante a medida que los organismos reguladores exigen la necesidad de proporcionar "explicabilidad" en los modelos.

Los datos empresariales suelen ser complejos, diversos y dispersos en varios repositorios, lo que dificulta su integración en las soluciones de IA generativa. Esta complejidad se ve agravada por la necesidad de garantizar el cumplimiento normativo, mitigar el riesgo y abordar las brechas de habilidades en integración de datos y los patrones de generación aumentada por recuperación (RAG). Además, los datos suelen ser una ocurrencia tardía en el diseño y la implementación de soluciones de IA generativa, lo que provoca ineficiencias e incoherencias.

Desbloquear todo el potencial de los datos empresariales para la IA generativa

En IBM, hemos desarrollado un enfoque para resolver estos desafíos de datos. La fábrica de ingesta de datos de IBM de IA generativa, un servicio gestionado diseñado para abordar el "problema de los datos" de la IA y desbloquear todo el potencial de los datos empresariales para la IA generativa. Nuestra arquitectura predefinida y nuestros planos que se pueden implementar como un servicio gestionado simplifican y aceleran el proceso de integración de datos empresariales en soluciones de IA generativa. Abordamos este problema teniendo en cuenta la gestión de datos, preparando los datos para el gobierno, el riesgo y el cumplimiento desde el principio. 

Nuestras capacidades principales incluyen:

  • Ingesta de datos escalable: servicios reutilizables para escalar la ingesta de datos y RAG en casos de uso y soluciones de IA generativa, con patrones optimizados de chunking y embedding.
  • Normativa y cumplimiento: los datos se preparan para el uso de la IA generativa que cumple con la normativa actual y futura, lo que ayuda a las empresas a cumplir los requisitos de conformidad con las normativas del mercado centradas en la IA generativa.
  • Gestión de protección de datos: el texto de formato largo puede anonimizarse a medida que se descubre, lo que reduce el riesgo y garantiza la protección de datos.

El servicio es agnóstico, lo que permite su implementación en cualquier lugar, y ofrece personalización para los entornos y casos de uso del cliente. Al utilizar la fábrica de ingesta de datos de IA generativa de IBM, las empresas pueden lograr varios resultados clave, entre ellos:

  • Reducción del tiempo dedicado a la integración de datos: un servicio gestionado que reduce el tiempo y el esfuerzo necesarios para resolver el "problema de datos" de la IA. Por ejemplo, utilizar un proceso repetible para "chunking" y "embedding" datos de modo que no requiera esfuerzos de desarrollo para cada nuevo caso de uso de IA generativa.
  • Uso de datos compatible: ayuda a cumplir con las regulaciones de uso de datos centradas en las aplicaciones de IA generativa implementadas por la empresa. Por ejemplo, garantizar que los datos que se obtienen en patrones RAG estén aprobados para su uso empresarial en soluciones de IA generativa.
  • Mitigar el riesgo: reducir el riesgo asociado a los datos utilizados en las soluciones de IA generativa. Por ejemplo, proporcionar resultados transparentes sobre qué datos se obtuvieron para producir un resultado de un modelo reduce el riesgo del modelo y el tiempo dedicado a demostrar a los reguladores cómo se obtuvo la información.
  • Resultados consistentes y reproducibles: entrega de resultados consistentes y reproducibles de LLM y soluciones de IA generativa. Por ejemplo, capturar el linaje y comparar los resultados (es decir, los datos generados) a lo largo del tiempo para informar sobre la coherencia a través de métricas como ROUGE y BLEU.

Navegar por las complejidades del riesgo de los datos requiere una experiencia multifuncional. Nuestro equipo de antiguos reguladores, líderes de industrias y expertos en tecnología en IBM Consulting están en una posición única para abordar esto con nuestros servicios y soluciones de consultoría. 

 

