Publicado: 6 de septiembre de 2024
Colaborador: Matthew Kosinski
La gestión de datos de IA es la práctica de emplear inteligencia artificial (IA) y machine learning (ML) en el ciclo de vida de la gestión de datos. Los ejemplos incluyen la aplicación de IA para automatizar u optimizar la recopilación de datos, la limpieza de datos, el análisis de datos, la seguridad de datos y otros procesos de gestión de datos.
Tanto la IA tradicional basada en reglas como los modelos de IA generativa más avanzados pueden ayudar con la gestión de datos.
Las empresas modernas poseen grandes cantidades de datos sobre todo, desde transacciones financieras e inventario de productos hasta registros de empleados y preferencias de los clientes. Las organizaciones que emplean estos datos para informar la toma de decisiones e impulsar iniciativas comerciales pueden obtener beneficios significativos sobre sus competidores.
Sin embargo, el desafío proviene de hacer que estos grandes conjuntos de datos sean lo suficientemente precisos, confiables y accesibles para que las personas los utilicen en la práctica.
El Data Differentiator de IBM® informa que el 82% de las empresas experimentan silos de datos que obstaculizan los flujos de trabajo clave. Hasta un 68% de los datos organizacionales nunca se analizan, lo que significa que la empresa nunca aprovecha todos los beneficios de esos datos.
Las herramientas de IA y ML pueden ayudar a las organizaciones a emplear sus datos optimizando tareas como la integración de fuentes de datos, la limpieza de datos y la recuperación de datos. Como resultado, las empresas pueden tomar más decisiones basadas en datos.
La gestión de datos de IA también ayuda a las organizaciones a construir las canalizaciones de datos de alta calidad que necesitan para entrenar e desplegar sus propios modelos de IA y algoritmos de machine learning.
Conozca las oportunidades para mejorar los servicios de datos empleando la IA generativa para aumentar los profesionales de los datos.
Muchos tipos de herramientas de administración de datos—como soluciones de almacenamiento de datos, herramientas de integración de datos, herramientas de master data management, soluciones de gobierno y otras—ahora incorporan capacidades de ML e IA. Estas herramientas pueden utilizar tanto algoritmos de IA tradicionales como sistemas de IA generativa.
Los sistemas tradicionales de IA realizan tareas específicas basadas en reglas—por ejemplo, un sistema de gestión de bases de datos que categoriza automáticamente los datos según criterios predefinidos.
Los sistemas de IA generativa, como Microsoft Copilot, Llama de Meta e IBM Granite™, responden al lenguaje natural y crean contenido original. Por ejemplo, un sistema de gestión de bases de datos con un modelo de lenguaje extensos (LLM) integrado puede crear resúmenes de datos y aceptar consultas en inglés sencillo en lugar de SQL.
IA y ML pueden encajar en casi cualquier parte del proceso de gestión de datos, pero algunos de los casos de uso más comunes incluyen:
Las organizaciones de hoy en día trabajan con una gran cantidad de datos, que llegan al negocio de múltiples fuentes diferentes, en múltiples formatos. Estos datos son manejados por varios usuarios y terminan dispersos en nubes públicas y privadas, sistemas de almacenamiento on-premises e incluso endpoints personales de los empleados.
Puede ser difícil realizar un seguimiento y administrar centralmente todos estos datos, lo que plantea dos problemas.
En primer lugar, una organización no puede emplear un conjunto de datos si no sabe que el conjunto de datos existe.
En segundo lugar, estos "datos ocultos" no descubiertos ni gestionados plantean riesgos de seguridad. Según el Informe del costo de una filtración de datos de IBM, un tercio de las violaciones de datos implican datos ocultos. Estas filtraciones cuestan 5.27 millones de dólares de promedio—un 16% más que el costo promedio global de las filtraciones.
IA y ML pueden automatizar muchos aspectos del descubrimiento de datos, otorgando a las organizaciones más visibilidad y control sobre todos sus activos de datos.
Las herramientas de descubrimiento de datos impulsadas por IA pueden escanear automáticamente dispositivos de red y repositorios de almacenamiento de datos, indexando nuevos datos casi en tiempo real.
Las herramientas automatizadas de clasificación de datos pueden etiquetar nuevos datos en función de reglas predefinidas o modelos de machine learning. Por ejemplo, la herramienta podría clasificar cualquier número de nueve dígitos en el formato XXX-XX-XXXX como un número de seguro social de Estados Unidos.
Los LLMs y otras herramientas de procesamiento de lenguaje natural pueden extraer datos estructurados de fuentes de datos no estructurados, como por ejemplo, extraer los datos de contacto y la experiencia previa de candidatos a un puesto de trabajo a partir de currículos en documentos de texto con distintos formatos.
Los datos erróneos pueden causar más problemas que la falta total de datos. Si los datos de una organización son incompletos o inexactos, entonces las iniciativas comerciales y los modelos de IA creados sobre esos datos también serán deficientes.
Las herramientas de IA y ML pueden ayudar a identificar y corregir errores en los datos de la organización, lo que significa que los usuarios no necesitan hacer el largo trabajo de limpieza manual de datos. La IA también puede trabajar más rápido y detectar más errores que un usuario humano.
Las herramientas de preparación de datos habilitadas para IA pueden realizar comprobaciones de validación y marcar o corregir errores, como formato inadecuado y valores irregulares. Algunas herramientas de preparación de datos impulsadas por IA también pueden convertir los datos al formato adecuado, como convertir notas de reuniones no estructuradas en tablas estructuradas.
Los generadores de datos sintéticos pueden proporcionar missing values y llenar otros huecos en los conjuntos de datos. Estos generadores pueden emplear modelos de machine learning para identificar patrones en los datos existentes y generar puntos de datos sintéticos de gran precisión.
Algunas herramientas de master data management (MDM) pueden emplear IA y ML para detectar y corregir errores y duplicados en registros críticos. Por ejemplo, fusionar dos registros de clientes con el mismo nombre, dirección y detalles de contacto.
Las herramientas de observabilidad de los datos impulsadas por IA pueden generar automáticamente registros de linaje de datos para que las organizaciones puedan rastrear quién usa los datos y cómo cambian con el paso del tiempo.
Los silos de datos impiden que muchas organizaciones aprovechen todo el valor de sus datos. IA y ML pueden optimizar los esfuerzos de integración de datos, reemplazando los repositorios de silos con estructuras de datos unificadas. Los usuarios de toda la organización pueden acceder a los activos de datos que necesitan cuando los necesitan.
Las herramientas de integración de datos habilitadas para IA pueden detectar automáticamente las relaciones entre diferentes conjuntos de datos, lo que permite a la organización conectarlos o fusionarlos.
Las herramientas de gestión de metadatos con capacidades de IA pueden ayudar a automatizar la creación de catálogos de datos al generar descripciones de activos de datos basadas en etiquetado y clasificación.
Las bases de datos y los catálogos de datos con interfaces impulsadas por LLM pueden aceptar y procesar comandos de lenguaje natural, lo que permite a los usuarios encontrar activos de datos y productos sin escribir código personalizado o SQL queries. Algunas interfaces impulsadas por LLM también pueden ayudar a los usuarios a refinar consultas, enriquecer conjuntos de datos o sugerir puntos de datos relacionados.
Los motores de consulta habilitados para IA pueden emplear algoritmos de machine learning para mejorar el rendimiento de la base de datos mediante el análisis de patrones de carga de trabajo y la optimización de la ejecución de consultas.
Existe un caso comercial que justifica priorizar la seguridad de los datos. La filtración de datos promedio le cuesta a una organización 4.88 millones de dólares entre pérdida de negocios, tiempo de inactividad del sistema, daño a la reputación y esfuerzos de respuesta, según el Informe del costo de una filtración de datos.
IA y ML pueden ayudar a aplicar políticas de seguridad, detectar filtraciones y bloquear actividades no autorizadas.
Las herramientas de prevención de pérdida de datos impulsadas por IA pueden detectar automáticamente información de identificación personal (PII) y otros datos confidenciales, aplicar controles de seguridad y marcar o bloquear el uso no autorizado de esos datos.
Las herramientas de detección de amenazas basadas en anomalías, tales como el análisis del comportamiento de usuarios y entidades (UEBA) y la detección y respuesta de endpoints (EDR), emplean algoritmos de IA y ML para monitorear la actividad de la red. Detectan desviaciones sospechosas de la norma, como una gran cantidad de datos que se trasladan repentinamente a una nueva ubicación.
Los LLMs pueden ayudar a las organizaciones a generar e implementar políticas de gobernanza de datos. Por ejemplo, en un sistema de control de acceso basado en roles (RBAC), un LLM puede ayudar al equipo de seguridad a describir los diferentes tipos de roles y sus permisos. El LLM también podría ayudar a convertir estas descripciones de roles en reglas para un sistema de gestión de identidad y acceso.
Las herramientas de detección de fraude habilitadas para IA pueden emplear IA y ML para analizar patrones y detectar transacciones anormales.
La IA puede ayudar a transformar la gestión de datos automatizando tareas arduas como el descubrimiento, la limpieza y la catalogación de datos, al tiempo que agiliza la recuperación y el análisis de datos. Las organizaciones pueden crear procesos de gestión de datos más eficientes que sean menos propensos a errores y más propicios para la ciencia de datos, las iniciativas de IA y la privacidad de datos.
En el Reporte de gestión de la IA y la información de AvePoint, el 64% de las organizaciones encuestadas dijeron que gestionaban al menos un petabyte de datos.1 En perspectiva, eso equivale a aproximadamente 9 cuatrillones de bits de información. Y gran parte viene en formatos no estructurados, como archivos de texto, imágenes y video.
Todos estos datos pueden ser una bendición para los científicos de datos, pero es imposible gestionar manualmente datos tan complejos en cantidades tan masivas. Las herramientas de IA y ML pueden hacer que estos datos sean utilizables mediante la automatización de tareas críticas como el descubrimiento, la integración y la limpieza.
Cuando los datos están limpios y son accesibles, las organizaciones pueden emplearlos para proyectos avanzados de analytics de datos, como una iniciativa de análisis predictivos que emplea datos históricos para pronosticar tendencias futuras en el gasto de los consumidores.
Las tecnologías de IA también pueden hacer que los datos sean más accesibles para los usuarios sin experiencia en ciencia de datos. Los catálogos de datos fáciles de usar con interfaces de bases de datos impulsadas por LLM y visualizaciones automatizadas permiten que más usuarios de toda la empresa empleen datos para fundamentar sus decisiones.
El 59% de los directores ejecutivos (CEOs) encuestados por IBM Institute for Business Value creen que el beneficio competitivo de una organización en el futuro depende de tener la IA generativa más avanzada. Para crear y desplegar esos modelos de IA, las organizaciones necesitan flujos constantes de datos buenos y limpios.
Al agilizar la gestión de datos, las herramientas de IA ayudan a crear los canales de datos fiables y de alta calidad que las organizaciones necesitan para capacitar sus propios modelos de IA y ML. Y como estos modelos se pueden entrenar con los datos de la empresa, se pueden entrenar para realizar tareas y resolver problemas específicos de la empresa y sus clientes.
Las herramientas de seguridad y gobernanza basadas en IA ayudan a prevenir ciberataques y filtraciones de datos, que pueden resultar costosos. También permiten a las empresas emplear los datos que tienen cumpliendo con las regulaciones de privacidad y protección de datos como GDPR y el Estándar de Seguridad de Datos de la Industria de Tarjetas de Pago (PCI-DSS).
Según el Institute for Business Value, el 57% de los CEOs afirma que la seguridad de datos es una barrera para adoptar IA generativa. El 45% dice que la privacidad de los datos también es una barrera. Estas barreras pueden ser especialmente desafiantes en industrias altamente reguladas, como la atención médica y las finanzas.
La gestión de datos habilitada por IA puede ayudar aplicando automáticamente las protecciones adecuadas y las políticas de uso de datos. De esa manera, solo los usuarios autorizados pueden acceder a los datos y solo pueden usarlos de la manera que lo permitan las regulaciones de la industria y la política de la empresa.
Los generadores de datos sintéticos también pueden ayudar generando conjuntos de datos que reflejen con precisión las tendencias generales, al tiempo que eliminan datos personales confidenciales que una organización podría no tener permitido usar de ciertas maneras.
Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
Almacenamiento de archivos y objetos de alto rendimiento para cargas de trabajo de IA, ML, analytics y NVIDIA.
Conozca la estrategia, las tecnologías y la cultura que son fundamentales para liderar una organización basada en datos que sea impulsada por IA.
La gestión de datos es la práctica de recopilar, procesar y emplear datos de forma segura y eficiente para obtener mejores resultados empresariales.
Descubra cómo puede realizar la inversión óptima en la base de datos abierta y confiable adecuada para sus necesidades.
1 AI and Information Management Report 2024, AvePoint, 2024. (El enlace se encuentra fuera de ibm.com).