La gestión de datos es la práctica de recopilar, procesar y utilizar datos de forma segura y eficiente para obtener mejores resultados empresariales.
El 72 % de los CEO de alto rendimiento coinciden en que la ventaja competitiva depende de quién tenga la IA generativa más avanzada. Sin embargo, para beneficiarse de la inteligencia artificial (IA), las organizaciones primero deben organizar su arquitectura de información para que sus datos sean accesibles y utilizables. Los desafíos fundamentales de la gestión de datos incluyen volúmenes de datos y silos en múltiples ubicaciones y proveedores de servicios en la nube. Los nuevos tipos de datos y diversos formatos, como documentos, imágenes y vídeos, también presentan desafíos. Además, la complejidad y los conjuntos de datos inconsistentes pueden limitar la capacidad de una organización para utilizar datos para IA.
Como resultado de estos desafíos, una estrategia eficaz de gestión de datos se ha convertido en una prioridad cada vez mayor para que las organizaciones aborden los desafíos que presenta el big data. Un sistema de gestión de datos flexible y moderno se integra con la tecnología existente dentro de una organización para acceder a datos de alta calidad utilizables para científicos de datos, ingenieros de IA y ML y los usuarios empresariales de la organización.
Una estrategia completa de gestión de datos tiene en cuenta varios factores, entre ellos cómo:
Aunque las herramientas de gestión de datos para crear aplicaciones de IA generativa están ampliamente disponibles, los datos en sí tienen valor tanto para los clientes como para las empresas. Los grandes volúmenes de datos de calidad deben organizarse y procesarse de manera adecuada para entrenar modelos con éxito. Este enfoque es un caso de uso en rápido crecimiento para la gestión de datos moderna.
Por ejemplo, durante el Campeonato de Wimbledon de 2023 se ofreció un comentario impulsado por IA generativa, que accedió en tiempo real a información procedente de 130 millones de documentos y 2,7 millones de datos contextuales pertinentes. Los visitantes que utilizaron la aplicación o la página web del torneo pudieron acceder a estadísticas completas, narración jugada a jugada y comentarios de los partidos, así como a una predicción precisa del ganador en todo momento a medida que avanzaban los partidos. Contar con la estrategia de gestión de datos adecuada puede ayudar a garantizar que los datos valiosos estén siempre disponibles, integrados, controlados, seguros y sean precisos.
La IA generativa puede brindar a las organizaciones una fuerte ventaja competitiva, ya que su estrategia de IA se basa en la solidez de los datos utilizados. Muchas organizaciones aún luchan con desafíos fundamentales de datos que se ven exacerbados por la demanda de IA generativa, que requiere cada vez más datos, lo que genera aún más dolores de cabeza en la gestión de datos.
Los datos pueden almacenarse en múltiples ubicaciones, aplicaciones y nubes, lo que a menudo conduce a silos de datos aislados. Para añadir aún más complejidad, los usos de los datos se han vuelto más variados, con datos en formas variadas y complejas, como imágenes, videos, documentos y audio. Se requiere más tiempo para la limpieza, integración y preparación de los datos. Estos retos pueden llevar a las organizaciones a evitar utilizar todo su patrimonio de datos para fines de análisis e IA.
Sin embargo, equipados con herramientas modernas de arquitectura de datos, gobierno y seguridad, los datos pueden utilizarse con éxito para obtener nuevos conocimientos y realizar predicciones más precisas de forma coherente. Esta capacidad puede permitir una comprensión más profunda de las preferencias de los clientes y puede mejorar las experiencias de los clientes (CX) al ofrecer conocimientos derivado del análisis de datos. Además, facilita el desarrollo de modelos de negocio innovadores basados en datos, como las ofertas de servicios basadas en la IA generativa, que necesitan una base de datos de alta calidad para el entrenamiento de los modelos.
Los líderes de datos y análisis se enfrentan a grandes retos a la hora de transformar sus organizaciones debido a la creciente complejidad del panorama de datos en las implementaciones de la nube híbrida. La IA generativa y los asistentes de IA, el machine learning (ML), los análisis avanzados, el Internet de las cosas (IoT) y la automatización también requieren enormes volúmenes de datos para funcionar de forma eficaz. Estos datos deben almacenarse, integrarse, gobernarse, transformarse y prepararse para la base de datos adecuada. Y para construir una base de datos sólida para la IA, las organizaciones deben centrarse en crear una base de datos abierta y de confianza, lo que significa crear una estrategia de gestión de datos centrada en la apertura, la confianza y la colaboración.
El requisito de IA fue resumido por un analista de Gartner1: "Los datos preparados para la IA significan que sus datos deben ser representativos del caso de uso, incluidos todos los patrones, errores, valores atípicos y emergencias inesperadas que se necesitan para entrenar o ejecutar el modelo de IA para el uso específico".
Los ejecutivos de datos y análisis pueden pensar que los datos preparados para la IA equivalen a datos de alta calidad, pero los estándares de datos de alta calidad para fines distintos de la IA no cumplen necesariamente con los estándares de preparación para la IA. En el ámbito del análisis, por ejemplo, los datos se suelen refinar para eliminar los valores atípicos o cumplir con las expectativas humanas. Sin embargo, al entrenar un algoritmo, este necesita datos representativos.
El gobierno de datos es un subconjunto de la gestión de datos. Esto significa que cuando un equipo de gobierno de datos identifica puntos en común entre conjuntos de datos dispares y quiere integrarlos, tendrá que asociarse con un equipo de arquitectura o ingeniería de bases de datos para definir el modelo de datos y la arquitectura de datos para facilitar los enlaces y los flujos de datos. Otro ejemplo se refiere al acceso a datos. Un equipo de gobierno de datos podría establecer las políticas en torno al acceso a datos a tipos específicos de datos, como la información de identificación personal (PII). Mientras tanto, un equipo de gestión de datos proporcionaría acceso directo o establecería un mecanismo para proporcionar acceso, como ajustar las funciones de usuario definidas internamente para aprobar el acceso.
Una gestión de datos eficaz, incluidas prácticas robustas de gobierno de datos, puede ayudar a cumplir con la normativa. Este cumplimiento abarca las normas de protección de datos nacionales y globales, como el Reglamento General de Protección de Datos (RGPD) y la California Consumer Privacy Act (CCPA), junto con los estándares de privacidad y seguridad específicos de los sectores. Establecer políticas y procedimientos integrales de gestión de datos es crucial para demostrar o realizar auditorías que validen estas protecciones.
Las soluciones modernas de gestión de datos proporcionan una forma eficiente de gestionar datos y metadatos en diversos conjuntos de datos. Los sistemas modernos se construyen con el último software de gestión de datos y bases de datos o almacenes de datos fiables . Esto puede incluir data lakes transaccionales, almacenes de datos o lakehouses de datos, combinados con una arquitectura de data fabric que incluye la ingesta de datos, el gobierno, el linaje, la observabilidad y la gestión de datos maestros. En conjunto, esta base de datos de confianza puede proporcionar datos de calidad a los consumidores de datos como productos de datos, inteligencia empresarial (BI) y paneles de control, y modelos de IA, tanto ML tradicional como IA generativa.
Una estrategia sólida de gestión de datos suele incluir varios componentes para optimizar la estrategia y las operaciones en toda la organización.
Aunque los datos pueden almacenarse antes o después del proceso de datos, el tipo de datos y su finalidad dictarán normalmente el almacenamiento que se utilice. Mientras que las bases de datos relacionales organizan los datos en un formato tabular, las bases de datos no relacionales no tienen un esquema de base de datos tan rígido.
Las bases de datos relacionales también suelen estar asociadas a bases de datos transaccionales, que ejecutan comandos o transacciones de forma colectiva. Un ejemplo es una transferencia bancaria. Se retira una cantidad definida de una cuenta y luego se deposita en otra. Pero para que las empresas admitan tipos de datos estructurados y no estructurados, necesitan bases de datos específicas. Estas bases de datos también deben atender varios casos de uso en análisis, IA y aplicaciones. Deben abarcar bases de datos relacionales y no relacionales, tales como bases de datos de clave-valor, documentos, columnas anchas, gráficos y en memoria. Estas bases de datos multimodales proporcionan soporte nativo para diferentes tipos de datos y los últimos modelos de desarrollo, y pueden ejecutar muchos tipos de cargas de trabajo, incluidos IoT, análisis, ML e IA.
Las buenas prácticas de gestión de datos sugieren que el almacenamiento de datos se optimice para realizar análisis de rendimiento en datos estructurados. Esto requiere un esquema definido para satisfacer requisitos de análisis de datos específicos para casos de uso concretos, como paneles de control, visualización de datos y otras tareas de inteligencia empresarial. Estos requisitos de datos generalmente son dirigidos y documentados por los usuarios empresariales en asociación con ingenieros de datos, quienes en última instancia trabajarán con el modelo de datos definido.
La estructura subyacente de un almacén de datos suele organizarse como un sistema relacional que utiliza un formato de datos estructurado, obteniendo los datos de bases de datos transaccionales. Sin embargo, para los datos no estructurados y semiestructurados, los data lakes incorporan datos de sistemas relacionales y no relacionales, y otras tareas de inteligencia empresarial. Los data lakes suelen preferirse a las demás opciones de almacenamiento porque normalmente son un entorno de almacenamiento de bajo coste, que puede albergar petabytes de datos sin procesar.
Los data lakes benefician en particular a los científicos de datos, ya que les permiten incorporar datos estructurados y no estructurados en sus proyectos de ciencia de datos.Sin embargo, los almacenes de datos y los data lakes tienen sus propias limitaciones. Los formatos de datos patentados y los altos costes de almacenamiento limitan la colaboración y las implementaciones de modelos de IA y ML dentro de un almacén de datos.
Por el contrario, los data lakes se enfrentan al reto de extraer conocimientos directamente de forma gobernada y eficaz. Un lakehouse de datos aborda estas limitaciones gestionando múltiples formatos abiertos a través del almacenamiento de objetos en la nube y combina datos de múltiples fuentes, incluidos los repositorios existentes, para permitir en última instancia analytics y IA a escala.
Las estrategias multinube e híbridas son cada vez más populares. Las tecnologías de IA están impulsadas por cantidades masivas de datos que requieren almacenes de datos modernos que residan en arquitecturas nativas de la nube para proporcionar escalabilidad, optimización de costos, rendimiento y continuidad del negocio. Según Gartner2, para finales de 2026, "el 90 % de las herramientas y plataformas de gestión de datos que no admitan capacidades multinube e híbridas estarán listas para su desmantelamiento".
Si bien las herramientas existentes ayudan a los administradores de bases de datos (DBA) a automatizar numerosas tareas de gestión convencionales, la participación manual sigue siendo necesaria debido a la naturaleza normalmente grande e intrincada de las configuraciones de bases de datos. Cada vez que es necesaria una intervención manual, aumenta la probabilidad de que se cometan errores. Minimizar la necesidad de gestión de datos es el objetivo principal en el funcionamiento de las bases de datos como servicios totalmente gestionados.
Las bases de datos en la nube totalmente gestionadas automatizan tareas que consumen mucho tiempo, como actualizaciones, copias de seguridad, parches y mantenimiento. Este enfoque ayuda a liberar a los DBA de tareas manuales que consumen mucho tiempo para dedicar más tiempo a tareas valiosas como la optimización de esquemas, nuevas aplicaciones nativas de la nube y soporte para nuevos casos de uso de IA. Al igual que con las implementaciones on-premises, los proveedores de almacenamiento en la nube también permiten a los usuarios crear grandes clústeres según sea necesario, a menudo requiriendo el pago solo por el almacenamiento especificado. Esto significa que si una organización necesita más potencia de cálculo para ejecutar un trabajo en unas pocas horas (en lugar de unos pocos días), puede hacerlo en una plataforma en la nube comprando más nodos de cálculo.
Este cambio hacia plataformas de datos en la nube también está facilitando la adopción del proceso de datos. Herramientas como Apache Kafka permiten un proceso de datos más en tiempo real, de modo que los consumidores pueden suscríbase a temas para recibir datos en cuestión de segundos. Sin embargo,el procesamiento por lotes sigue teniendo sus ventajas, ya que es más eficiente al procesar grandes volúmenes de datos. Si bien el procesamiento por lotes se rige por un cronograma establecido, como diario, semanal o mensual, es ideal para los paneles de control de rendimiento, que generalmente no requieren datos en tiempo real.
Más recientemente, han surgido tejidos de datos para ayudar con la complejidad de la gestión de estos sistemas de datos. Los tejidos de datos utilizan sistemas inteligentes y automatizados para facilitar la integración de principio a fin de los pipelines de datos y los entornos en la nube. Un data fabric también simplifica la entrega de datos de calidad y proporciona un marco para aplicar políticas de gobierno de datos que ayuden a garantizar que los datos utilizados son conformes. Esto facilita el acceso de autoservicio a productos de datos fiables mediante la conexión a datos que residen a través de silos organizativos, de modo que los líderes empresariales obtengan una visión más holística del rendimiento empresarial. La unificación de los datos de RR. HH., marketing, ventas, cadena de suministro y otros proporciona a los líderes una mejor comprensión de su cliente.
Una malla de datos también podría ser útil. Un tejido de datos es una arquitectura que facilita la integración de principio a fin. Por el contrario, una malla de datos es una arquitectura de datos descentralizada que organiza los datos por un dominio empresarial específico, por ejemplo, marketing, ventas, servicio de atención al cliente, etc. Este enfoque proporciona más propiedad a los productores de un conjunto de datos.
En esta etapa del ciclo de vida de la gestión de datos, los datos sin procesar se ingieren de una variedad de fuentes de datos, como API web, aplicaciones móviles, dispositivos de Internet de las cosas (IoT), formularios, encuestas y más.Después de la recopilación de datos, estos se suelen procesar o cargar mediante técnicas de integración de datos, como extracción, transformación, carga (ETL) o extracción, carga, transformación (ELT). Aunque ETL ha sido históricamente el método estándar para integrar y organizar datos en diferentes conjuntos de datos, ELT ha ido creciendo en popularidad con la aparición de plataformas de datos en la nube y la creciente demanda de datos en tiempo real.
Además del procesamiento por lotes,la replicación de datos es un método alternativo de integración de datos y consiste en sincronizar datos desde una ubicación de origen a una o más ubicaciones de destino, lo que ayuda a garantizar la disponibilidad, fiabilidad y resiliencia de los datos. La tecnología como la captura de cambios en los datos (CDC) utiliza la replicación basada en registros para capturar los cambios realizados en los datos en el origen y propagarlos a los sistemas de destino, lo que ayuda a las organizaciones a tomar decisiones basándose en la información actual.
Independientemente de la técnica de integración de datos utilizada, los datos normalmente se filtran, fusionan o se agregan durante el proceso de datos para cumplir con los requisitos de su propósito previsto. Estas aplicaciones pueden variar desde un panel de control de inteligencia empresarial hasta un algoritmo de machine learning predictivo.
El uso de la integración continua y la implementación continua (CI/CD) para el control de versiones puede permitir a los equipos de datos realizar un seguimiento de los cambios en sus códigos y activos de datos. El control de versiones permite que los equipos de datos colaboren de forma más efectiva, ya que pueden trabajar en diferentes partes de un proyecto simultáneamente y fusionar sus cambios sin conflictos.
El gobierno de datos promueve la disponibilidad y el uso de los datos. Para ayudar a garantizar el cumplimiento, el gobierno suele incluir procesos, políticas y herramientas en torno a la calidad de los datos, el acceso a datos, la usabilidad y la seguridad de datos. Por ejemplo, los consejos de gobierno de datos tienden a alinear las taxonomías para ayudar a garantizar que los metadatos se agreguen de manera consistente en varias fuentes de datos. Una taxonomía también se puede documentar aún más a través de un catálogo de datos para que los datos sean más accesibles para los usuarios, lo que facilita la democratización de los datos en toda la organización.
Enriquecer los datos con el contexto empresarial adecuado es crítico para la aplicación automatizada de las políticas de gobierno de datos y la calidad de los datos. Aquí es donde entran en vigor las normas de los acuerdos de nivel de servicio (SLA), que ayudan a garantizar que los datos estén protegidos y tengan la calidad requerida. También es importante comprender la procedencia de los datos y obtener transparencia en el recorrido de los datos a medida que se mueven por los pipelines. Esto requiere capacidades robustas de linaje de datos para impulsar la visibilidad a medida que los datos de la organización van desde las fuentes de datos hasta los usuarios finales. Los equipos de gobierno de datos también definen roles y responsabilidades para ayudar a garantizar que el acceso a datos se proporcione de forma adecuada. Este acceso controlado es particularmente importante para mantener la protección de datos.
La seguridad de datos establece barreras para proteger la información digital del acceso no autorizado, la corrupción o el robo. A medida que la tecnología digital se convierte en una parte cada vez más importante de nuestras vidas, las prácticas de seguridad de las empresas modernas se someten a un mayor escrutinio. Este escrutinio es importante para ayudar a proteger los datos de los clientes de los ciberdelincuentes o para ayudar a prevenir incidentes que necesitan recuperación ante desastres. Si bien la pérdida de datos puede ser devastadora para cualquier empresa, las vulneraciones de datos, en particular, pueden tener consecuencias costosas tanto desde el punto de vista financiero como de marca. Los equipos de seguridad de datos pueden proteger mejor sus datos utilizando el cifrado y el enmascaramiento de datos dentro de su estrategia de seguridad de datos.
La observabilidad de los datos se refiere a la práctica de monitorizar, gestionar y mantener los datos de forma que se garantice su calidad, disponibilidad y fiabilidad en los distintos procesos, sistemas y pipelines de una organización. La observabilidad de los datos consiste en comprender realmente la salud de los datos de una organización y su estado en todo un ecosistema de datos. Incluye diversas actividades que van más allá de la vigilancia tradicional, que solo describe un problema. La observabilidad de los datos puede ayudar a identificar, localizar y resolver problemas casi en tiempo real.
La gestión de datos maestros (MDM) se centra en la creación de una visión única y de alta calidad de las entidades de la actividad principal, incluidos productos, clientes, empleados y proveedores. Al ofrecer vistas precisas de los datos maestros y sus relaciones, la MDM permite obtener conocimientos más rápido, mejorar la calidad de los datos y la preparación para el cumplimiento. Con una vista única de 360 grados de los datos maestros en toda la empresa, la MDM permite a las empresas disponer de los datos adecuados para impulsar el análisis, determinar sus productos y mercados más exitosos y sus clientes más valiosos.
Las organizaciones experimentan múltiples beneficios cuando inician y mantienen iniciativas de gestión de datos.
Muchas empresas crean sin darse cuenta silos de datos dentro de su organización. Las herramientas y marcos modernos de gestión de datos, como los data fabrics y los data lakes, ayudan a eliminar los silos y las dependencias de los propietarios de los datos. Por ejemplo, los data fabrics ayudan a revelar posibles integraciones a través de conjuntos de datos dispares en funciones, como recursos humanos, marketing y ventas. Sin embargo, los data lakes consumen datos sin procesar de esas mismas funciones, eliminando dependencias y eliminando propietarios únicos de un conjunto de datos.
Los consejos de gobierno ayudan a colocar barreras para proteger a las empresas de las multas y de la publicidad negativa que puede producirse debido al incumplimiento de las normativas y políticas de gobierno. Los errores aquí pueden ser costosos tanto desde el punto de vista de la marca como desde el financiero.
Aunque es posible que este beneficio no se perciba de inmediato, una prueba de concepto satisfactoria puede mejorar la experiencia general del usuario, al permitir a los equipos comprender y personalizar mejor el recorrido del cliente mediante análisis más holísticos.
La gestión de datos puede ayudar a las empresas a escalar, pero esto depende en gran medida de la tecnología y los procesos implementados. Por ejemplo, las plataformas en la nube permiten una mayor flexibilidad, de modo que los propietarios de los datos pueden ampliar o reducir su potencia de cálculo según sea necesario.
En la última década, los desarrollos dentro de la nube híbrida, la inteligencia artificial, el Internet de las cosas (IoT) y el edge computing han llevado al crecimiento exponencial del big data, creando aún más complejidad de gestión para las empresas. Los nuevos componentes seguirán mejorando las capacidades de gestión de datos. Estas son algunas de las últimas:
Para impulsar aún más las capacidades de gestión de datos, la gestión de datos aumentada es cada vez más popular. Se trata de una rama de la inteligencia aumentada, impulsada por tecnologías cognitivas, que incluyen IA, ML, automatización de datos, data fabric y data mesh. Los beneficios de esta automatización incluyen permitir a los propietarios de datos crear productos de datos como catálogos de activos de datos, con la capacidad de buscar y encontrar productos de datos, y consultar objetos visuales y productos de datos mediante API. Además, los conocimientos de los metadatos del data fabric pueden ayudar a automatizar tareas aprendiendo de patrones como parte del proceso de creación de productos de datos o como parte del proceso de gestión de datos de monitorización de productos de datos.
Un almacén de datos para IA generativa como IBM watsonx.data puede ayudar a las organizaciones a unificar, seleccionar y preparar datos de manera eficiente para modelos de IA y aplicaciones. Las capacidades de embedding integradas y vectorizadas permiten casos de uso de generación aumentada por recuperación (RAG) a escala en grandes conjuntos de datos controlados y de confianza.
Para simplificar la conectividad y la seguridad de las aplicaciones a través de plataformas, clústeres y nubes, una implementación de nube híbrida puede resultar de ayuda. Las aplicaciones se pueden implementar y mover fácilmente entre entornos porque los contenedores y el almacenamiento de objetos han hecho que la computación y los datos sean portátiles.
Para acelerar el acceso a datos y desbloquear nuevos conocimientos de los mismos sin SQL, las organizaciones están creando una capa semántica incrustada y potenciada por IA. Se trata de una capa de metadatos y abstracción que se construye sobre los datos fuente de la organización, como un data lake o un almacén. Los metadatos pueden enriquecer el modelo de datos utilizado y también ser lo suficientemente claros como para que los usuarios empresariales los entiendan.
Las organizaciones pueden acceder a los datos a través de una nube híbrida conectando los entornos de almacenamiento y análisis. Este acceso puede realizarse a través de un único punto de entrada con una capa de metadatos compartida en las nubes y los entornos on-premises. Se pueden utilizar varios motores de consulta para optimizar las cargas de trabajo de análisis e IA.
Crear una capa de metadatos compartida en un lakehouse de datos para catalogar y compartir datos es una buena práctica. Esto acelera el descubrimiento y el enriquecimiento, el análisis de datos en múltiples fuentes, la ejecución de múltiples cargas de trabajo y casos de uso.
Además, una herramienta de gestión de metadatos compartidos acelera la gestión de objetos en un repositorio compartido. Se puede utilizar para añadir un nuevo sistema host, añadir una nueva base de datos o archivo de datos, o añadir un nuevo esquema, además de eliminar elementos de un repositorio compartido.
Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.
Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.
1 Wire19.com: “Ways to ensure that your data is AI-ready”. 14 de junio de 2024.
2 Gartner: "Strategic Roadmap for Migrating Data Management Solutions to the Cloud". 27 de septiembre de 2023.