Data management, o gestión de datos es la práctica de recopilar, procesar y emplear datos de forma segura y eficiente para obtener mejores resultados empresariales.
El 72 % de los CEO con mejor desempeño está de acuerdo en que la ventaja competitiva depende de quién tenga la IA generativa más avanzada. Sin embargo, para beneficiarse de la inteligencia artificial (IA), las organizaciones primero deben organizar su arquitectura de información para que sus datos sean accesibles y utilizables. Los desafíos fundamentales de la gestión de datos incluyen volúmenes de datos y silos de datos en múltiples ubicaciones y proveedores de la nube. Los nuevos tipos de datos y diversos formatos, como documentos, imágenes y videos, también presentan desafíos. Además, la complejidad y los conjuntos de datos inconsistentes pueden limitar la capacidad de una organización para emplear datos para IA.
Como resultado de estos desafíos, una estrategia de gestión de datos eficaz se ha convertido en una prioridad cada vez mayor para que las organizaciones aborden los desafíos que presenta el big data. Un sistema de gestión de datos flexible y moderno se integra con la tecnología existente dentro de una organización para acceder a datos utilizables de alta calidad para científicos de datos, ingenieros de IA y machine learning (ML) y los usuarios empresariales de la organización.
Una estrategia completa de gestión de datos tiene en cuenta varios factores, entre ellos, cómo:
Si bien las herramientas de gestión de datos para construir aplicaciones de IA generativa están ampliamente disponibles, los datos en sí mismos tienen valor tanto para los clientes como para las compañías. Los grandes volúmenes de datos de calidad deben organizar y procesar adecuadamente para capacitar modelos con éxito. Este enfoque es un caso de uso en rápido crecimiento para la gestión moderna de datos.
Por ejemplo, durante el Campeonato de Wimbledon de 2023 se ofreció un comentario generativo impulsado por IA, que accedió a información de 130 millones de documentos y 2,7 millones de puntos de datos contextuales pertinentes en tiempo real. Los visitantes que empleaban la aplicación o el sitio web del torneo podían acceder a estadísticas completas, narración jugada por jugada y comentarios del juego, así como una predicción precisa del ganador en cualquier momento a medida que avanzaban los partidos. Contar con una estrategia de gestión de datos adecuada puede ayudar a garantizar que los datos valiosos estén siempre disponibles, integrados, gobernados, seguros y precisos.
La IA generativa puede brindar a las organizaciones una fuerte ventaja competitiva, ya que su estrategia de IA se basa en la solidez de los datos empleados. Muchas organizaciones aún luchan con desafíos fundamentales de datos que se ven exacerbados por la demanda de IA generativa, que requiere cada vez más datos, lo que genera aún más dolores de cabeza en la gestión de datos.
Los datos pueden almacenarse en múltiples ubicaciones, aplicaciones y nubes, lo que a menudo conduce a silos de datos aislados. Para agregar aún más complejidad, los usos de los datos se volvieron más variados, con datos en formatos variados y complejos, como imágenes, videos, documentos y audio. Se requiere más tiempo para la limpieza, integración y preparación de los datos. Estos desafíos pueden llevar a las organizaciones a evitar el uso de todo su patrimonio de datos con fines de analytics e IA.
Sin embargo, equipados con herramientas modernas para la arquitectura de datos, la gobernanza y la seguridad, los datos se pueden utilizar con éxito para obtener nuevos insights y hacer predicciones más precisas de forma coherente. Esta capacidad puede permitir una comprensión más profunda de las preferencias del cliente y puede mejorar la experiencia del cliente (CX) al ofrecer insights derivados del análisis de datos. Además, facilita el desarrollo de modelos de negocio innovadores basados en datos, como las ofertas de servicios que dependen de la IA generativa, que necesitan una base de datos de alta calidad para el entrenamiento de modelos.
Los líderes de datos y analytics se enfrentan a grandes desafíos a la hora de transformar sus organizaciones debido a la creciente complejidad del escenario de datos en los despliegues de nube híbrida. La IA generativa y los asistentes de IA, machine learning (ML), analytics avanzados, Internet de las cosas (IoT), y automatización también requieren grandes volúmenes de datos para funcionar de forma eficaz. Estos datos deben almacenar, integrar, gobernar, transformar y preparar para la base de datos adecuada. Y para construir una base de datos estable para la IA, las organizaciones deben centrar en construir una base de datos abierta y confiable, lo que significa crear una estrategia de gestión de datos que se centre en la apertura, la confianza y la colaboración.
El requisito de IA fue resumido por un analista de Gartner1: "Los datos listos para la IA significan que sus datos deben ser representativos del caso de uso, incluidos todos los patrones, errores, valores atípicos y emergencias inesperadas que se necesitan para entrenar o ejecutar el modelo de IA para el uso específico”.
Los ejecutivos de datos y analytics pueden sentir que los datos preparados con IA equivalen a datos de alta calidad, pero los estándares de datos de alta calidad para fines distintos de la IA no necesariamente cumplen con el estándar de preparación para la IA. En el ámbito de las analytics, por ejemplo, los datos suelen refinarse para eliminar valores atípicos o ajustarse a las expectativas humanas. Sin embargo, al entrenar un algoritmo, necesita datos representativos.
Lagobernanza de datos es un subconjunto de la gestión de datos. Esto significa que cuando un equipo de gobernanza de datos identifica puntos en común entre conjuntos de datos dispares y quiere integrarlos, deberá asociarse con un equipo de arquitectura o ingeniería de bases de datos para definir el modelo de datos y la arquitectura de datos para facilitar los vínculos y los flujos de datos. Otro ejemplo se refiere al acceso a los datos. Un equipo de gobernanza de datos podría establecer las políticas en torno al acceso a los datos a tipos específicos de datos, como la información de identificación personal (PII). Mientras tanto, un equipo de gestión de datos proporcionaría acceso directo o establecería un mecanismo para proporcionar acceso, como ajustar los roles de usuario definidos internamente para aprobar el acceso.
La gestión eficaz de los datos, incluidas las prácticas sólidas de gobernanza de datos, puede ayudar a cumplir con la normativa. Este cumplimiento abarca las regulaciones de privacidad de datos nacionales y globales, como el Reglamento General de Protección de Datos (GDPR) y la California Consumer Privacy Act (CCPA), junto con los estándares de privacidad y seguridad específicos de la industria. Establecer políticas y procedimientos exhaustivos de gestión de datos resulta crucial para demostrar o someter a auditorías que validen estas protecciones.
Las soluciones modernas de gestión de datos proporcionan una forma eficiente de gestionar datos y metadatos en diversos conjuntos de datos. Los sistemas modernos se crean con el software de gestión de datos más reciente y bases de datos o almacenes de datos confiables. Esto puede incluir data lakes, almacenes de datos o data lakehouses transaccionales, combinados con una arquitectura de data fabric que incluye ingesta de datos, gobernanza, linaje, observabilidad y master data management. En conjunto, esta base de datos confiable puede alimentar datos de calidad a los consumidores de datos como productos de datos, business intelligence (BI) y paneles, y modelos de IA, tanto machine learning (ML) como IA generativa.
Una estrategia sólida de administración de datos generalmente incluye múltiples componentes para optimizar la estrategia y las operaciones en toda la organización.
Aunque los datos pueden almacenar antes o después del procesamiento de datos, el tipo de datos y su finalidad suelen dictar el repositorio de almacenamiento que se emplea. Mientras que las bases de datos relacionales organizan los datos en un formato tabular, las no relacionales no tienen un esquema de base de datos tan rígido.
Las bases de datos relacionales también suelen estar asociadas a bases de datos transaccionales, que ejecutan comandos o transacciones de forma colectiva. Un ejemplo es una transferencia bancaria. Se retira un monto determinado de una cuenta y luego se deposita en otra. Pero para que las empresas admitan tipos de datos estructurados y no estructurados, requieren bases de datos especialmente diseñadas. Estas bases de datos también deben atender diversos casos de uso en analytics, IA y aplicaciones. Deben abarcar bases de datos relacionales y no relacionales, como clave-valor, documento, columna ancha, gráfico e in-memory. Estas bases de datos multimodales brindan soporte nativo para diferentes tipos de datos y los últimos modelos de desarrollo, y pueden ejecutar muchos tipos de cargas de trabajo, incluidos IoT, analytics, machine learning (ML) e IA.
Las mejores prácticas de gestión de datos sugieren que el almacenamiento de datos se optimice para analytics de alto rendimiento en datos estructurados. Esto requiere un esquema definido para cumplir con los requerimientos específicos de data analytics para casos de uso específicos, como paneles, data visualization y otras tareas de business intelligence. Estos requerimientos de datos generalmente son dirigidos y documentados por los usuarios empresariales en asociación con ingenieros de datos, quienes en última instancia se ejecutarán en el modelo de datos definido.
La estructura subyacente de un almacén de datos suele organizarse como un sistema relacional que utiliza un formato de datos estructurados, obteniendo datos de bases de datos transaccionales. Sin embargo, para los datos no estructurados y semiestructurados, losdata lakes incorporan datos de sistemas relacionales y no relacionales, y otras tareas de business intelligence. Los data lakes a menudo se prefieren a las otras opciones de almacenamiento porque normalmente son un entorno de almacenamiento de bajo costo, que puede albergar petabytes de datos sin procesar.
Los data lakes proporcionan un beneficio a los científicos de datos, ya que les permiten incorporar datos estructurados y no estructurados en sus proyectos de ciencia de datos . Sin embargo, los almacenes de datos y los data lakes tienen sus propias limitaciones. Los formatos de datos propietarios y los altos costos de almacenamiento limitan la colaboración y las despliegues de modelos de IA y machine learning (ML) dentro de un entorno de almacén de datos.
Por el contrario, los data lakes se enfrentan al desafío de extraer insights directamente de manera gobernada y eficaz. Un data lakehouse abiertos aborda estas limitaciones al manejar múltiples formatos abiertos a través del cloud object storage y combina datos de múltiples fuentes, incluidos los repositorios existentes, para permitir en última instancia analytics y la IA a escala.
Las estrategias multinube e híbrida son cada vez más populares. Las tecnologías de IA funcionan con cantidades masivas de datos que requieren almacenes de datos modernos que residen en arquitecturas nativas de la nube para brindar escalabilidad, optimización de costos, rendimiento y continuidad de negocio. De acuerdo con Gartner2, para finales de 2026, "el 90 % de las herramientas y plataformas de gestión de datos que no admitan capacidades multi-nube y híbridas estarán listas para su desmantelamiento".
Si bien las herramientas existentes ayudan a los administradores de bases de datos (DBA) a automatizar numerosas tareas de gestión convencionales, la participación manual sigue siendo necesaria debido a la naturaleza típicamente grande e intrincada de las configuraciones de bases de datos. Siempre que se hace necesaria la intervención manual, aumenta la probabilidad de errores. Minimizar la necesidad de gestión manual de datos es un objetivo primordial al operar bases de datos como servicios totalmente gestionados.
Las cloud databases totalmente gestionadas automatizan tareas que consumen mucho tiempo, como actualizaciones, copias de seguridad, aplicación de parches y mantenimiento. Este enfoque ayuda a liberar a los DBA de tareas manuales que consumen mucho tiempo para dedicar más tiempo a tareas valiosas, como la optimización de esquemas, nuevas aplicaciones nativas de la nube y soporte para nuevos casos de uso de IA. Al igual que en los despliegues on-premises, los proveedores de espacio en la nube también permiten a los usuarios poner en marcha grandes clústeres según sea necesario, y por lo general solo requieren el pago por el almacenamiento especificado. Esto significa que si una organización necesita más potencia de cómputo para ejecutar un trabajo en unas pocas horas (en lugar de unos días), puede hacerlo en una plataforma en la nube comprando más nodos.
Este cambio hacia las plataformas de datos en la nube también está facilitando la adopción del procesamiento de datos en streaming. Herramientas como Apache Kafka permiten un procesamiento de datos más en tiempo real, de modo que los consumidores pueden suscribirse a temas para recibir datos en cuestión de segundos. Sin embargo, el procesamiento por lotes sigue teniendo sus beneficios, ya que es más eficaz a la hora de procesar grandes volúmenes de datos. Mientras que el procesamiento por lotes se rige por un calendario establecido, como diario, semanal o mensual, es ideal para los paneles de rendimiento, que normalmente no requieren datos en tiempo real.
Más recientemente, surgieron data fabrics para ayudar con la complejidad de la gestión de estos sistemas de datos. Los data fabrics emplean sistemas inteligentes y automatizados para facilitar la integración de extremo a extremo de pipelines de datos y los entornos en la nube. Un data fabric también simplifica la entrega de datos de calidad y proporciona una infraestructura para aplicar políticas de gobernanza de datos para ayudar a garantizar que los datos empleados cumplan con la normativa. Esto facilita el acceso de autoservicio a productos de datos confiables al conectarse a los datos que residen en silos organizacionales, de modo que los líderes empresariales obtienen una visión más holística del rendimiento empresarial. La unificación de datos en RR. HH., marketing, ventas, cadena de suministro y otros proporciona a los líderes una mejor comprensión de sus clientes.
Un data mesh también podría ser útil. Un data fabric es una arquitectura que facilita la integración de extremo a extremo. Por el contrario, un data mesh es una arquitectura de datos descentralizada que organiza los datos por un dominio empresarial específico, por ejemplo, marketing, ventas, atención al cliente, etc. Este enfoque proporciona más propiedad a los productores de un conjunto de datos.
En esta fase del ciclo de vida de la gestión de datos, los datos sin procesar se ingieren desde un serie de fuentes de datos, como web API, aplicaciones móviles, dispositivos del Internet de las Cosas (IoT), formularios, encuestas, etc. Tras la recopilación de datos, estos suelen procesarse o cargarse mediante técnicas de integración de datos, como la extracción, transformación y carga (ETL) o la extracción, carga y transformación (ELT). Si bien ETL fue históricamente el método estándar para integrar y organizar datos en diferentes conjuntos de datos, ELT fue creciendo en popularidad con la aparición de plataformas de datos en la nube y la creciente demanda de datos en tiempo real.
Además del procesamiento por lotes, data replication es un método alternativo de integración de datos y consiste en sincronizar datos desde una ubicación de origen a una o más ubicaciones de destino, lo que ayuda a garantizar la disponibilidad, confiabilidad y resiliencia de los datos. Tecnología como la captura de datos modificados (CDC) usa la replicación basada en registros para capturar los cambios realizados en los datos en el origen y propagar esos cambios a los sistemas de destino, lo que ayuda a las organizaciones a tomar decisiones basadas en la información actual.
Independientemente de la técnica de integración de datos utilizada, los datos normalmente se filtran, fusionan o agregan durante la etapa de procesamiento de datos para cumplir con los requisitos de su propósito previsto. Estas aplicaciones pueden variar desde un panel de business intelligence hasta un algoritmo de machine learning predictivo.
El uso de la integración continua y el despliegue continuo (CI/CD) para el control de versiones puede permitir a los equipos de datos realizar un seguimiento de los cambios en su código y activos de datos. El control de versiones permite que los equipos de datos colaboren de forma más efectiva, ya que pueden trabajar en diferentes partes de un proyecto simultáneamente y fusionar sus cambios sin conflictos.
La gobernanza de datos promueve la disponibilidad y el uso de los datos. Para ayudar a garantizar el cumplimiento, la gobernanza generalmente incluye procesos, políticas y herramientas en torno a la calidad de los datos, el acceso a los datos, la usabilidad y la seguridad de los datos. Por ejemplo, los consejos de gobernanza de datos tienden a alinear taxonomías para ayudar a garantizar que los metadatos se agreguen de manera consistente en varias fuentes de datos. Una taxonomía también se puede documentar aún más a través de un catálogo de datos para que los datos sean más accesibles para los usuarios, lo que facilita la democratización de los datos en toda la organización.
Enriquecer los datos con el contexto empresarial adecuado es crítico para la aplicación automatizada de las políticas de gobernanza de datos y la calidad de los mismos. Aquí es donde entran en juego las normas de los acuerdos de nivel de servicio (SLA ), que ayudan a garantizar la protección de los datos y la calidad requerida. También es importante comprender la procedencia de los datos y obtener transparencia en el recorrido de los datos a medida que se mueven por los conductos. Esto exige capacidades de linaje de datos sólidas para impulsar la visibilidad a medida que los datos organizacionales recorren el camino desde las fuentes de datos hasta los usuarios finales. Los equipos de gobernanza de datos también definen funciones y responsabilidades para ayudar a garantizar que el acceso a los datos se realiza de forma adecuada. Este acceso controlado es especialmente importante para mantener la privacidad de datos.
La seguridad de los datos establecemedidas de seguridad para proteger la información digital del acceso no autorizado, la corrupción o el robo. A medida que la tecnología digital se convierte en una parte cada vez más importante de nuestras vidas, las prácticas de seguridad de las empresas modernas se someten a un mayor escrutinio. Este escrutinio es importante para ayudar a proteger los datos de los clientes de los delincuentes cibernéticos o para ayudar a prevenir incidentes que necesitan recuperación ante desastres. Si bien la pérdida de datos puede ser devastadora para cualquier empresa, las filtraciones de datos, en particular, pueden tener consecuencias costosas tanto desde el punto de vista financiero como de la marca. Los equipos de seguridad de datos pueden proteger mejor sus datos mediante el uso de cifrado y enmascaramiento de datos dentro de su estrategia de seguridad de datos.
La observabilidad de los datos se refiere a la práctica de monitorear, gestionar y mantener los datos de una manera que ayude a garantizar su calidad, disponibilidad y confiabilidad en varios procesos, sistemas y pipelines dentro de una organización. La observabilidad de los datos consiste en comprender verdaderamente la salud de los datos de una organización y su estado en todo un ecosistema de datos. Incluye varias actividades que van más allá del monitoreo tradicional, que solo describe un problema. La observabilidad de los datos puede ayudar a identificar, encontrar problemas respecto de los datos y resolverlos casi en tiempo real.
Master data management (MDM) se centra en la creación de una visión única y de alta calidad de las entidades de actividad principal, incluidos productos, clientes, empleados y proveedores. Al brindar vistas precisas de los datos maestros y sus relaciones, las soluciones MDM habilitan insights más rápidos, mejoran la calidad de los datos y preparan para el cumplimiento normativo. Con una única vista de 360 grados de los datos maestros en toda la empresa, master data management permite a las empresas contar con los datos correctos para impulsar analytics, determinar sus productos y mercados más exitosos y sus clientes más valorados.
Las organizaciones experimentan múltiples beneficios a la hora de iniciar y mantener iniciativas de gestión de datos.
Muchas empresas sin darse cuenta generan silos de datos dentro de su organización. Las herramientas y las infraestructuras modernas de gestión de datos, como los data fabrics y los data lakes, ayudan a eliminar los silos de datos y las dependencias de los propietarios de los datos. Por ejemplo, los data fabrics ayudan a revelar posibles integraciones en conjuntos de datos dispares a través de las funciones, como recursos humanos, marketing y ventas. Sin embargo, los data lakes ingieren datos sin procesar de esas mismas funciones, lo que acaba con las dependencias y elimina propietarios únicos de un conjunto de datos.
Los comités de gobernanza ayudan a establecer medidas de protección para proteger a las empresas de multas y publicidad negativa que pueden ocurrir debido al incumplimiento de las regulaciones y políticas de gobierno. Los errores aquí pueden ser costosos tanto desde el punto de vista de la marca como desde el punto de vista financiero.
Aunque es posible que este beneficio no se vea de inmediato, las pruebas de concepto exitosas pueden mejorar la experiencia general del usuario, lo que permite a los equipos comprender y personalizar mejor el recorrido del cliente a través de análisis más holísticos.
La gestión de datos puede ayudar a las empresas a escalar, pero esto depende en gran medida de la tecnología y los procesos implementados. Por ejemplo, las plataformas en la nube permiten una mayor flexibilidad, de modo que los propietarios de datos pueden ampliar o reducir su potencia de cómputo según sea necesario.
Durante la última década, los desarrollos dentro de la nube híbrida, la inteligencia artificial, el Internet de las cosas (IoT) y la edge computing han llevado al crecimiento exponencial del big data, creando aún más complejidad de gestión para las empresas. Los nuevos componentes continúan mejorando las capacidades de gestión de datos. Estas son algunos de los más recientes:
Para impulsar aún más las capacidades de gestión de datos, la gestión de datos aumentada es cada vez más popular. Esta es una rama de la inteligencia aumentada, impulsada por tecnologías cognitivas, que incluyen IA, machine learning (ML), automatización de datos, data fabric y data mesh. Los beneficios de esta automatización incluyen permitir a los propietarios de datos crear productos de datos, como catálogos de activos de datos, con la capacidad de buscar y encontrar productos de datos, y consultar imágenes y productos de datos mediante el uso de API. Además, los insights de los metadatos del data fabric pueden ayudar a automatizar tareas aprendiendo de patrones como parte del proceso de creación de productos de datos o como parte del proceso de gestión de datos de monitoreo de productos de datos.
Un almacén de datos para IA generativa como IBM® watsonx.data™ puede ayudar a las organizaciones a unificar, curar y preparar datos de manera eficiente para modelos de IA y aplicaciones. Las capacidades de incorporación integradas y vectorizadas permiten casos de uso de generación aumentada por recuperación (RAG) a escala en grandes conjuntos de datos confiables y gobernados.
Para simplificar la conectividad y la seguridad de las aplicaciones en todas las plataformas, clústeres y nubes, un despliegue de nube híbrida puede ayudar. Las aplicaciones se pueden desplegar y mover fácilmente entre entornos porque los contenedores y el object storage han hecho que la informática y los datos sean portátiles.
Para acelerar el acceso a los datos y desbloquear nuevos insights de datos sin SQL, las organizaciones están creando una capa semántica integrable impulsada por IA . Se trata de una capa de metadatos y abstracción que se construye sobre los datos de origen de la organización, como un lago de datos o un almacén. Los metadatos pueden enriquecer el modelo de datos que se utiliza y también ser lo suficientemente claros para que los usuarios empresariales los entiendan.
Las organizaciones pueden acceder a los datos a través de una nube híbrida conectando entornos de almacenamiento y analytics. Este acceso puede ser a través de un único punto de entrada con una capa de metadatos compartida entre nubes y entornos on-premises. Se pueden utilizar varios motores de consulta para optimizar las cargas de trabajo de analytics e IA.
Crear una capa de metadatos compartida en un data lakehouse para catalogar y compartir datos es una de las mejores prácticas. Esto acelera el descubrimiento y el enriquecimiento, el análisis de datos a través de múltiples fuentes, la ejecución de múltiples cargas de trabajo y casos de uso.
Además, una herramienta de administración de metadatos compartidos acelera la administración de objetos en un repositorio compartido. Se puede usar para agregar un nuevo sistema host, agregar una nueva base de datos o archivo de datos, o agregar un nuevo esquema, además de eliminar elementos de un repositorio compartido.
Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.
1 Wire19.com: “Ways to ensure that your data is AI-ready”, 14 June 2024
2 Gartner: "Strategic Roadmap for Migrating Data Management Solutions to the Cloud", 27 de septiembre de 2023