Mediante el uso de metadatos y herramientas de gestión de datos, los catálogos de datos organizan los activos de datos para que los usuarios, como analistas de datos, científicos de datos y administradores de datos, puedan encontrar rápidamente los datos adecuados para sus casos de uso analítico o empresarial. Muchos catálogos de datos admiten la búsqueda en lenguaje natural, lo que permite a los usuarios descubrir datos sin escribir código ni consultas SQL.
Los catálogos de datos suelen incluir una amplia gama de activos de datos, entre ellos:
Un catálogo de datos sólido también incluye capacidades de gestión de metadatos para recopilar y curar los metadatos de cada activo de datos. Estas características pueden facilitar la identificación, la evaluación y el uso eficaz de los datos. El catálogo también debe proporcionar herramientas de gobierno de datos para ayudar a salvaguardar la calidad de los datos, la integridad de los datos y la seguridad de los datos.
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Los metadatos son los "datos sobre los datos". Es información sobre los datos independiente del contenido de los datos en sí, como el autor, la fecha de creación o el tamaño del archivo. Los metadatos facilitan la búsqueda, la organización y el uso de los datos.
Un ejemplo clásico de metadatos es el catálogo de tarjetas o el catálogo en línea de una biblioteca. En ellas, cada ficha o listado contiene información sobre un libro: título, autor, tema, fecha de publicación, edición, ubicación dentro de la biblioteca o sinopsis.
Esta información facilita a los lectores la búsqueda y evaluación del libro: ¿Está actualizado o desactualizado? ¿Tiene la información que busco? ¿Es el autor alguien en quien confío o cuyo trabajo disfruto? Del mismo modo, los metadatos facilitan a los usuarios de datos la búsqueda y evaluación de los datos de su organización.
Los distintos tipos de metadatos cumplen funciones diferentes. Los catálogos de datos suelen tratar varias clases de metadatos, entre los que se incluyen:
Los metadatos técnicos describen los detalles técnicos de los datos, como el tipo de archivo, la información de codificación, los esquemas y la ubicación de almacenamiento. Esto informa a los usuarios cómo trabajar con los datos, por ejemplo, si requieren transformación para el análisis.
Los metadatos operativos describen las circunstancias de la creación y el uso del activo de datos. Por ejemplo, incluye información sobre cuándo, cómo y quién ha accedido a ella, la ha utilizado, la ha actualizado o la ha modificado.
Los metadatos administrativos definen las políticas de uso y retención de datos. Este tipo de metadatos se utiliza en el gobierno de datos y puede ayudar a las organizaciones a cumplir con las políticas legales, normativas e internas.
Los metadatos empresariales describen el contexto empresarial de un activo de datos y su relevancia para la organización. Estos metadatos son fáciles de entender tanto para los profesionales de datos como para los usuarios empresariales.
Normalmente, un catálogo de datos tiene herramientas de gestión de metadatos para seleccionar y enriquecer los metadatos con etiquetas, asociaciones, clasificaciones y anotaciones.
Las organizaciones modernas albergan entornos de datos cada vez más complejos. Los activos pueden proceder de varios entornos en la nube y sistemas en las instalaciones, así como de equipos, geografías y plataformas aislados. Un catálogo de datos facilita a cualquier usuario la búsqueda, evaluación y uso de todos estos datos con poca destreza técnica o esfuerzo.
Considera esta analogía: los sistemas de bibliotecas digitales ahorran a los lectores el tiempo y el esfuerzo de recorrer las estanterías en busca de un libro específico. Un catálogo de datos tiene una finalidad similar, ya que ayuda a los usuarios a encontrar rápidamente los datos que necesitan en lugar de tener que navegar por conjuntos de datos enormes y desorganizados. Un mejor acceso a datos mejora significativamente la eficiencia de las iniciativas de generación de conocimiento en toda la organización, del mismo modo que el catálogo de una biblioteca digital permite a los lectores llegar más rápido a la primera página.
Los catálogos de datos también desempeñan un papel crucial en el gobierno de datos, la mitigación de riesgos y el cumplimiento normativo, especialmente para evitar las infracciones. Las capacidades en este ámbito van desde la clasificación automatizada de datos confidenciales hasta las notificaciones cuando se detectan anomalías en los datos.
A través de los catálogos de datos, los profesionales de datos pueden acceder a los datos de forma independiente, sin depender de equipos de TI, ingenieros de datos o correr el riesgo de problemas de cumplimiento y gobernanza. Estos factores crean un entorno de datos ágil y autosuficiente que beneficia a toda la organización.
Los catálogos de datos y los diccionarios de datos tienen propósitos diferentes, pero trabajan juntos para hacer que los datos sean más utilizables.
Un catálogo de datos ofrece una visión general amplia de todos los activos de datos de una organización. Proporciona un contexto empresarial que ayuda a los usuarios a descubrir y evaluar conjuntos de datos.
Por el contrario, un diccionario de datos define la estructura y el contenido de conjuntos de datos individuales. Incluye detalles como nombres de campo, tipos de datos, valores permitidos, rangos y formatos. También garantiza que los campos de datos estén estandarizados en diferentes proyectos, archivos y programas de datos.
Los catálogos de datos proporcionan una variedad de beneficios que respaldan la detección de datos, el gobierno y el uso de datos en toda una organización, que incluyen:
Los catálogos de datos permiten el análisis autoservicio, lo que facilita a los analistas de datos encontrar, acceder, preparar y confiar en los datos, acelerando así el proceso general de análisis de datos.
Al crear una división óptima del trabajo entre los usuarios y TI, los catálogos de datos reducen los cuellos de botella. Los ciudadanos de los datos pueden acceder a los datos y analizarlos de forma independiente, lo que permite a los equipos de TI centrarse en tareas estratégicas y de alta prioridad.
Con datos centralizados, contextuales y fiables al alcance de la mano, los profesionales de los datos pueden responder más rápido y tomar decisiones mejor informadas, lo que les ayuda a cumplir las métricas de inteligencia empresarial (BI) y big data.
Al promover, simplificar y automatizar el gobierno, los catálogos de datos proporcionan a los analistas la confianza de que están trabajando con los datos que están autorizados a utilizar, de conformidad con las normativas del sector y de protección de datos.
Los catálogos de datos pueden unificar grandes cantidades de datos aislados de todas las fuentes de datos de una organización (como almacenes de datos, data lakes y lakehouses de datos). Romper estos silos promueve una mayor accesibilidad a los datos y la colaboración entre los stakeholders.
Los catálogos de datos modernos ofrecen un amplio conjunto de herramientas y capacidades que ayudan a los consumidores de datos a encontrar, comprender y utilizar de forma responsable los datos de la empresa. Las características clave incluyen:
Un catálogo de datos de IA utiliza tecnologías avanzadas como la automatización, la inteligencia artificial y el machine learning para mejorar y optimizar las funcionalidades tradicionales del catálogo de datos. Las características clave de un catálogo de datos de IA pueden incluir:
Respaldados por la inteligencia de datos, los catálogos de datos con IA pueden automatizar el enriquecimiento de metadatos técnicos en tiempo real en miles de activos de datos.
Mediante una clasificación avanzada de los datos, los catálogos de datos con IA pueden identificar y etiquetar los datos confidenciales y, a continuación, aplicar normas de protección de datos y seguridad, como controles de acceso.
Con la búsqueda inteligente, los catálogos de datos de IA pueden utilizar el procesamiento del lenguaje natural para ampliar y mejorar las consultas de los usuarios para obtener resultados e información más relevantes.
Active los datos para la IA y el análisis con catalogación inteligente y gestión de políticas. IBM Knowledge Catalog es un software de gobierno del dato que proporciona un catálogo de datos para automatizar el descubrimiento, la gestión de la calidad y la protección de los datos.
Transforme rápidamente los datos sin procesar en conocimiento práctico, unifique el gobierno, la calidad, el linaje y el uso compartido de los datos, y capacite a los consumidores de datos con datos fiables y contextualizados.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.