Catálogo de datos

Un catálogo de datos aprovecha los metadatos y las herramientas de gestión de datos para crear un inventario de activos de datos dentro de una organización, lo que permite a los usuarios encontrar y acceder a la información de forma rápida y sencilla.

Fondo negro y azul

Catálogo de datos

Un catálogo de datos es un inventario detallado de todos los activos de datos de una organización, diseñado para ayudar a los profesionales de datos a encontrar rápidamente los datos más apropiados para cualquier propósito comercial o analítico.


¿Qué es un catálogo de datos?

Un catálogo de datos utiliza  metadatos, datos que describen o resumen datos, para crear un inventario informativo y de búsqueda de todos los activos de datos en una organización. Estos activos pueden incluir (pero no se limitan a) estas cosas:

  • Datos estructurados (tabulares)
  • Datos no estructurados, incluidos documentos, páginas web, e-mail, contenido de redes sociales, datos móviles, imágenes, audio y video
  • Informes y resultados de consultas
  • Visualizaciones de datos y paneles de control
  • Modelos de machine learning
  • Conexiones entre bases de datos

Este inventario permite a los  ciudadanos de datos (analistas de datos, científicos de datos, administradores de datos y otros profesionales de datos con acceso a datos corporativos) buscar a través de todos los activos de datos disponibles de una organización y ayudarse a sí mismos a obtener los datos más apropiados para sus fines analíticos o comerciales.

Un catálogo de datos generalmente incluye funciones para recopilar y enriquecer continuamente, o organizar, los metadatos asociados con cada activo de datos para que cada activo sea más fácil de identificar, evaluar y usar correctamente. El catálogo también proporciona herramientas que permiten a los usuarios hacer lo siguiente:

  • Buscar en el catálogo
  • Automatizar el descubrimiento de datos potencialmente relevantes que no buscaron específicamente
  • Gestionar el uso de los datos de conformidad con las regulaciones gubernamentales o de la industria

¿Qué son los metadatos?

Sobre la base de la breve definición anterior, los metadatos son datos que describen un activo de datos o proporcionan información sobre el activo que facilita su localización, evaluación y comprensión.

El ejemplo clásico o más utilizado de metadatos es el catálogo de tarjetas o el catálogo en línea de una biblioteca.  En estos, cada tarjeta o lista contiene información sobre un libro o publicación (p. ej., título, autor, tema, fecha de publicación, edición, ubicación dentro de la biblioteca y resumen o sinopsis) que hace que la publicación sea más fácil de encontrar para un lector y también evaluar. Por ejemplo:  ¿Es actual o está desactualizado? ¿Tiene la información que estoy buscando? ¿Es el autor alguien en quien confío o cuyo trabajo disfruto?

Hay muchas clases de metadatos, pero un catálogo de datos se ocupa principalmente de tres: metadatos técnicos, metadatos de procesos  y  metadatos de negocios.

Metadatos técnicos


Metadatos técnicos
  (también llamado  metadatos estructurales) describe cómo se organizan y muestran los datos a los usuarios describiendo la estructura de los objetos de datos, como tablas, columnas, filas, índices y conexiones. Los metadatos técnicos les dicen a los profesionales de datos cómo necesitarán trabajar con los datos, por ejemplo, si pueden trabajar con ellos tal como están o si necesitan transformarlos para su análisis o integración.

Metadatos de proceso


Los metadatos de proceso  
(también llamados  metadatos administrativos) describen las circunstancias de la creación del activo de datos y cuándo, cómo y quién accedió, usó, actualizó o modificó. También debe describir quién tiene permiso para acceder y utilizar los datos.

Los metadatos del proceso proporcionan información sobre el historial del activo y el  linaje, lo que puede ayudar a un analista a decidir si el activo es lo suficientemente reciente para la tarea en cuestión, si proviene de una fuente confiable, si ha sido actualizado por personas confiables, etc. Los metadatos del proceso también se pueden usar para solucionar problemas de consultas. Y cada vez más, los metadatos de procesos se extraen para obtener información sobre usuarios o clientes de software, como qué software están usando y el nivel de servicio que están experimentando.

Metadatos empresariales


Los metadatos empresariales 
(a veces denominados  metadatos externos) describen los aspectos comerciales del activo de datos: el valor comercial que tiene para la organización, su idoneidad para un propósito particular o varios propósitos, información sobre la conformidad normativa y más. Los metadatos empresariales son aquellos en los que los profesionales de datos y los usuarios de línea de negocios hablan el mismo idioma sobre los activos de datos.

Como mínimo, un catálogo de datos debería facilitar la búsqueda (o recolección) y la organización de todos los metadatos existentes asociados con cualquier activo de datos en su organización. También debe proporcionar herramientas que permitan a los expertos en datos seleccionar y enriquecer esos metadatos con etiquetas, asociaciones, calificaciones, anotaciones y cualquier otra información y contexto que ayude a los usuarios a encontrar datos más rápido y usarlos con confianza.


Herramientas de catálogo de datos: qué buscar

Un catálogo de datos requiere una inversión significativa en software y en tiempo y esfuerzo de los ciudadanos de datos, una inversión que la mayoría de las organizaciones solo desea hacer una vez. Al evaluar soluciones de catálogo de datos, busque las siguientes funcionalidades (además de las funcionalidades de gestión de metadatos mencionadas anteriormente):

  • Una excelente experiencia de 'compra' de datos que incluye el descubrimiento de datos:  el objetivo de un catálogo de datos es permitir que todos sus ciudadanos de datos se sirvan a sí mismos de los datos que necesitan. Debe esperar una experiencia de búsqueda igual a la de Netflix, Amazon u otras experiencias comerciales populares en línea, donde cualquier persona puede encontrar rápidamente resultados basados en los metadatos que busca y también recibir recomendaciones y/o advertencias relevantes basadas en calificaciones y reseñas de otros usuarios.
  • Conformidad simplificada:  mantener la conformidad de los datos es casi humanamente imposible. Al momento de escribir este artículo, 107 países han promulgado regulaciones para proteger solo la privacidad de los datos personales. Un catálogo de datos debería simplificar la conformidad al crear perfiles de los activos de datos, inferir su relevancia para regulaciones específicas y clasificarlos y etiquetarlos automáticamente para futuras referencias. Las funcionalidades de machine learning son poderosos ahorradores de trabajo aquí.
  • Conexiones a una amplia variedad de fuentes de datos:  para servir como un inventario de activos de datos de toda la empresa, un catálogo de datos debe conectarse a todos los activos de su empresa. Busque conexiones con todos los tipos de activos que tiene ahora y un compromiso para construir conexiones en el futuro. Busque también un catálogo que pueda implementar dondequiera que residan sus datos: en las instalaciones o en un entorno  público, privado, híbrido, o de  multinube híbrida .
  • Soporte para la calidad y la gestión que garantiza datos confiables:  un catálogo de datos debe integrarse a la perfección con cualquier programa y herramienta de calidad y gestión que tenga implementado, incluidas las reglas de calidad de datos, los glosarios comerciales y los flujos de trabajo.
  • Soporte para 'IA explicable':  cada vez más, la gestión de datos es responsable de gestionar los modelos de inteligencia artificial (IA), no solo de comprender los datos utilizados, sino también de cómo las diferentes entradas influyen en las decisiones y los resultados. Asegúrese de que cualquier catálogo de datos que elija ayude a etiquetar y preparar activos de datos para un uso óptimo y transparencia en sus modelos de IA.

Beneficios del catálogo de datos

Cuando los profesionales de datos pueden acceder a los datos que necesitan por sí mismos, sin necesidad de intervención de TI, sin depender de expertos o colegas para obtener asesoramiento, sin limitarse solo a los activos que conocen y sin tener que preocuparse por la gestión y la conformidad: toda la organización se beneficia.

  • Mejor comprensión de los datos mediante un contexto mejorado:  los analistas pueden encontrar descripciones detalladas de los datos, incluidos los comentarios de otros ciudadanos de datos, y comprender mejor cómo los datos son relevantes para el negocio.
  • Mayor eficiencia operativa:  un catálogo de datos crea una óptima  división del trabajo entre usuarios y TI: los ciudadanos de datos pueden acceder y analizar datos más rápido, y el personal de TI puede dedicar más tiempo a las tareas de alta prioridad.
  • Riesgo reducido:  los analistas se sienten más seguros al trabajar con datos que están autorizados a usar para un propósito determinado, de conformidad con las normas de privacidad de datos y de la industria. También pueden revisar rápidamente anotaciones y metadatos para detectar campos nulos o valores incorrectos que pueden afectar el análisis.
  • Mayor éxito con las iniciativas de gestión de datos:  cuanto más difícil sea para los analistas de datos encontrar, acceder, preparar y confiar en los datos, menos probable es que las iniciativas de inteligencia comercial (BI) y los proyectos de big data tengan éxito.
  • Mejores datos y mejores análisis, más rápido: una ventaja competitiva:  los profesionales de datos pueden responder rápidamente a problemas, desafíos y oportunidades con análisis y respuestas basadas en todos los datos contextuales más apropiados dentro de la organización.

Un catálogo de datos también puede ayudar a su organización a enfrentar desafíos y objetivos técnicos y comerciales específicos. Al proporcionar a los analistas una vista única y completa de sus clientes, un catálogo de datos puede ayudar a descubrir nuevas oportunidades para ventas cruzadas, ventas adicionales, promociones dirigidas y más. Y al promover, simplificar o automatizar la gestión, un catálogo de datos puede ayudarle a implementar la  gestión de data lakes  que evita los data swamps y proporciona el marco de políticas para diseñar, implementar y supervisar modelos de IA con un enfoque en la equidad, la responsabilidad, la seguridad y la transparencia.


Catálogo de datos e IBM Cloud

IBM Watson Knowledge Catalog  es un catálogo de datos abierto e inteligente para la gestión, la calidad y la colaboración de modelos de IA y datos empresariales. Ayuda a los ciudadanos de datos a descubrir, seleccionar, categorizar y compartir rápidamente activos de datos, conjuntos de datos, modelos analíticos y sus relaciones con otros miembros de su organización.

Con la tecnología de  IBM Cloud Pak for Data, Watson Knowledge Catalog sirve como una única fuente de información para ingenieros de datos, administradores de datos, científicos de datos y analistas de negocios para obtener acceso de autoservicio a datos en los que pueden confiar. También ofrece gestión de datos, calidad de datos y gestión activa de políticas para ayudar a su organización a proteger y controlar datos confidenciales, rastrear el linaje de datos, gestionar data lakes y prepararse para su ruta hacia la IA.

Descubra más acerca de las  soluciones de catalogación de datos de IBM  y empiece hoy mismo  al crear su cuenta de IBM Cloud.


Soluciones relacionadas

Watson Knowledge Catalog

Active datos listos para el negocio para inteligencia artificial y analítica con catalogación inteligente, respaldada por metadatos activos y gestión de políticas


IBM Cloud Pak for Data

Automatice cómo se descubren, catalogan y enriquecen los datos en un entorno híbrido de datos y nube para que sean relevantes para el usuario. Proporcione acceso a datos listos para el negocio a más personas.