Un catálogo de datos es un inventario detallado de todos los activos de datos de una organización, diseñado para ayudar a los profesionales de datos a encontrar rápidamente los datos más apropiados para cualquier propósito comercial o analítico.
IBM Watson Knowledge Catalog
IBM Cloud Pak for Data
Un catálogo de datos utiliza metadatos, datos que describen o resumen datos, para crear un inventario informativo y de búsqueda de todos los activos de datos en una organización. Estos activos pueden incluir (pero no se limitan a) estas cosas:
Este inventario permite a los ciudadanos de datos (analistas de datos, científicos de datos, administradores de datos y otros profesionales de datos con acceso a datos corporativos) buscar a través de todos los activos de datos disponibles de una organización y ayudarse a sí mismos a obtener los datos más apropiados para sus fines analíticos o comerciales.
Un catálogo de datos generalmente incluye funciones para recopilar y enriquecer continuamente, o organizar, los metadatos asociados con cada activo de datos para que cada activo sea más fácil de identificar, evaluar y usar correctamente. El catálogo también proporciona herramientas que permiten a los usuarios hacer lo siguiente:
Sobre la base de la breve definición anterior, los metadatos son datos que describen un activo de datos o proporcionan información sobre el activo que facilita su localización, evaluación y comprensión.
El ejemplo clásico o más utilizado de metadatos es el catálogo de tarjetas o el catálogo en línea de una biblioteca. En estos, cada tarjeta o lista contiene información sobre un libro o publicación (p. ej., título, autor, tema, fecha de publicación, edición, ubicación dentro de la biblioteca y resumen o sinopsis) que hace que la publicación sea más fácil de encontrar para un lector y también evaluar. Por ejemplo: ¿Es actual o está desactualizado? ¿Tiene la información que estoy buscando? ¿Es el autor alguien en quien confío o cuyo trabajo disfruto?
Hay muchas clases de metadatos, pero un catálogo de datos se ocupa principalmente de tres: metadatos técnicos, metadatos de procesos y metadatos de negocios.
Metadatos técnicos (también llamado metadatos estructurales) describe cómo se organizan y muestran los datos a los usuarios describiendo la estructura de los objetos de datos, como tablas, columnas, filas, índices y conexiones. Los metadatos técnicos les dicen a los profesionales de datos cómo necesitarán trabajar con los datos, por ejemplo, si pueden trabajar con ellos tal como están o si necesitan transformarlos para su análisis o integración.
Los metadatos de proceso (también llamados metadatos administrativos) describen las circunstancias de la creación del activo de datos y cuándo, cómo y quién accedió, usó, actualizó o modificó. También debe describir quién tiene permiso para acceder y utilizar los datos.
Los metadatos del proceso proporcionan información sobre el historial del activo y el linaje, lo que puede ayudar a un analista a decidir si el activo es lo suficientemente reciente para la tarea en cuestión, si proviene de una fuente confiable, si ha sido actualizado por personas confiables, etc. Los metadatos del proceso también se pueden usar para solucionar problemas de consultas. Y cada vez más, los metadatos de procesos se extraen para obtener información sobre usuarios o clientes de software, como qué software están usando y el nivel de servicio que están experimentando.
Los metadatos empresariales (a veces denominados metadatos externos) describen los aspectos comerciales del activo de datos: el valor comercial que tiene para la organización, su idoneidad para un propósito particular o varios propósitos, información sobre la conformidad normativa y más. Los metadatos empresariales son aquellos en los que los profesionales de datos y los usuarios de línea de negocios hablan el mismo idioma sobre los activos de datos.
Como mínimo, un catálogo de datos debería facilitar la búsqueda (o recolección) y la organización de todos los metadatos existentes asociados con cualquier activo de datos en su organización. También debe proporcionar herramientas que permitan a los expertos en datos seleccionar y enriquecer esos metadatos con etiquetas, asociaciones, calificaciones, anotaciones y cualquier otra información y contexto que ayude a los usuarios a encontrar datos más rápido y usarlos con confianza.
Un catálogo de datos requiere una inversión significativa en software y en tiempo y esfuerzo de los ciudadanos de datos, una inversión que la mayoría de las organizaciones solo desea hacer una vez. Al evaluar soluciones de catálogo de datos, busque las siguientes funcionalidades (además de las funcionalidades de gestión de metadatos mencionadas anteriormente):
Cuando los profesionales de datos pueden acceder a los datos que necesitan por sí mismos, sin necesidad de intervención de TI, sin depender de expertos o colegas para obtener asesoramiento, sin limitarse solo a los activos que conocen y sin tener que preocuparse por la gestión y la conformidad: toda la organización se beneficia.
Un catálogo de datos también puede ayudar a su organización a enfrentar desafíos y objetivos técnicos y comerciales específicos. Al proporcionar a los analistas una vista única y completa de sus clientes, un catálogo de datos puede ayudar a descubrir nuevas oportunidades para ventas cruzadas, ventas adicionales, promociones dirigidas y más. Y al promover, simplificar o automatizar la gestión, un catálogo de datos puede ayudarle a implementar la gestión de data lakes que evita los data swamps y proporciona el marco de políticas para diseñar, implementar y supervisar modelos de IA con un enfoque en la equidad, la responsabilidad, la seguridad y la transparencia.
IBM Watson Knowledge Catalog es un catálogo de datos abierto e inteligente para la gestión, la calidad y la colaboración de modelos de IA y datos empresariales. Ayuda a los ciudadanos de datos a descubrir, seleccionar, categorizar y compartir rápidamente activos de datos, conjuntos de datos, modelos analíticos y sus relaciones con otros miembros de su organización.
Con la tecnología de IBM Cloud Pak for Data, Watson Knowledge Catalog sirve como una única fuente de información para ingenieros de datos, administradores de datos, científicos de datos y analistas de negocios para obtener acceso de autoservicio a datos en los que pueden confiar. También ofrece gestión de datos, calidad de datos y gestión activa de políticas para ayudar a su organización a proteger y controlar datos confidenciales, rastrear el linaje de datos, gestionar data lakes y prepararse para su ruta hacia la IA.
Descubra más acerca de las soluciones de catalogación de datos de IBM y empiece hoy mismo al crear su cuenta de IBM Cloud.
Active datos listos para el negocio para inteligencia artificial y analítica con catalogación inteligente, respaldada por metadatos activos y gestión de políticas
Automatice cómo se descubren, catalogan y enriquecen los datos en un entorno híbrido de datos y nube para que sean relevantes para el usuario. Proporcione acceso a datos listos para el negocio a más personas.
Conozca las funciones de automatización de un catálogo de datos y cómo las organizaciones están creando nuevos modelos de negocio y preparándose para la IA.
Vea por qué Forrester nombró a IBM Watson Knowledge Catalog como líder en The Forrester Wave™: Machine Learning Data Catalogs.
Las brechas de seguridad de datos tienen consecuencias de largo alcance. Planifique con anticipación con un catálogo de datos.