数据目录是有关组织中的所有数据资产的详细清单,旨在帮助数据专业人员针对任何分析或业务目的快速找到最合适的数据。
IBM Watson Knowledge Catalog
IBM Cloud Pak for Data
数据目录使用 元数据— 描述或汇总数据的数据 — 针对组织中的所有数据资产创建一个信息丰富且可搜索的清单。 这些资产可以包括(但不限于)以下各项:
该清单使 数据公民— 数据分析师、数据科学家、数据管理员和其他访问公司数据的数据专业人员 — 能够搜索公司的所有可用数据资产,帮助自己获得最适合其分析或业务目的的数据。
数据目录通常能够收集和不断丰富 — 或 整理 —与每个数据资产相关联的元数据,以使每个资产更容易识别、评估和正确使用。 该目录还提供了使用户能够开展以下活动的工具:
基于上面的简单定义,元数据是描述数据资产或提供有关资产信息的数据,这些信息使数据资产更容易定位、评估和理解。
例如,图书馆的卡片目录或在线目录便是经典或最常用的元数据。 在这里面,每一张卡片或列表中都包含关于某本书或出版物的信息(如书名、作者、主题、出版日期、版本、图书馆内的位置以及摘要或概要),以便读者更容易找到和评估该出版物。 示例: 它是新的还是过时的? 这里面是否有我想要寻找的信息? 作者是不是我所信赖的人?或者,我是不是喜欢他/她的作品?
元数据有许多种类,但数据目录中主要包含三类: 技术元数据、过程元数据 和 业务元数据。
技术元数据 (又称 结构元数据)通过描述数据对象的结构(如表、列、行、索引和连接)来描述如何组织数据并向用户显示数据。 技术元数据告诉数据专业人员他们将需要如何处理数据 — 例如,他们是否可以按原样处理数据,或者他们是否需要将其转换为分析或集成。
过程元数据 (又称 管理元数据) 描述数据资产创建的环境以及何时、如何以及由谁访问、使用、更新或更改数据资产。 它还应该描述谁拥有访问和使用数据的权限。
过程元数据提供了有关资产历史 世系的信息,这可以帮助分析人员确定资产对于手头的任务是否足够有用、是否来自可靠的来源、以及是否由值得信任的个人负责更新等等。 过程元数据还可以用于故障排除查询。 越来越多的过程元数据被用于挖掘软件用户或客户的信息,例如他们正在使用什么软件以及他们正在体验的服务级别等。
业务元数据 (有时称为 外部元数据)描述数据资产的业务方面 — 它对组织的业务价值、它对特定目的或各种目的的适用性、以及关于法规遵从性的信息等等。 业务元数据使数据专业人员和业务部门用户可以对数据资产使用相同的语言。
至少,数据目录应该能够简化与贵组织中任何数据资产相关的所有现有元数据的发现(获取)和组织工作。 它还应该提供一些工具,使数据专家能够使用标记、关联、评级、注释、以及任何其他的信息和上下文来帮助管理和丰富元数据,帮助用户更快地找到数据并自信地使用数据。
数据目录需要在软件方面投入大量资金,并需要在数据公民方面投入大量的时间和精力 — 大多数组织都希望这是一次性投资。 在评估数据目录解决方案时,请寻找以下功能(除了上面提到的元数据管理功能外):
当数据专业人员能够自助获得所需数据时 — 无需 IT 干预,无需向专家或同事寻求建议、无需局限于他们所知道的资产、无需担心治理与合规 — 整个组织就将从中受益。
数据目录还可以帮助贵组织应对特定的技术和业务挑战和满足特定目标。 通过为分析人员提供单一的、全面的客户视图,数据目录可以帮助他们发现交叉销售、向上销售和定向促销等新机会。 数据目录可以促进、简化或自动化治理工作,从而帮助您实施 数据湖治理 ,以防出现数据沼泽,并为设计、部署和监控 AI 模型提供政策框架,重点关注公平性、责任性、安全性和透明性
IBM Watson Knowledge Catalog 是开放的智能数据目录,用于企业数据和 AI 模型治理、质量和协作。 它可以帮助数据公民快速发现、管理、分类和共享数据资产、数据集、分析模型,以及它们与组织中其他成员的关系。
基于 IBM Cloud Pak for Data ,Watson Knowledge Catalog 为数据工程师、数据管理员、数据科学家和业务分析师提供单一事实来源,以便他们能够自助访问他们可以信赖的数据。 它还提供数据治理、数据质量和积极的政策管理,以帮助贵组织保护和治理敏感数据、跟踪数据谱系、管理数据湖,并为您的 AI 之旅做好准备。
了解有关 IBM 数据目录解决方案 的更多信息,立即开始 创建您的 IBM Cloud账户进行探索。