数据目录

数据目录利用元数据和数据管理工具针对组织中的所有数据资产创建一个清单,使用户能够快速轻松地查找和访问信息。

黑蓝背景

数据目录

数据目录是有关组织中的所有数据资产的详细清单,旨在帮助数据专业人员针对任何分析或业务目的快速找到最合适的数据。


什么是数据目录?

数据目录使用 元数据— 描述或汇总数据的数据 — 针对组织中的所有数据资产创建一个信息丰富且可搜索的清单。 这些资产可以包括(但不限于)以下各项:

  • 结构化(表格)数据
  • 非结构化数据,包括文档、网页、电子邮件、社交媒体内容、移动数据、图像、音频和视频
  • 报告和查询结果
  • 数据图表和仪表板
  • 机器学习模型
  • 数据库之间的连接

该清单使 数据公民— 数据分析师、数据科学家、数据管理员和其他访问公司数据的数据专业人员 — 能够搜索公司的所有可用数据资产,帮助自己获得最适合其分析或业务目的的数据。

数据目录通常能够收集和不断丰富 — 或 整理 —与每个数据资产相关联的元数据,以使每个资产更容易识别、评估和正确使用。 该目录还提供了使用户能够开展以下活动的工具:

  • 搜索目录
  • 自动发现他们没有专门搜索的潜在相关数据
  • 根据行业或政府法规来管理数据的使用

什么是元数据?

基于上面的简单定义,元数据是描述数据资产或提供有关资产信息的数据,这些信息使数据资产更容易定位、评估和理解。

例如,图书馆的卡片目录或在线目录便是经典或最常用的元数据。  在这里面,每一张卡片或列表中都包含关于某本书或出版物的信息(如书名、作者、主题、出版日期、版本、图书馆内的位置以及摘要或概要),以便读者更容易找到和评估该出版物。 示例: 它是新的还是过时的? 这里面是否有我想要寻找的信息? 作者是不是我所信赖的人?或者,我是不是喜欢他/她的作品?

元数据有许多种类,但数据目录中主要包含三类: 技术元数据、过程元数据  业务元数据

技术元数据


技术元数据
 (又称 结构元数据)通过描述数据对象的结构(如表、列、行、索引和连接)来描述如何组织数据并向用户显示数据。 技术元数据告诉数据专业人员他们将需要如何处理数据 — 例如,他们是否可以按原样处理数据,或者他们是否需要将其转换为分析或集成。

过程元数据


过程元数据 
(又称 管理元数据) 描述数据资产创建的环境以及何时、如何以及由谁访问、使用、更新或更改数据资产。 它还应该描述谁拥有访问和使用数据的权限。

过程元数据提供了有关资产历史 世系的信息,这可以帮助分析人员确定资产对于手头的任务是否足够有用、是否来自可靠的来源、以及是否由值得信任的个人负责更新等等。 过程元数据还可以用于故障排除查询。 越来越多的过程元数据被用于挖掘软件用户或客户的信息,例如他们正在使用什么软件以及他们正在体验的服务级别等。

业务元数据


业务元数据 
(有时称为 外部元数据)描述数据资产的业务方面 — 它对组织的业务价值、它对特定目的或各种目的的适用性、以及关于法规遵从性的信息等等。 业务元数据使数据专业人员和业务部门用户可以对数据资产使用相同的语言。

至少,数据目录应该能够简化与贵组织中任何数据资产相关的所有现有元数据的发现(获取)和组织工作。 它还应该提供一些工具,使数据专家能够使用标记、关联、评级、注释、以及任何其他的信息和上下文来帮助管理和丰富元数据,帮助用户更快地找到数据并自信地使用数据。


数据目录工具 — 要查找什么

数据目录需要在软件方面投入大量资金,并需要在数据公民方面投入大量的时间和精力 — 大多数组织都希望这是一次性投资。 在评估数据目录解决方案时,请寻找以下功能(除了上面提到的元数据管理功能外):

  • 出色的数据“购物”体验,包括数据发现: 数据目录的目标是让您的所有数据公民都能自助获得他们需要的数据。 数据目录应提供与 Netflix、Amazon 或其他最受欢迎的在线商业平台相同的搜索体验,任何人都可以基于元数据快速找到他们搜索的结果,还能基于其他用户的评级和评论接收相关推荐和/或警告。
  • 简化合规工作: 始终保持数据合规几乎是人力所不能及的;在撰写本文时,仅颁布实施了个人数据隐私保护法的国家便已高达 107 个。 数据目录应通过分析数据资产、推断它们与特定规则的相关性、以及自动分类和标记它们以供将来参考来简化合规工作。 在这里,机器学习能力可以有效简化大量的工作。
  • 与各种数据源相连接: 为了发挥企业级数据资产清单的作用,数据目录需要连接企业中的所有资产。 寻找能与您现在拥有的所有类型的资产建立连接,并承诺在未来继续建立连接的数据目录。 数据目录还应该可以部署在您的数据所驻留的任何地方 — 本地、 公共、私有、 混合 或 混合多云 环境。
  • 支持可以确保可信数据的质量和治理: 数据目录应与您现有的任何质量和治理程序和工具无缝集成,包括数据质量规则、业务术语表和工作流。
  • 支持“可解释的 AI”: 数据治理在管理人工智能 (AI) 模型方面日益发挥重要作用 —不仅要了解所使用的数据,还要还要了解不同的输入如何影响决策和结果。 确保您选择的任何数据目录都有助于标记和准备数据资产,以便这些数据能在您的 AI 模型中实现最佳使用和透明性。

数据目录的好处

当数据专业人员能够自助获得所需数据时 — 无需 IT 干预,无需向专家或同事寻求建议、无需局限于他们所知道的资产、无需担心治理与合规 — 整个组织就将从中受益。

  • 通过改进上下文来更好地了解数据: 分析人员可以找到数据的详细描述,包括来自其他数据公民的评论,并更好地了解如何将数据与业务相关联。
  • 提高运营效率: 数据目录可以在 用户与 IT 之间创建最佳的劳动分工 — 数据公民可以更快地访问和分析数据,IT 人员可以把更多的时间花费在高优先级任务上。
  • 降低风险: 分析人员可以增强信心,因为他们知道他们正在使用的数据是他们有权出于特定目的而使用的数据,符合行业和数据隐私法规。。 他们还可以快速检查注释和元数据,以发现可能影响分析的空字段或不正确的值。
  • 通过数据管理计划取得更大的成功: 数据分析师查找、访问、准备和信任数据的难度越大,商业智能 (BI) 项目和大数据项目取得成功的可能性就越小。
  • 通过更好的数据和更好更快的数据带来竞争优势: 数据专业人员可以基于组织内所有最适合的上下文数据对问题、挑战和机会进行分析并找到答案,从而快速响应它们。

数据目录还可以帮助贵组织应对特定的技术和业务挑战和满足特定目标。 通过为分析人员提供单一的、全面的客户视图,数据目录可以帮助他们发现交叉销售、向上销售和定向促销等新机会。 数据目录可以促进、简化或自动化治理工作,从而帮助您实施 数据湖治理 ,以防出现数据沼泽,并为设计、部署和监控 AI 模型提供政策框架,重点关注公平性、责任性、安全性和透明性


数据目录和 IBM Cloud

IBM Watson Knowledge Catalog 是开放的智能数据目录,用于企业数据和 AI 模型治理、质量和协作。 它可以帮助数据公民快速发现、管理、分类和共享数据资产、数据集、分析模型,以及它们与组织中其他成员的关系。

基于 IBM Cloud Pak for Data ,Watson Knowledge Catalog 为数据工程师、数据管理员、数据科学家和业务分析师提供单一事实来源,以便他们能够自助访问他们可以信赖的数据。 它还提供数据治理、数据质量和积极的政策管理,以帮助贵组织保护和治理敏感数据、跟踪数据谱系、管理数据湖,并为您的 AI 之旅做好准备。

了解有关 IBM 数据目录解决方案 的更多信息,立即开始 创建您的 IBM Cloud账户进行探索。


相关解决方案

Watson Knowledge Catalog

在主动元数据和策略管理的支持下,通过智能编目为 AI 和分析激活业务就绪数据。


IBM Cloud Pak for Data

跨越混合数据和云环境以适当方式自动执行数据发现、编目和丰富任务,以实现用户相关性。 支持更多人员访问业务就绪数据。