什么是 IBM Watson Knowledge Catalog?

IBM Watson® Knowledge Catalog 是基于云的企业元数据存储库,支持您对知识和分析资产进行编目,包括机器学习模型以及结构化和非结构化数据,而不论它们所处位置如何,这样便能够轻松访问和使用这些数据,促进数据科学和各种形式 AI 的大力发展。

对于所选数据源类型,Watson Knowledge Catalog 可以在提供的连接中自动发现和注册数据资产。将资产添加到目录后,会自动为其建立索引并分类,便于数据工程师、数据科学家、数据管理员和业务分析师等用户查找、理解、共享和使用这些资产。AI 支持的搜索和建议功能可根据对资产之间的关系、这些资产的使用方式以及用户之间社交联系的理解,将用户引导至目录中最相关的资产。

Watson Knowledge Catalog 还提供了一个智能且强大的治理框架,使您能够定义和实施数据及访问策略,确保向适当的人员提供正确的数据。 

通过 Watson Knowledge Catalog 的业务词汇表,用户可以创建公共业务词汇表,并将其与您的资产、策略和规则相关联,从而在业务领域和您的技术资产之间架起桥梁。

可在哪些地区可部署 IBM Watson Knowledge Catalog?

如果您存在地区性数据限制,那么可以部署到以下某个城市:达拉斯、伦敦法兰克福东京

Watson Knowledge Catalog 是否在世界上其他地方也可用?

是的。除美国外,您还可以在英国德国日本注册 Watson Knowledge Catalog。

我是否需要将数据移入 Watson Knowledge Catalog?

否。您可以将数据保留在现有的存储库中。Watson Knowledge Catalog 用于存储资产的元数据

支持哪些数据源和资产类型?

IBM 为云或本地数据源类型提供 30 多个接口,支持您连接远程数据资产。例如,我们提供的接口可连接至云中或本地的 IBM Db2®、IBM Cloudant®、IBM Cloud™ Object Storage、Oracle、Microsoft SQL Server、Microsoft Azure、Amazon S3、Salesforce.com、Hortonworks HDFS、Sybase 以及 IBM 提供的其他许多数据资产。

除了来自远程数据源的资产,Watson Knowledge Catalog 还支持其他资产类型,如结构化数据(行/列)、半结构化数据和非结构化数据。例如,可以将 CSV、Microsoft Excel、PDF、文本、Microsoft Word、Jupyter Notebook (IPYNB)、图像、HTML 文件等添加到目录中,以便进行概要分析,并与其他用户共享。

我最多可以在 Watson Knowledge Catalog 中具有多少项资产?

对于 Professional 套餐,您可以在 Knowledge Catalog 中具有的资产数量没有限制。对于 Lite 和 Standard 套餐,限制分别为 50 和 500 项资产。

Watson Knowledge Catalog 是否提供治理服务?

Watson Knowledge Catalog 包括一个自动化的策略实施引擎,它将根据策略和采取的行动确定结果。Watson Knowledge Catalog 提供了在系统中设置治理策略的功能,这样您就可以通过屏蔽敏感内容来限制对数据的访问或变换数据。 

能否使用旨在掩盖数据的数据策略,删除或更改原始数据源?

否。当数据保护策略在目录中对敏感数据进行匿名化处理时,只会变换由应用管理的预览数据。原始源数据不会修改。

Watson Knowledge Catalog 是否提供分类服务?

在将数据资产添加到目录中时,Watson Knowledge Catalog 会自动对这些资产的列进行分类。内置的组件提供了 160 多个属性分类器,包括姓名、电子邮件、邮政地址、信用卡卡号、驾照、身份证号、出生日期、人口统计信息和邓白氏编码等等。目录还对非结构化数据资产进行概要分析,并从内容中抽取元数据,包括类别、概念、意见和情绪等。请参阅对数据资产进行概要分析

Watson Knowledge Catalog 中是否有数据准备功能?

是。通过纳入 Watson Knowledge Catalog 的 Data Refinery 提供数据准备功能。Data Refinery 提供了一组丰富的功能,不仅支持您使用内置操作来发现、清理和变换数据,还随附了功能强大的概要分析和可视化工具,如图表、图形和统计信息,帮助您与数据交互并理解数据。Watson Knowledge Catalog 中定义的数据访问和变换策略也会在 Data Refinery 中实施,旨在确保源自管理目录的敏感数据仍受到保护。

您是否可以为不同业务部门的人员设置访问组?

是。可以通过 IBM Cloud Identity and Asset Management 设置访问组。在 Watson Knowledge Catalog 的访问控制模块中,可以添加协调者或用户组。

什么是容量单位小时数?

Data Refinery 流程、Data Refinery 互动式 UI 和概要分析作业的计费方式为:针对完整数量计费,或者针对每种容量类型每小时需要的容量单位数计费:

  • 在默认 Spark 环境中,Data Refinery 流程每小时需要 1.5 个容量单位。对于其他定制环境,计算取决于用于 Spark 驱动程序和执行程序的执行者和资源的数量。
  • Data Refinery 互动式 UI 每小时需要 1.5 个容量单位 - 从 Refinery UI 启动时开始计算,到 Refinery UI 关闭时结束。
  • 概要分析作业每小时需要 6 个容量单位。对于作业的每一次执行,最低收费为 0.96 个容量单位(相当于 10 分钟)。

在每个套餐中,每月包含一定数量的免费容量单位小时数。对于 Standard 和 Professional 套餐,该月一旦达到套餐限制,就会收取费用。对于 Lite 套餐,该月一旦达到套餐限制,就无法运行 Data Refinery 流程或概要分析作业,直到下个月为止,或者升级为 Standard 或 Professional 套餐。

使用默认容量类型 3 的 Data Refinery 流程示例:

  1. 一个 Data Refinery 流程运行 1 小时:1.5 CUH
  2. 两个 Data Refinery 流程都运行 1 小时:2 小时 * 1.5 CUH = 3 CUH
  3. 一个 Data Refinery 流程运行 30 分钟:0.5 小时 * 1.5 CUH = 0.75 CUH
  4. 互动式 Data Refinery UI 使用 1 小时:1.5 CUH

概要分析示例(可以自动或手动触发概要分析作业):

  1. 概要分析作业运行 30 分钟:0.5 小时 * 6 CUH = 3 CUH
  2. 概要分析作业运行 9 分钟。此场景适用最低收费:0.16 小时 * 6 CUH = 0.96 CUH

购买 Standard 或 Professional 套餐后,需设置多少数量的资产才能充分发挥产品的价值?

Watson Knowledge Catalog 是完全自助的服务,因此管理员可以首先创建目录,然后立即添加和管理资产。其他任务包括:

  • 构建业务术语表
  • 定义数据保护策略以管理对数据的访问
  • 邀请用户加入目录

是否可用于 IBM Cloud Pak for Data?

是。了解有关 IBM 最新集成数据平台的更多信息:IBM Cloud Pak™ for Data

试用 Watson Knowledge Catalog

利用机器学习和 AI 工具来分析数据。对数据进行编目,使其易于查找和使用。

IBM 在您身边,助您开启数字化转型,问鼎行业翘楚