数据质量规则的项目设置

为确保数据质量规则设置的一致性,您可以配置默认设置,这些设置可应用于项目中的任何数据质量规则。

基础高级版当数据质量功能在 IBM Knowledge Catalog 或 IBM Knowledge Catalog Premium 上启用时,可使用这些项目设置。

所需许可权
要配置数据质量默认设置,您必须在项目中拥有管理员角色。 任何项目协作者均可查看设置。

要访问默认设置,请转到项目的管理页面,然后选择“工具”>“数据质量”

输出表

为确保数据质量规则的输出表设置保持一致,您可以定义默认配置。

输出类型和位置

定义一个新的输出表或选择一个现有表来写入规则输出。 有关支持的数据库类型,请参阅支持的数据源(用于数据整理和数据质量 )。

定义新表时,表名可以是用户自定义名称、用于动态创建名称的参数、用户自定义名称与参数的组合,或多个参数的组合。

用户定义的表名必须遵循以下约定:

  • 名称的首字符必须是字母字符。
  • 名称的其余部分可以由字母、数字或下划线组成。
  • 名称中不得包含空格。

对于动态名称创建,您可以使用以下参数:

  • #execution_id#
  • #rule_id#
  • #rule_id#
  • #rule_name#
  • #project_id#
  • #job_id#
  • #job_run_id#
  • #rule_id#

对于数值会变化的参数,可能会创建一个新表:

  • 对于 #job_run_id# 每条规则运行
  • 因为 #execution_id# 如果规则是从数据质量规则用户界面运行,或通过API调用运行

配置表名时,请注意目标数据库可能对表名长度有限制。 单个参数或多个参数的组合可能生成超出允许长度的表名。 例如,规则名称最多可包含256个字符,但目标数据库可能不支持如此长的名称。

此外,您必须确保输出表名在数据源中具有唯一性。 特别是动态生成的名称,无法在事前检查名称冲突。

此外,您还可以选择以下选项:

  • 仅当发现问题时创建表

    此选项可避免在规则未生成输出记录时创建空表。 然而,如果该名称的表已因先前规则运行而生成,则该表保持不变。

  • 将生成的输出表作为项目资产导入

    为便于访问规则输出,请将新的规则输出表作为数据资产添加到项目中。 无需执行数据库查询,您可通过项目中的" 资源" 页面或规则的运行历史记录打开数据资产来查看数据。

    此选项在缺省情况下已启用。

要使此配置可在数据质量规则中使用,请将其保存。 配置后的表格随后显示为当前状态

您可以随时更新此配置。 这些更新随后将应用于新规则以及配置为继承项目设置的现有规则的新运行。

用人工智能解释数据质量规则

此功能自 Cloud Pak for Data 起可用( 5.3.1 ),适用于已启用生成式AI的部署环境。 如需更多信息,请参阅 安装准备 IBM Knowledge Catalog 中的 IBMSoftware Hub 文档。

利用人工智能生成数据质量规则及其所用规则表达式的纯文本英文描述和说明,帮助用户理解规则目的,而无需掌握复杂的SQL语句或技术术语。

此功能默认处于开启状态,但仅当项目在 watsonx.data intelligence 中启用了生成式AI功能时才会生效。

生成描述会在规则逻辑(表达式、绑定、SQL语句)发生变更时自动更新。

您可以随时禁用规则和规则表达式描述的生成。 然而,若您已拥有AI生成的描述,这些描述将不再因规则表达式或绑定变更而自动更新。

对于在此功能可用之前创建的项目,或重新启用该选项时,您可以自动更新现有数据质量规则,添加由人工智能生成的描述和表达式说明。 然而,若您手动添加或更新了描述,这些描述将保持不变。

了解更多