重要说明:

IBM Cloud Pak® for Data 4.7 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告

在 IBM Cloud Pak for Data 4.7 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。

数据资产的概要文件

资产概要文件包含生成的有关资产内容的元数据和统计信息,并帮助您了解要采取哪些操作来提高数据质量。 您可以在资产的 " 概要文件 " 页面上查看概要文件。

可以为包含关系数据或结构化数据的数据资产创建概要文件。

要求和限制

您可以在以下情况下查看资产的概要文件。

必需服务
Watson Knowledge Catalog 服务。
所需许可权
要查看此页面,您可以在项目或目录中具有任何角色。
要创建或更新概要文件或在项目中运行元数据扩充,您必须在项目中具有 管理员编辑者 角色。
要在目录中创建或更新概要文件,您必须在目录中具有 管理员 角色,或者必须具有 编辑者 角色,并且必须是资产所有者或资产成员。
工作空间
您可以在以下工作空间中查看资产概要文件:
  • 项目
  • 目录
资产类型
这些类型的资产具有概要文件:
  • 从连接到数据源的关系数据库或非关系数据库中的数据资产

  • 来自分区数据集的数据资产,其中分区数据集由多个文件组成,并由从本地文件系统或从基于文件的数据源连接上载的单个文件夹表示

  • 从本地文件系统上载的文件或从基于文件的连接到数据源的数据资产,格式如下:

    • CSV
    • XLS , XLSM 和 XLSX (仅对工作簿中的第一个工作表进行概要分析。)
    • TSV
    • Avro
    • Parquet

    但是,当数据资产未显式引用结构化数据文件时,不会对这些数据文件进行概要分析,例如在以下情况下:

    • 这些文件位于已连接的文件夹资产中。 可从已连接文件夹资产访问的文件不会被视为资产,也不会进行概要分析。
    • 这些文件在归档文件中。 该归档文件由数据资产引用,并且不会对压缩文件进行概要分析。

用于创建概要文件的方法

可以通过不同方式创建资产概要文件:

  • 在受管目录中,将数据资产添加到目录时,将自动创建个别数据资产的概要文件,但存在以下例外情况:

    • 您已禁用目录的自动概要分析。
    • 资产来自配置为使用个人凭证的连接。
    • 在发布资产之前,已通过元数据扩充对其进行概要分析。 此类资产已具有与该资产一起添加到目录的概要文件。
  • 在没有数据保护规则实施的项目和目录中,可以 手动创建概要文件 以用于单个数据资产。 如果先前未对资产进行概要分析,那么还可以在受管目录中手动创建概要文件。

  • 在项目中,您可以创建并运行元数据扩充资产,以便一次性对大型数据资产集进行概要分析。 这些资产概要文件在项目中可用。 您可以将扩充资产及其概要文件发布到任何类型的目录。 请参阅管理元数据丰富

您可以从资产的 " 概要文件 " 页面更新项目或目录中的单个资产概要文件。 如果手动更新包含在元数据扩充项中的数据资产的概要文件,那么概要文件和分析信息也会反映在相应的扩充项结果中。 发布新的扩充项结果时,还会更新概要文件。

更新现有概要文件时,可以更改要包含在概要文件中的数据类。

概要分析期间分析了哪些内容?

如果从项目或目录中的 " 概要文件 " 页面创建或更新资产概要文件,那么将分析列。

在项目或目录中对单个资产进行概要分析时,缺省情况下将根据前 5,000 行数据创建概要文件。 如果数据资产具有超过 250 列,那么将根据前 1,000 行数据创建概要文件。 如果概要文件是通过元数据扩充项创建的,那么采样由元数据扩充项设置确定。

要确定数据的结构和内容并对其进行分类,分析包括以下任务:

  • 计算有关每个已分析列的数据的统计信息。
  • 计算列的数据类型以及数据类型分布。
  • 计算列的数据格式以及格式分布。
  • 对数据进行分类,并计算列的数据类候选项。
  • 捕获频率分布。

概要文件信息

数据资产的概要文件显示有关数据资产中每个列的信息。

概要文件 选项卡提供了一些常规信息以及分析结果的概述:

  • 创建或上次更新概要文件的时间。

  • 分析了多少列和多少行。

  • 每列的推断数据类以及该数据类的置信度。 数据类描述列中的数据内容,例如,城市、帐号或信用卡号。 数据类可用于 屏蔽数据 或使用数据保护规则 限制对数据资产的访问 。 针对资产的 " 概述 " 页面和 " 概要文件 " 页面上的每一列显示数据类。

    数据类置信度是与该数据类匹配的非空值所占的百分比。

    多个数据类是在列级别检测到并分配的更通用标识。 在值级别无法识别更具体的数据类时,就会分配这些数据类。 通用标识始终具有 100% 的置信度,并且包含以下数据类:代码、日期、标识、指示符、数量和文本。

  • 每个列的匹配,不匹配或缺失数据的百分比。

  • 列中标识的所有值的频率分布。

  • 有关每个列的数据的统计信息,例如相异值的数量,唯一值的百分比,最小值,最大值或平均值,有时还包括该列中的标准差。 distinct 值的数量指示列的采样数据中存在的不同值的数量。 唯一 值的百分比指示仅在列中出现一次的不同值的百分比。

    根据列的数据格式,统计信息略有不同。 例如,数据类型为整数的列的统计信息具有最小值,最大值和平均值以及标准偏差值,而数据类型为字符串的列的统计信息具有最小长度,最大长度和平均长度值。

单击列名时,将提供有关列数据的更多详细信息。 请参阅 详细概要分析结果

了解更多

父主题: 资产类型和属性