什么是数据概要分析?
了解数据概要分析的用途和优点,包括有助于提高数据质量的最佳实践和方法
订阅 IBM 时事通讯
两名工作人员坐在办公桌前,一起看着电脑显示器
什么是数据概要分析?

数据概要分析也叫做"数据考古",是审查和清理数据的过程,旨在加深对组织内数据结构的理解,以及保持数据质量标准。 主要目的是通过各种方法审查数据并进行总结,然后对其状况进行评估,从而深入了解数据的质量。 通常,数据工程师通过使用一系列业务规则和分析算法完成这项工作。

数据概要分析根据准确性、一致性和及时性等因素评估数据,以表明数据是否缺乏一致性或准确性,或者是否具有空值。 数据概要分析的结果可能是简单的统计数据,比如一列数字或值,具体取决于数据集。 数据概要分析可用于涉及数据仓储或商业智能的项目,对大数据项目帮助更大。 数据概要分析可能是数据处理和数据分析的重要前提条件。

了解 watsonx.data

为所有数据随处扩展 AI 工作负载

数据概要分析如何工作?

企业集成软件或应用,以确保正确准备数据集,并充分利用这些数据集以消除不良数据。 具体而言,可以确定哪些数据源存在或正在产生数据质量问题,这些问题最终会影响整体业务运营和财务方面的成功。 这个流程还将执行必要的数据质量评估。

数据概要分析的第一步是收集数据源和相关的元数据以进行分析,这通常可以发现外键关系。 接下来的步骤旨在清理数据以确保结构统一并消除重复等问题。 清理数据后,数据概要分析软件将返回用于描述数据集的统计信息,例如平均值、最小值/最大值和频率等。 下面,我们简要介绍适当的数据概要分析方法。

数据概要分析与数据挖掘

虽然数据概要分析与数据挖掘存在重叠,但这两种方法的目标大不相同。 区别在哪里呢?

  • 数据概要分析旨在帮助理解数据及其特征,数据挖掘则是通过分析数据以发现模式或趋势的过程。
  • 数据概要分析侧重于元数据的收集,然后使用一些方法分析元数据,以支持数据管理
  • 数据概要分析生成数据特征的摘要,并为使用数据提供支持;数据挖掘则不能。

换句话说,数据概要分析是用于确保数据准确无误的首选工具。

数据概要分析的类型

数据概要分析是组织的数据处理方法的重要组成部分,企业应将其视为数据清理的关键一步。 它不仅可以帮助您理解数据,还可以验证数据是否符合标准的统计度量。 分析团队可通过许多不同的方式执行数据概要分析,但通常可以分为三大类,它们的目标都是提高数据质量以及加深对数据的理解。

以下是分析人员可以使用的数据概要分析方法:

  • 结构发现:这种方法侧重于数据的格式,确保其在整个数据库中保持一致。 对于这种类型,分析人员可使用多种不同的流程检查数据库。 其中一种是模式匹配,旨在帮助理解特定于格式的信息。 例如,如果您正在输入电话号码,其中一个号码缺少数字。 结构发现可以捕捉到这个问题。
  • 内容发现:这种方法用于分析数据行以发现错误或系统问题。 这个过程会更为仔细地检查数据库的各个元素,帮助发现不正确的值。
  • 关系发现:这种方法需要找出正在使用的数据,并确定各个数据集之间的关系。 为了做到这一点,分析人员首先进行元数据分析,找出数据之间的关系,然后缩小范围,确定特定字段之间的关系。
数据概要分析的优点和挑战

一般来说,数据概要分析几乎不会失败。 有足够数量的数据是一回事,但数据质量更重要,这就需要数据概要分析发挥作用。 实现标准化并具有准确格式的数据有助于消除客户不满意或沟通不畅的现象。

这些挑战本质上主要是系统性的,例如,如果数据不储存在同一个位置,那么就很难找到。 但是,在安装了某些数据工具和应用之后,这样的情况就不会成为问题。数据只有在应用于决策之中后,才能使企业受益。 下面我们详细了解一下其他主要优点和挑战。

优点

与任何其他工具不同,数据概要分析可以提供高层级的数据概述。 具体而言,有如下优点:

  • 更准确的分析:完整的数据概要分析可确保提高数据的质量和可信度。 正确的数据概要分析有助于更好地理解不同数据集和数据源之间的关系,为数据治理过程提供有力支持。
  • 确保信息集中:通过数据概要分析来检查和分析数据,有助于获得质量更卓越、组织更有序的数据。 对源数据的审查可消除错误,并突显问题最多的领域。 然后产生洞察,帮助组织以最合适的方式集中数据。

挑战

数据概要分析的挑战通常源于所涉及工作的复杂性。 更具体地说,具有以下挑战:

  • 成本不菲,耗时耗力:为成功实施计划而进行的数据概要分析可能会非常复杂,部分原因在于组织收集的数据量通常非常巨大。 如果没有合适的工具,聘用训练有素的专家以分析结果然后做出决策可能是一项非常耗费成本和时间的任务。
  • 资源不足:为了开始数据概要分析,企业需要将所有数据集中在一个地方,而情况往往并非如此。 如果数据分布在不同的部门,并且没有经过培训的数据专业人员,则很难对整个企业的数据进行概要分析。
数据概要分析工具和最佳实践

无论采用何种方法,以下数据概要分析工具和最佳实践都能够优化数据概要分析的准确性和效率:

列内概要分析:这种方法扫描数据表,并计算每个值在每列中出现的次数。 对于查找列中的频率分布和模式,列内概要分析可能非常有用。

跨列概要分析:这种方法由两个过程组成:键分析和依赖关系分析。 键分析过程通过查找可能的主键来分析一系列属性值。 而依赖关系分析过程旨在确定嵌入到数据集中的关系或模式。

跨表概要分析:这种方法使用键分析,发现杂散的数据。 外键分析可发现一些孤立的记录或一般差异,以检查不同表中各列之间的关系。

数据规则验证:这种方法根据既定规则和标准,评估数据集,以验证它们是否遵循这些预定义规则。

键完整性:确保数据中始终存在键,并发现可能存在问题的孤立键。

基数:这种方法检查数据集之间的关系,如一对一和一对多。

模式和频率分布:这种方法旨在确保数据字段的格式正确。

数据概要分析用例

虽然数据概要分析可以在各行各业的多种背景下增强数据的准确性、质量和可用性,但还是存在一些较为突出的用例:

数据转换:数据在处理之前,需要转换为可供使用而且组织有序的数据集。 这是创建预测模型和检查数据之前的重要步骤,因此必须在这些步骤之前完成数据概要分析。 事实上,IBM Db2 Warehouse on Cloud 就是为高性能分析和 AI 而构建的弹性云数据仓库。 这个数据仓库可帮助您汇总整个企业中的数据。  

此外,抽取、加载、转换 (ETL) 以及抽取、转换、加载 (ETL) 是将原始数据从源系统移至目标数据库的数据集成过程。 IBM 提供多种数据集成服务和解决方案,旨在支持面向业务的数据管道,并为企业提供高效扩展所需的工具。

数据集成:为了正确集成多个数据集,我们必须首先了解各个数据集之间的关系。 在尝试了解数据指标并确定如何将它们关联起来时,这是至关重要的一步。 

查询优化:如果想要获得有关企业的经过优化的最准确信息,数据概要分析是关键。 数据概要分析考虑有关数据库特征的信息,并创建有关每个数据库的统计信息。 IBM i 7.2 软件提供数据库性能和查询优化功能,就是为了实现这个目的。 数据库调优的目标是通过充分利用系统资源,最大程度缩短查询的响应时间。  

相关解决方案
IBM InfoSphere Information Analyzer

IBM InfoSphere Information Analyzer 评估数据内容和结构的一致性和质量。 InfoSphere Information Analyzer 还可以通过推断和发现异常,帮助提高数据的准确性。

IBM InfoSphere Information Analyzer
IBM InfoSphere® QualityStage®

IBM InfoSphere® QualityStage® 旨在支持企业的数据质量和信息治理计划。 它可以帮助您调查、清理和管理数据,保持有关关键实体(包括客户、供应商、地点和产品)的统一视图。

IBM InfoSphere® QualityStage®
采取后续步骤

IBM 提供大量资源,以最有效的方式处理数据,最大程度改善数据概要分析体验。 无论您拥有多少数据,IBM InfoSphere Information Analyzer 和 IBM InfoSphere® QualityStage® 都可以帮助您增强数据训练过程,并为数据质量和信息治理计划提供支持。 它可以帮助您调查、清理和管理数据,保持有关关键实体(包括客户、供应商、地点和产品)的统一视图。

IBM InfoSphere® QualityStage®