数据概要分析也叫做"数据考古",是审查和清理数据的过程,旨在加深对组织内数据结构的理解,以及保持数据质量标准。 主要目的是通过各种方法审查数据并进行总结,然后对其状况进行评估,从而深入了解数据的质量。 通常,数据工程师通过使用一系列业务规则和分析算法完成这项工作。
数据概要分析根据准确性、一致性和及时性等因素评估数据,以表明数据是否缺乏一致性或准确性,或者是否具有空值。 数据概要分析的结果可能是简单的统计数据,比如一列数字或值,具体取决于数据集。 数据概要分析可用于涉及数据仓储或商业智能的项目,对大数据项目帮助更大。 数据概要分析可能是数据处理和数据分析的重要前提条件。
为所有数据随处扩展 AI 工作负载
企业集成软件或应用,以确保正确准备数据集,并充分利用这些数据集以消除不良数据。 具体而言,可以确定哪些数据源存在或正在产生数据质量问题,这些问题最终会影响整体业务运营和财务方面的成功。 这个流程还将执行必要的数据质量评估。
数据概要分析的第一步是收集数据源和相关的元数据以进行分析,这通常可以发现外键关系。 接下来的步骤旨在清理数据以确保结构统一并消除重复等问题。 清理数据后,数据概要分析软件将返回用于描述数据集的统计信息,例如平均值、最小值/最大值和频率等。 下面,我们简要介绍适当的数据概要分析方法。
数据概要分析是组织的数据处理方法的重要组成部分,企业应将其视为数据清理的关键一步。 它不仅可以帮助您理解数据,还可以验证数据是否符合标准的统计度量。 分析团队可通过许多不同的方式执行数据概要分析,但通常可以分为三大类,它们的目标都是提高数据质量以及加深对数据的理解。
以下是分析人员可以使用的数据概要分析方法:
一般来说,数据概要分析几乎不会失败。 有足够数量的数据是一回事,但数据质量更重要,这就需要数据概要分析发挥作用。 实现标准化并具有准确格式的数据有助于消除客户不满意或沟通不畅的现象。
这些挑战本质上主要是系统性的,例如,如果数据不储存在同一个位置,那么就很难找到。 但是,在安装了某些数据工具和应用之后,这样的情况就不会成为问题。数据只有在应用于决策之中后,才能使企业受益。 下面我们详细了解一下其他主要优点和挑战。
优点
与任何其他工具不同,数据概要分析可以提供高层级的数据概述。 具体而言,有如下优点:
挑战
数据概要分析的挑战通常源于所涉及工作的复杂性。 更具体地说,具有以下挑战:
无论采用何种方法,以下数据概要分析工具和最佳实践都能够优化数据概要分析的准确性和效率:
列内概要分析:这种方法扫描数据表,并计算每个值在每列中出现的次数。 对于查找列中的频率分布和模式,列内概要分析可能非常有用。
跨列概要分析:这种方法由两个过程组成:键分析和依赖关系分析。 键分析过程通过查找可能的主键来分析一系列属性值。 而依赖关系分析过程旨在确定嵌入到数据集中的关系或模式。
跨表概要分析:这种方法使用键分析,发现杂散的数据。 外键分析可发现一些孤立的记录或一般差异,以检查不同表中各列之间的关系。
数据规则验证:这种方法根据既定规则和标准,评估数据集,以验证它们是否遵循这些预定义规则。
键完整性:确保数据中始终存在键,并发现可能存在问题的孤立键。
基数:这种方法检查数据集之间的关系,如一对一和一对多。
模式和频率分布:这种方法旨在确保数据字段的格式正确。
虽然数据概要分析可以在各行各业的多种背景下增强数据的准确性、质量和可用性,但还是存在一些较为突出的用例:
数据转换:数据在处理之前,需要转换为可供使用而且组织有序的数据集。 这是创建预测模型和检查数据之前的重要步骤,因此必须在这些步骤之前完成数据概要分析。 事实上,IBM Db2 Warehouse on Cloud 就是为高性能分析和 AI 而构建的弹性云数据仓库。 这个数据仓库可帮助您汇总整个企业中的数据。
此外,抽取、加载、转换 (ETL) 以及抽取、转换、加载 (ETL) 是将原始数据从源系统移至目标数据库的数据集成过程。 IBM 提供多种数据集成服务和解决方案,旨在支持面向业务的数据管道,并为企业提供高效扩展所需的工具。
数据集成:为了正确集成多个数据集,我们必须首先了解各个数据集之间的关系。 在尝试了解数据指标并确定如何将它们关联起来时,这是至关重要的一步。
查询优化:如果想要获得有关企业的经过优化的最准确信息,数据概要分析是关键。 数据概要分析考虑有关数据库特征的信息,并创建有关每个数据库的统计信息。 IBM i 7.2 软件提供数据库性能和查询优化功能,就是为了实现这个目的。 数据库调优的目标是通过充分利用系统资源,最大程度缩短查询的响应时间。
IBM InfoSphere Information Analyzer 评估数据内容和结构的一致性和质量。 InfoSphere Information Analyzer 还可以通过推断和发现异常,帮助提高数据的准确性。
IBM InfoSphere® QualityStage® 旨在支持企业的数据质量和信息治理计划。 它可以帮助您调查、清理和管理数据,保持有关关键实体(包括客户、供应商、地点和产品)的统一视图。