提高数据质量的数据架构策略

建于 20 世纪 60 年代的精美图书馆

作者

Grzegorz Przybycień

Senior Product Manager

Watson Knowledge Catalog

对于那些希望变得更加“数据驱动”的组织而言,数据质量不佳是他们面临的最大障碍之一。不合时宜的业务决策和错误的业务流程、错失收入机会、失败的业务计划和复杂的数据系统,都可能源于数据质量问题。仅仅其中一个问题就可能对组织造成高昂代价。要处理所有这些问题可能会带来毁灭性打击。

决定企业数据质量的因素包括准确性、完整性、一致性等。但数据质量还有另一个因素没有得到应有的重视,那就是数据架构

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

合适的数据架构如何提高数据质量

合适的数据架构可帮助您的组织提高数据质量,因为它可提供一个框架,该框架决定了如何在商业智能和数据科学用例中收集、传输、存储、保护、使用和共享数据。

第一代数据架构以企业数据仓库和商业智能平台为代表,其特点是存在成千上万个 ETL 作业、表格和报告,但只有一小部分专业数据工程师才能理解,因此对业务产生的积极影响的认识不足。下一代大数据平台和由中央数据工程师团队运行的长期批处理作业,往往会导致数据湖沼泽的出现。

这两种方法通常都是单体式和集中式架构,围绕数据摄取、处理、清洗、聚合和服务等机械功能展开。这造成了许多组织瓶颈和技术瓶颈,阻碍了多个维度上的数据集成和规模化:数据环境的不断变化数据源和数据消费者的激增用例所需的转型和数据处理的多元性以及对变化的响应速度。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

现代数据架构对您的业务有何作用?

数据网格和 data fabric 架构等现代数据架构旨在轻松连接新数据源,并加快本地、混合和多云环境中针对特定用例的数据管道开发。结合有效的数据生命周期管理(最终演变为数据即产品管理),现代数据架构可在以下方面助力您的组织:

  • 使数据管理员能够确保数据合规性、保护和安全性
  • 通过了解数据的来源、变化以及使用者,增强数据的可信度
  • 监控并识别靠近数据源的数据质量问题,以减轻对下游流程或工作负载的潜在影响
  • 高效采用数据平台和新技术,实现有效数据管理
  • 应用元数据为现有数据和新数据添加上下文信息,使这些数据可被搜索和发现
  • 进行数据剖析(检查、分析数据集并创建摘要的过程)
  • 减少数据重复和碎片化

由于数据架构决定了数据资产和数据管理资源的结构,因此对组织执行这些任务的效率至关重要。这意味着,数据架构是数据质量提升业务战略的基础要素。要实现现代高质量数据质量管理解决方案的关键功能,组织需要做到:

  • 利用元数据和 AI 相关技术 (ibm.com 外部链接)增强手动数据质量流程,在整个组织中实施数据治理。
  • 根据预先配置的规则执行数据质量监控
  • 建立数据建模谱系,对数据质量问题进行根本原因分析
  • 让数据集的价值一目了然
  • 在所有接口中保持良好的数据卫生习惯

如何构建可提高数据质量的数据架构

数据战略可以帮助数据架构师创建和实施提升数据质量的数据架构。可通过以下步骤制定有效的数据战略:

1. 概述您希望数据帮助您实现的业务目标

例如,一家金融机构可能希望提高监管合规性、降低成本并增加收入。利益相关者可以识别某些数据类型的业务用例,例如在摄取数据时对实时数据运行数据分析,以实现自动化决策,从而降低成本。

2. 清点现有数据资产并绘制当前数据流图

这一步包括识别整个组织的所有数据,并编目整理成集中式或联合式库存清单,从而消除数据孤岛。该清单应详细说明每个数据集的位置,以及哪些应用程序和用例依赖该数据集。接下来,选择关键用例所需的数据,并对包含这些数据的数据域进行优先排序。

3. 制定标准化命名法

组织内使用的数据采用统一的命名规则和数据格式(数据类),有助于确保不同部门(领域)和用例之间的数据一致性和互操作性。

4. 确定现有架构需要进行哪些改进

确定如何改进才能优化数据,从而实现业务目标。研究 data fabric 架构数据网格等不同类型的现代数据架构,可以帮助您确定最适合您业务需求的数据结构。

5. 确定用于衡量数据架构有效性的关键绩效指标 (KPI)

创建关键绩效指标 (KPI) 并使用高级分析工具,将架构成功的衡量标准与其对数据质量的支持程度挂钩。

6. 制定数据架构路线图

公司可以制定推广计划,每个季度针对三到四个数据域实施数据架构和治理。

数据架构和 IBM

一个设计良好的数据架构可通过透明度和标准化为数据质量奠定基础,规范组织如何看待、使用和讨论数据。

如前所述,data fabric 架构就是这样一种架构。data fabric 架构可以自动执行数据发现、治理和数据质量管理,简化了自助数据访问,可轻松访问分布在混合云环境中的数据。这种架构可以容纳生成和使用数据的应用程序,以及任意数量的数据存储库,例如数据仓库数据湖(存储大量大数据)、NoSQL 数据库(存储非结构化数据)和使用 SQL 的关系型数据库。

详细了解 data fabric 架构和 IBM Cloud Pak for Data 的优点。

 
相关解决方案
分析工具和解决方案

企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。

深入了解分析解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
IBM Cognos Analytics

推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。

深入了解 Cognos Analytics
采取后续步骤

企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。

深入了解分析解决方案 了解分析服务