对于那些希望变得更加“数据驱动”的组织而言,数据质量不佳是他们面临的最大障碍之一。不合时宜的业务决策和错误的业务流程、错失收入机会、失败的业务计划和复杂的数据系统,都可能源于数据质量问题。仅仅其中一个问题就可能对组织造成高昂代价。要处理所有这些问题可能会带来毁灭性打击。
决定企业数据质量的因素包括准确性、完整性、一致性等。但数据质量还有另一个因素没有得到应有的重视,那就是数据架构。
合适的数据架构可帮助您的组织提高数据质量,因为它可提供一个框架,该框架决定了如何在商业智能和数据科学用例中收集、传输、存储、保护、使用和共享数据。
第一代数据架构以企业数据仓库和商业智能平台为代表,其特点是存在成千上万个 ETL 作业、表格和报告,但只有一小部分专业数据工程师才能理解,因此对业务产生的积极影响的认识不足。下一代大数据平台和由中央数据工程师团队运行的长期批处理作业,往往会导致数据湖沼泽的出现。
这两种方法通常都是单体式和集中式架构,围绕数据摄取、处理、清洗、聚合和服务等机械功能展开。这造成了许多组织瓶颈和技术瓶颈,阻碍了多个维度上的数据集成和规模化:数据环境的不断变化、数据源和数据消费者的激增、用例所需的转型和数据处理的多元性以及对变化的响应速度。
数据网格和 data fabric 架构等现代数据架构旨在轻松连接新数据源,并加快本地、混合和多云环境中针对特定用例的数据管道开发。结合有效的数据生命周期管理(最终演变为数据即产品管理),现代数据架构可在以下方面助力您的组织:
由于数据架构决定了数据资产和数据管理资源的结构,因此对组织执行这些任务的效率至关重要。这意味着,数据架构是数据质量提升业务战略的基础要素。要实现现代高质量数据质量管理解决方案的关键功能,组织需要做到:
数据战略可以帮助数据架构师创建和实施提升数据质量的数据架构。可通过以下步骤制定有效的数据战略:
例如,一家金融机构可能希望提高监管合规性、降低成本并增加收入。利益相关者可以识别某些数据类型的业务用例,例如在摄取数据时对实时数据运行数据分析,以实现自动化决策,从而降低成本。
这一步包括识别整个组织的所有数据,并编目整理成集中式或联合式库存清单,从而消除数据孤岛。该清单应详细说明每个数据集的位置,以及哪些应用程序和用例依赖该数据集。接下来,选择关键用例所需的数据,并对包含这些数据的数据域进行优先排序。
组织内使用的数据采用统一的命名规则和数据格式(数据类),有助于确保不同部门(领域)和用例之间的数据一致性和互操作性。
确定如何改进才能优化数据,从而实现业务目标。研究 data fabric 架构、数据网格等不同类型的现代数据架构,可以帮助您确定最适合您业务需求的数据结构。
创建关键绩效指标 (KPI) 并使用高级分析工具,将架构成功的衡量标准与其对数据质量的支持程度挂钩。
公司可以制定推广计划,每个季度针对三到四个数据域实施数据架构和治理。
一个设计良好的数据架构可通过透明度和标准化为数据质量奠定基础,规范组织如何看待、使用和讨论数据。
如前所述,data fabric 架构就是这样一种架构。data fabric 架构可以自动执行数据发现、治理和数据质量管理,简化了自助数据访问,可轻松访问分布在混合云环境中的数据。这种架构可以容纳生成和使用数据的应用程序,以及任意数量的数据存储库,例如数据仓库、数据湖(存储大量大数据)、NoSQL 数据库(存储非结构化数据)和使用 SQL 的关系型数据库。
详细了解 data fabric 架构和 IBM Cloud Pak for Data 的优点。
企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。