什么是数据管理?

了解数据管理的组成部分,推动组织内数据驱动的决策制定。

两个人在工厂里互相对视
什么是数据管理?

数据管理是摄取、处理、保护和存储组织数据的一套做法,然后会将数据用于战略决策以改善业务成果。 在过去的十年间,混合云人工智能、物联网 (IoT) 和边缘计算 造成大数据呈指数级增长,提高了企业数据管理的复杂程度。 因此,组织内的数据管理成为日益重要的优先事项,因为数据增长带来了严峻的挑战,例如数据孤岛、安全风险以及普遍存在的决策瓶颈。 团队通过大量的数据管理解决方案直面这些挑战,这些解决方案的目的在于清理、统一和保护数据。 这反过来又让领导者能够通过仪表板和其他数据可视化工具发掘洞察,从而做出明智的业务决策。 数据科学团队也能借机调查更复杂的问题,从而利用更先进的分析功能,如机器学习,开展概念验证项目。 如果他们能成功交付并改进业务成果,那么可以与相关团队合作,通过自动化操作在整个组织中大规模开展此类学习。

数据管理与主数据管理

数据管理涉及整个学科,而主数据管理的范围更具体,它侧重于交易数据,即销售记录。 销售数据通常包括客户、销售商和产品信息。 企业可借助此种类型的数据确定其最成功的产品和市场以及最具价值的客户。 由于主数据包含个人身份信息 (PII),因此要遵循更严苛的法规,如 GDPR。 


数据管理类型

数据管理学科的范围相当广泛,强大的数据管理策略通常会实施以下各部分操作,以简化整个组织的策略和运营: 

数据处理:数据管理生命周期的这一阶段,将从一系列数据源中提取原始数据,如 Web API、移动应用程序、物联网 (IoT) 设备、表单、调查报告等。 然后,通常通过数据集成技术处理或加载原始数据,如提取、转换、加载 (ETL)或者提取、加载、转换 (ELT)。 虽然 ETL 历来是跨不同数据集集成和组织数据的标准方法,但随着云数据平台的兴起以及实时数据的需求不断增加,ELT 越来越受欢迎。 不论采用何种数据集成 技术,此类数据通常都会在数据处理阶段进行过滤、合并或聚合,以满足预期目的的各项要求,可以是商业智能仪表板或预测性机器学习算法等等。 

数据存储:虽然数据可以在数据处理之前或之后进行存储,但数据的类型及其用途通常决定了所利用的存储库。 例如,数据仓库需要定义的模式来满足数据输出的特定数据分析需求,例如仪表板、数据可视化和其他商业智能 任务。 这些数据需求通常由业务用户与数据工程师合作指导和记录,他们最终将按定义的数据模型来执行。 数据仓库的底层结构通常以关系系统(即结构化数据格式)的形式加以组织,并从事务数据库中获取数据。 但是,其他存储系统,如数据湖,会整合来自关系系统和非关系系统的数据,成为创新数据项目的沙盒。 数据湖对于数据科学家来说非常有用,因数据研究员可利用数据湖将结构化和非结构化数据整合到他们的数据科学项目。 

数据治理:数据治理是一组标准和业务流程,可确保在组织内有效利用数据资产。 其中通常包括数据质量、数据访问、可用性和数据安全相关的流程。 例如,数据治理委员会往往在分类法上保持一致,以确保在各种数据源中按一致方式添加元数据。 该分类法还应通过数据目录进一步归档,让用户更容易访问数据,促进组织间的数据民主化。 数据治理团队还可帮助定义角色和职责,以确保适当地提供数据访问权;这对于保护数据隐私尤为重要。 

数据安全:数据安全设置了屏障以保护数字信息免遭未经授权的访问、损坏或盗窃。 随着数字技术成为我们生活中越来越重要的一部分,现代企业的安全实践受到的审查也越来越多,从而确保客户数据免受网络犯罪或灾难恢复事件的影响。 虽然数据丢失对任何企业来说都可能造成毁灭性打击,但从财务和品牌的角度来看,数据泄露尤其会引发代价惨重的后果。 数据安全团队可以通过在其数据安全策略中利用加密和数据屏蔽来更好地保护他们的数据。 

数据管理系统的数据架构

虽然数据处理、数据存储、数据治理和数据安全都属于数据管理的一部分,但其中任何部分的成功都取决于公司的数据架构或技术堆栈。 公司的数据基础架构搭建了一条用于获取、处理、存储和访问数据的管道,这一步要通过将这些系统集成在一起来完成。 数据服务和 API 将来自原有系统、数据湖数据仓库sql 数据库和应用程序的数据整合在一起,提供了业务绩效的整体视图。 

数据管理领域中的各个部分都在经历巨大的变化。 例如,从本地系统到云平台的转移是目前该领域最具颠覆性的技术之一。 与本地部署不同,云存储提供商允许用户根据需要启动大型集群,且只需要为指定的存储付费。 这意味着,如果您需要额外的计算能力以在几小时而不是几天内运行作业,那么可以通过购买额外的计算节点在云平台上轻松完成此操作。

向云数据平台的这种转移也促进了流式数据处理的采用。 诸如 Apache Kafka 等工具可提高数据处理的实时性,支持消费者订阅主题以在几秒钟内接收数据。 但是,批处理仍然独具优势,它在处理大量数据时效率更高。 虽然批处理遵循设定的时间表,例如每天、每周或每月执行,但它非常适合通常不需要实时数据的业务绩效仪表板。 

该领域中的变革只会持续加速。 最近,逐步兴起的数据架构可帮助应对这些数据系统的复杂管理。 数据架构 利用智能和自动化系统促进各种数据管道和云环境的端到端集成。 随着此类新技术的发展,我们预计业务领导者将获得更全面的业务绩效视图,因为此类技术支持跨职能部门集成数据。 人力资源、营销、销售、供应链等数据的统一能让领导者更好地了解他们的客户。 

数据管理的优势

组织在启动和维护数据管理计划时会获得诸多优势: 

减少数据孤岛:大多数(如果不是全部)公司在其组织内都会出现数据孤岛。 不同的数据管理工具和框架,例如数据架构和数据湖,有助于消除数据孤岛以及对数据所有者的依赖。 例如,数据架构有助于揭示跨职能部门的不同数据集间的潜在集成,例如人力资源、营销、销售等。 另一方面,数据湖从这些相同的职能部门中提取原始数据,从而消除了依赖关系并避免了给定数据集具有唯一所有者的情况。 

改进的合规性和安全性:治理委员会协助设置安全屏障,以避免企业因不遵守政府法规和政策而可能造成的罚款和负面影响。 从品牌和财务角度来看,这种失误可能代价惨重。 

增强了客户体验:虽然这种好处不会立即显现,但成功的概念验证可以改善整体用户体验,让团队能够通过富有洞察力的全面分析更深入地理解并打造个性化的客户旅程。

可扩展性:数据管理可帮助企业发展壮大,但这在很大程度上取决于现有的技术和流程。 例如,云平台支持更高的灵活性,使数据所有者能够根据需要扩大或缩小计算能力。 此外,治理委员会可帮助确保在公司规模逐步扩大的过程中采用定义的分类法。 

数据管理和 IBM

IBM 提供了融合 AI 的混合数据管理解决方案,此类解决方案以 Red Hat® OpenShift® 的开放平台为基础构建,通过自动容器化功能,让数据收集和管理变得更加简单智能。