发布日期:2024 年 6 月 19 日
撰稿人:Molly Hayes、Amanda Downie
虽然专家可以手动实现数据转换,但为现代企业应用程序提供支持所需的大量数据通常需要一定程度的自动化。在转换数据过程中部署的工具和技术可以是简单的,也可以是复杂的。
数据转换可能十分简单,例如:将一个日期字段(例如:MM/DD/YY)转换为另一日期字段,或是将一个 Excel 列一分为二。但是,复杂的数据转换(用于清理和标准化来自多个不同来源的数据,并由多个工作流程组成)则可能涉及数据科学高级技能。
此类先进的数据工程功能包括数据规范化(可定义数据点之间的关系)和数据扩充(利用第三方数据集来补充现有信息)。
在当今数字优先的全球经济环境下,数据转换可帮助组织利用来自不同来源的大量数据来改进服务、训练机器学习模型以及部署大数据分析。
通过将数据集标准化并为后续处理做好准备,数据转换可使多项关键的企业数据实践成为可能。在商业领域中,进行数据转换的常见原因包括:
数据转换通常遵循结构化流程,以便从原始数据生成可用、有价值的数据。数据转换流程的常见步骤包括:
在发现过程中,要收集源数据。此流程可能包括以不同格式从 API、SQL Database 或内部文件中获取原始数据。在识别和提取这些信息时,数据专业人员确保收集的信息全面且与其最终应用相关。在发现过程中,工程师还开始通过一种称为数据剖析的过程来了解数据的特征和结构。
数据准备和清理需要识别和修复原始数据中的错误、不一致和不准确之处。此步骤通过删除重复项和异常值或处理缺失值来确保数据质量和可靠性。
数据映射涉及创建架构或映射过程来指导转换过程。在此过程中,数据工程师要确定源系统中的元素如何与目标格式中的特定元素相对应。
无论是使用第三方工具,还是通过内部生成代码,组织都会在此步骤中创建用于转换数据的代码。
在此阶段,当代码应用于原始数据时,就会发生实际的转换。将转换后的数据加载到目标系统中,以便进行进一步分析或处理。然后对转换后的数据和数据模型进行验证,确保一致性和正确性。
在审查期间,数据分析师、工程师或最终用户会审查输出数据,以便确认其符合要求。
ETL(提取、转换、加载)和 ELT(提取、加载、转换)是两个经常使用的数据转换流程,它们部署略有不同的数据管道技术。每种方法都有优点和缺点,具体取决于转换的规模和复杂性。
在 ETL 流程中,会从其来源中提取预先确定的一部分结构化数据,然后在暂存区或二级处理服务器中进行转换,然后再加载到目标系统中。ETL 更适合本地存储和较小的数据集。但在具有特定数据质量和一致性需求的场景中,ETL 可能更为可取,因为它可引入更严格的数据清理与验证步骤。迁移期间,也可能需要 ETL 来保护敏感数据,例如受 HIPAA 保护的信息。
在 ELT 流程中,从数据源中提取信息并将其加载到基于云的目标系统中并在其中进行转换。这种方法利用了云计算能力,通常允许更快的处理和更敏捷的数据管理。它也可以与图像等非结构化数据一起使用。借助基于云的计算和存储能力的优势,ELT 流程受益于增强的可扩展性。
数据科学家和工程师会在整个数据转换流程中使用多种技术。采用哪些计策完全取决于具体项目和数据的预期用途,但作为复杂流程的一部分,可能会同时使用几种方法。
虽然可以仅通过部署内部工程师来执行数据转换,但许多第三方服务有助于简化转换和迁移流程。一些最常见的媒介或方法包括:
数据转换是数据处理中的关键步骤。它可以提高组织的分析、报告、决策和存储能力。主要优点包括:
数据转换可对数据格式和结构进行标准化,以便简化将信息集成到内聚数据集中。通过打破数据孤岛并统一来自不同部门或系统的信息,组织可消除不一致问题并获得统一的企业视图。
通常,转换后的数据更有条理、更有结构,从而更容易创建有意义的可视化效果,有效地传达洞察分析。可视化有助于决策者识别趋势或机遇,并可近乎实时地呈现关键数据,例如销售或采购渠道。
数据转换将复杂或非结构化数据转换成更易于理解、访问和分析的格式。组织使用这些数据来创建高级市场预测或确定需要改进的领域。
数据转换可能包括数据匿名化和加密、保护敏感信息以及遵守隐私法规。对于医疗保健和金融等受到严格监管的行业以及在多个地区开展运营且存在不同隐私法的组织来说,此安全性依然至关重要。
转换后的数据通常更为灵活且更易精简,从而使其更易适应新的用例或随着数据量的增长而对数据处理进行垂直扩展。可扩展的数据可确保组织在不进行多次昂贵的重组和 IT 实施的情况下实现增长。
揭示企业数据的价值,通过 IBM Consulting 构建一家以洞察分析为导向的组织,实现业务优势。
借助 IBM DataOps 平台,组织可消除以数据为中心的团队与以开发为中心的团队之间的区别,从而提高从错误修复到目标设定等各个方面的效率。
借助 IBM 数据和 AI 解决方案,组织可在不牺牲数据安全性或质量的情况下,使用企业数据来提高弹性、可靠性和成本效益。
IBM watsonx.data 可帮助组织利用其所有数据来扩展 AI 和分析,而无论这些数据位于何处。
Data Fabric 等现代数据架构可以帮助塑造和统一数据驱动型企业,指导决策并提高数据治理和集成的质量。