什么是数据转换？

什么是数据转换？

数据转换是数据集成流程中的关键组成部分；其中，原始数据会转换为统一的格式或结构。数据转换可确保与目标系统的兼容性，并提高数据质量和可用性。它是数据管理实践的一个重要方面，其中包括数据清洗、数据分析和数据仓储。

虽然专家可以手动实现数据转换，但为现代企业应用程序提供支持所需的大量数据通常需要一定程度的自动化。在转换数据过程中部署的工具和技术可以是简单的，也可以是复杂的。

数据转换可能十分简单，例如：将一个日期字段（例如：MM/DD/YY）转换为另一日期字段，或是将一个 Excel 列一分为二。但是，复杂的数据转换（用于清理和标准化来自多个不同来源的数据，并由多个工作流程组成）则可能涉及数据科学高级技能。

此类先进的数据工程功能包括数据规范化（可定义数据点之间的关系）和数据扩充（利用第三方数据集来补充现有信息）。

在当今数字优先的全球经济环境下，数据转换可帮助组织利用来自不同来源的大量数据来改进服务、训练机器学习模型以及部署大数据分析。

数据转换用例

通过将数据集标准化并为后续处理做好准备，数据转换可使多项关键的企业数据实践成为可能。在商业领域中，进行数据转换的常见原因包括：

商业智能

组织将数据转换用于商业智能应用程序（如实时仪表板和预测报告），从而实现基于海量信息的数据驱动决策。

数据仓储

数据转换准备在数据仓库或数据湖中存储和管理数据，以便高效查询和分析。

机器学习

机器学习模型需要干净、有条理的数据。确保数据可信且格式正确，组织可以使用它来训练和调整人工智能 (AI) 工具。

大数据分析

在对大数据进行商业智能、市场研究或其他应用程序分析之前，必须进行适当的整理和格式化。

数据迁移

将数据从本地旧系统迁移到云数据仓库或湖仓一体等现代平台通常涉及复杂的数据转换。

数据转换流程

数据转换通常遵循结构化流程，以便从原始数据生成可用、有价值的数据。数据转换流程的常见步骤包括：

1. 数据发现

在发现过程中，要收集源数据。此流程可能包括以不同格式从 API、SQL Database 或内部文件中获取原始数据。在识别和提取这些信息时，数据专业人员确保收集的信息全面且与其最终应用相关。在发现过程中，工程师还开始通过一种称为数据分析的过程来了解数据的特征和结构。

2. 数据清洗

数据准备和清理需要识别和修复原始数据中的错误、不一致和不准确之处。此步骤通过删除重复项和异常值或处理缺失值来确保数据质量和可靠性。

3. 数据映射

数据映射涉及创建架构或映射过程来指导转换过程。在此过程中，数据工程师要确定源系统中的元素如何与目标格式中的特定元素相对应。

4. 代码生成

无论是使用第三方工具，还是通过内部生成代码，组织都会在此步骤中创建用于转换数据的代码。

5. 代码执行和验证

在此阶段，当代码应用于原始数据时，就会发生实际的转换。将转换后的数据加载到目标系统中，以便进行进一步分析或处理。然后对转换后的数据和数据模型进行验证，确保一致性和正确性。

6. 审查

在审查期间，数据分析师、工程师或最终用户会审查输出数据，以便确认其符合要求。

AI Academy

数据管理是生成式 AI 的秘诀吗？

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

ETL 数据转换对比 ELT 数据转换

ETL（提取、转换、加载）和 ELT（提取、加载、转换）是两个经常使用的数据转换流程，它们部署略有不同的数据管道技术。每种方法都有优点和缺点，具体取决于转换的规模和复杂性。

提取、转换、加载：暂存区中的数据转换

在 ETL 流程中，会从其来源中提取预先确定的一部分结构化数据，然后在暂存区或二级处理服务器中进行转换，然后再加载到目标系统中。ETL 更适合本地存储和较小的数据集。但在具有特定数据质量和一致性需求的场景中，ETL 可能更为可取，因为它可引入更严格的数据清理与验证步骤。迁移期间，也可能需要 ETL 来保护敏感数据，例如受 HIPAA 保护的信息。