概述

什么是数据集成?

数据集成是一组技术和业务流程,如 ETL、数据复制和数据虚拟化,它将不同来源的数据整合为一组有意义且有价值的数据集,用于商业智能和业务分析。 完整的数据集成解决方案提供来自多个本地和云来源的数据,以支持面向企业的可信数据管道,进而推动 DataOps。

来自 IBM 的数据集成解决方案 — 包括 IBM Cloud Pak® for Data 平台上的数据集成 — 提供可扩展的多云解决方案,以加快您的 AI 之旅的步伐。 从源系统中提取海量数据,以任何方式进行转换,并将其加载到企业数据仓库或云源。

IBM 数据集成产品可以单独使用,也可以作为 IBM Cloud® 上的托管服务使用。

了解为什么 IBM 在 2021 年 Gartner 发布的数据集成工具魔力象限中被列为领导者。

Andre De Locht 介绍数据集成

在 30 秒内解析数据: 什么是数据集成? (00:30)

IBM 在 Data Fabric 用例中位列第二

了解我们在 2021 年 Gartner 数据集成工具的关键功能中的优势。

数据集成用例

客户数据集成

六边形内一个人的轮廓

连接分布式数据库和系统的数据,以促进客户关系管理 (CRM),并提供客户想要或需要的内容。

医疗保健数据集成

医疗图表笔记板

结合临床、基因组、放射学和图像数据,快速获得洞察,并用于患者治疗、队列治疗和人群健康分析。

大数据集成

嵌套的六边形

使用复杂的数据仓库,提供多个来源的大数据的统一视图,以简化商业智能流程。

为何选择 IBM 数据集成解决方案

开源代码平台

利用 Red Hat® OpenShift® 上运行的数据集成平台,获得企业规模和安全性。

AI 支持的自动化

通过基于 AI 的任务自动化加速交付并降低 TCO。

多云部署

利用容器技术跨混合多云环境运行数据集成。

IBM DataStage

作为 ETL 领域的领导者,IBM® DataStage® 是一个高度可扩展的数据集成工具,用于设计、开发和运行可在本地和云端移动和转换数据的作业。

采用 Red Hat OpenShift 上基于容器的现代架构,IBM DataStage for IBM Cloud Pak for Data 将业界领先的数据集成与单个数据和 AI 平台上的 DataOps、治理和分析功能相结合。 在混合云或多云环境中大规模地交付可信数据。

深度探索

数据集成技术

数据集成对于帮助企业将数据整合到单一、可信的分析视图中并最终推动业务发展至关重要。 例如,统一的客户数据视图可以推动实施更成功的营销策略。 数据集成过程中使用不同的技术,包括:

  • 抽取、转换、加载 (ETL): 将数据从多个来源抽取,转换和加载到单个数据存储位置,然后加载到数据仓库或其他目标系统中。 在暂存区域(而不是源系统)中转换或清理和准备原始数据可提高性能并降低数据损坏的几率。
  • 抽取、转换、加载 (ETL): 将原始数据从源位置抽取并加载到目标数据存储位置,然后在需要时进行转换。 通常来说, ELT 的目标系统是一个数据湖,它可以容纳海量结构化和非结构化数据,或者是一个云数据仓库。 该方法非常适用于支持人工智能 (AI)机器学习预测性分析和使用实时数据的应用。
  • 数据复制: 提供补充性功能,例如利用低影响、基于日志的数据捕获,进行近乎实时的数据同步或分发。
  • 数据虚拟化: 通过为需要访问和按需查询数据的业务用户创建虚拟视图,抽象访问来自多个来源的数据。

数据集成挑战

许多组织面临来自不同系统 ( 如关系数据库或流数据服务 ) 的海量数据.。 需要更好的决策的商业智能隐藏在所有这些数据中,但必须遵循可靠的数据集成流程,才可以确保数据得到管理和控制,并最终成为可信数据。 您的集成工作可能受阻于:

多云环境中的数据延迟
在多云和数据湖环境中迁移数据可能很慢,并且无法在应用或操作系统中实时使用这些数据。

多种工具的复杂性和成本
管理多个数据集成工具会耗费资源使用时间,而且对于企业而言成本高昂。

人工流程和工作流程
手动编码和工作设计等人工劳动可延长应用构建和更新的时间。 人工流程还必须针对每个云环境进行设计,因此,如果您使用多个云,开发时间和成本会随之增加。

缺乏数据质量和治理
难以管理来自许多不同来源的数据,并且使企业面临风险。 有效的 AI 模型还需要可信和干净的数据。

云数据集成

数据存储库包括本地、云和数据湖环境。 组织通常还使用来自不同供应商的云来满足存储或应用部署的特殊需求。 云数据集成就是将所有这些环境中的数据集成到一起以获得统一视图。

云数据集成非常复杂,需要现代化的方法。 强大的多云数据集成解决方案应该:

  • 简化并加速混合多云环境中不同来源的数据同步
  • 查找更接近数据源的运行时间
  • 在不同云平台上使用嵌入式分析和 AI 服务
  • 自动化工作设计并配备预构建连接器,可以更快地访问数据源
  • 考虑在线数据质量,以管理治理和合规性

IBM DataStage for IBM Cloud Pak for Data 可实现这种现代化方法。

数据集成与应用集成

数据集成和应用集成看似相似,但实际上是两个不同的概念。 如前所述,数据集成是从不同数据源查找和检索信息并以统一的结构和视图展示信息的做法。 应用集成直接链接多个独立应用,促进它们的相互配合,这通常通过现代 API 或传统的面向服务的架构实现。 合并和优化数据与工作流,有助于弥合本地系统和云应用之间的差距。

数据集成与数据迁移

数据迁移是在不同存储类型之间传输数据的过程。 包括将数据从本地环境迁移上云。 然而,出于便于分析的需要,数据集成中的数据会经过 ETL 或 ELT 流程,因此数据集成更为复杂。

相关产品

IBM Cloud Pak for Data

借助这个灵活的多云数据平台,集成本地或任何云上的所有数据,从源头上提高其安全性。

IBM InfoSphere Master Data Management

单个或多个领域的主数据管理,领域包括客户、供应商、产品、帐户等。

IBM InfoSphere Data Replication

帮助以低延迟跨广泛的 RDBMS 和非 RDBMS 来源和目标复制数据,同时提高事务完整性。

后续步骤