数据移动

IBM® Fast Data Movement 使您能够在 Hadoop 环境与 Db2® Warehouse 环境之间快速传输数据。

可以通过两种方法在 Db2 Warehouse 与 Hadoop 之间移动数据:
  • 导入

    Db2 Warehouse 到 Hadoop 的数据传输。

    数据以文本方式传输,然后以您选择的格式存储在 Hadoop 上:在配置 XML 文件中使用 fq.data.format 参数可设置目标格式。可以选择下列其中一项:TXTPARQUETORCRCFILEAVROSEQUENCEFILE

  • 导出

    从 Hadoop 到 Db2 Warehouse 的数据传输。

    可以将以下数据类型导出到 Db2 Warehouse
    • 先前从 Db2 Warehouse 导入的数据文件。
    • 文本格式的 Hadoop 数据文件。
    • 先前从 Db2 Warehouse 导入的 Hadoop 特定格式(Parquet、Avro、ORC 和 RCFile)的 Hadoop 数据类型。
    • 并非先前从 Db2 Warehouse 导入的 Hive 表。
    • 从 NPS 导入到 Hadoop 的 NZBAK 文件。这些文件将使用与导出 Hive 表相同的过程导出到 Db2 Warehouse

从 Hadoop 或 Db2 Warehouse 容器运行导入和导出操作。根据您计划从中运行操作的系统,使用不同的配置和执行步骤。这些不同方案在配置和运行数据移动中描述。

有关数据移动功能部件的说明

  1. 数据移动功能部件直接在 Hadoop 数据节点与 Db2 Warehouse 之间传输数据。因此,在所有数据节点与 Db2 Warehouse 之间必须存在有效的网络连接。
  2. 数据移动功能部件在 BigInsights、Hortonworks 和 Cloudera 交付的系统上受支持。
  3. 数据类型映射是静态的。它们在用于数据移动的数据类型映射中描述。
  4. 不支持以并行方式执行使用同一目标表的数据移动。
  5. Db2 Warehouse 用户必须具有以下特权才能使用 Fast Data Movement 导入数据:
    USAGE on sequence "SYSTOOLS"."DB2LOOK_TOKEN"
    SELECT on view "SYSTOOLS"."DB2LOOK_INFO_V"
    SELECT,INSERT,DELETE on table "SYSTOOLS"."DB2LOOK_INFO"
    请运行以下命令以授予所需的特权:
    GRANT USAGE ON SEQUENCE "SYSTOOLS"."DB2LOOK_TOKEN" TO USER "<DB_USER>";
    GRANT SELECT ON TABLE "SYSTOOLS"."DB2LOOK_INFO_V" TO USER "<DB_USER>";
    GRANT DELETE,INSERT,SELECT ON TABLE "SYSTOOLS"."DB2LOOK_INFO" TO USER "<DB_USER>";