实时数据流

构建流式数据流以处理时效性数据,而非等待以间歇性或计划性方式处理数据。

数据工程师使用该 StreamSets 工具构建并运行流式数据流,以访问和连接来自不同类型数据源的数据。 当数据可用时,流式数据流会持续运行,读取、处理和写入数据。 流数据流支持轻量级的飞行转换。

通过 StreamSets 数据工程师可以
  • 从多种类型的外部系统访问数据,包括云数据湖、云数据仓库和内部安装的存储系统(如关系数据库)。
  • 使用直观的图形设计界面构建流式数据流。
  • 检测并纠正意外的数据漂移。

在构建和运行 StreamSets 流程之前,您必须创建一个 StreamSets 环境来为项目配置数据收集器引擎。 随后,您在数据所在的位置运行引擎,该位置可以是本地环境或受保护的云计算平台。 您在 IBM 的 watsonx.data 集成中构建和管理流程,然后在引擎上将流程作为作业运行。

引擎利用流配置来处理数据。 作业运行时,引擎会将状态更新和指标发回 watsonx.data 集成 ,以便您实时监控作业进度。 由于作业是在企业网络中运行,因此数据的所有权和控制权均归您所有。

需求

有以下要求 StreamSets :

云平台
IBM Cloud AWS

某些功能可能并非在所有地区的所有云平台上都可用。 请查看区域可用性

个必需的服务
IBM watsonx.data 集成
数据格式
StreamSets 支持以下数据格式
  • 关系数据源中的表
  • Avro
  • 二进制
  • 数据报
  • 定界
  • Excel
  • JSON
  • 日志
  • Parquet
  • Protobuf
  • 文本
  • 整个文件
  • XML
更多信息,请参阅数据格式概述
数据大小
StreamSets 可处理任何大小的数据。
必需的许可权
您的角色决定了您可以完成哪些任务:
  • 要管理项目的环境 StreamSets ,您必须在该项目中拥有编辑管理员角色。
  • 要创建 StreamSets 要创建流程并为流程运行作业,您必须在项目中具有编辑器管理员角色。
  • 要查看为 StreamSets 流创建的作业运行详细信息,您可以在项目中拥有查看者编辑者管理员角色。

实时数据流任务

完成以下高级任务,以实现实时数据流:

  1. 管理环境 StreamSets

    创建一个 StreamSets 环境来为您的项目配置数据收集器引擎。 然后在您的企业网络中运行引擎。

  2. 创建 StreamSets 流动。

    创建一个 StreamSets 流程,用于定义数据如何从源系统流向目标系统,以及数据在传输过程中如何被处理。

  3. 运行工作。

    为已完成的流程运行一个作业。 作业在为流程选择的环境中运行。

了解更多