实时数据流
构建流式数据流以处理时效性数据,而非等待以间歇性或计划性方式处理数据。
数据工程师使用该 StreamSets 工具构建并运行流式数据流,以访问和连接来自不同类型数据源的数据。 当数据可用时,流式数据流会持续运行,读取、处理和写入数据。 流数据流支持轻量级的飞行转换。
通过 StreamSets 数据工程师可以
- 从多种类型的外部系统访问数据,包括云数据湖、云数据仓库和内部安装的存储系统(如关系数据库)。
- 使用直观的图形设计界面构建流式数据流。
- 检测并纠正意外的数据漂移。
在构建和运行 StreamSets 流程之前,您必须创建一个 StreamSets 环境来为项目配置数据收集器引擎。 随后,您在数据所在的位置运行引擎,该位置可以是本地环境或受保护的云计算平台。 您在 IBM 的 watsonx.data 集成中构建和管理流程,然后在引擎上将流程作为作业运行。
引擎利用流配置来处理数据。 作业运行时,引擎会将状态更新和指标发回 watsonx.data 集成 ,以便您实时监控作业进度。 由于作业是在企业网络中运行,因此数据的所有权和控制权均归您所有。
需求
有以下要求 StreamSets :
- 云平台
- IBM Cloud AWS
- 个必需的服务
- IBM watsonx.data 集成
- 数据格式
- StreamSets 支持以下数据格式
- 关系数据源中的表
- Avro
- 二进制
- 数据报
- 定界
- Excel
- JSON
- 日志
- Parquet
- Protobuf
- 文本
- 整个文件
- XML
- 数据大小
- StreamSets 可处理任何大小的数据。
- 必需的许可权
- 您的角色决定了您可以完成哪些任务:
- 要管理项目的环境 StreamSets ,您必须在该项目中拥有编辑或管理员角色。
- 要创建 StreamSets 要创建流程并为流程运行作业,您必须在项目中具有编辑器或管理员角色。
- 要查看为 StreamSets 流创建的作业运行详细信息,您可以在项目中拥有查看者、 编辑者或管理员角色。
实时数据流任务
完成以下高级任务,以实现实时数据流:
- 管理环境 StreamSets。
创建一个 StreamSets 环境来为您的项目配置数据收集器引擎。 然后在您的企业网络中运行引擎。
- 创建 StreamSets 流动。
创建一个 StreamSets 流程,用于定义数据如何从源系统流向目标系统,以及数据在传输过程中如何被处理。
- 运行工作。
为已完成的流程运行一个作业。 作业在为流程选择的环境中运行。