各阶段的数据格式

数据格式支持

本附录列出了源级、处理器级和目标级支持的数据格式。

在下表中,复选标记表示每个数据源支持的数据格式。

来源 Avro 二进制 数据报 定界 Excel JSON 日志 Parquet Protobuf SDC 记录 文本 整个文件 XML
Amazon S3  
Amazon SQS 消费者        
Aurora PostgreSQL CDC 客户端 * * 不适用 * * *
Azure Blob Storage  
Azure Data Lake Storage Gen2    
Azure Data Lake Storage Gen2(旧版)      
Azure IoT/Event Hub 消费者                  
CoAP 服务器        
Couchbase * * 不适用 * * *
目录  
Elasticsearch * * 不适用 * * *
文件实时跟踪                    
Google BigQuery * * 不适用 * * *
Google Cloud Storage      
Google 发布/订阅订阅者          
Groovy 脚本编制 * * 不适用 * * *
Hadoop FS Standalone      
HTTP 客户端            
HTTP Server          
IBM Db2 * * 不适用 * * *
JavaScript 脚本编制 * * 不适用 * * *
JDBC 多表消费者 * * 不适用 * * *
JDBC 查询消费者 * * 不适用 * * *
Jira * * 不适用 * * *
JMS 消费者        
Jython 脚本编制 * * 不适用 * * *
Kafka 多主题消费者      
Kinesis 消费者        
MongoDB Atlas * * 不适用 * * *
MongoDB Atlas CDC * * 不适用 * * *
MQTT 订阅者        
MySQL 二进制日志 * * 不适用 * * *
OPC UA 客户端 * * 不适用 * * *
Oracle 批量加载 * * 不适用 * * *
Oracle CDC * * 不适用 * * *
Oracle CDC 客户 * * 不适用 * * *
Oracle 多表消费者 * * 不适用 * * *
Oracle Xstream * * 不适用 * * *
PostgreSQL CDC 客户端 * * 不适用 * * *
Pulsar 消费者      
Pulsar Consumer(旧版)      
RabbitMQ 消费者        
Redis 消费者        
REST 服务          
Salesforce * * 不适用 * * *
Salesforce Bulk API 2.0 * * 不适用 * * *
SAP HANA 查询消费者 * * 不适用 * * *
SFTP/FTP/FTPS 客户端      
Snowflake 批量加载 * * 不适用 * * *
SQL Server CDC 客户端 * * 不适用 * * *
SQL Server 变化跟踪 * * 不适用 * * *
TCP 服务器        
UDP 多线程源 * * 不适用 * * *
UDP 源 * * 不适用 * * *
Web 客户端        
WebSocket 客户端        
WebSocket 服务器        

处理器数

在下表中,复选标记表示每个处理器可读取的数据格式。
处理器 Avro 二进制 数据报 定界 JSON 日志 网络流 Protobuf SDC 记录 系统日志 文本 XML
数据解析器        
HTTP 客户端    
JSON 解析器                      
日志解析器                      
Web 客户端      
XML 解析器                      

在下表中,复选标记表示每个处理器写入的数据格式。

处理器 Avro 二进制 定界 JSON 日志 Protobuf SDC 记录 文本 XML
数据生成器  
JSON 生成器                

目标

在下表中,复选标记表示每个目标支持的数据格式。

目标 Avro 二进制 定界 JSON Protobuf Parquet SDC 记录 文本 整个文件 XML
Amazon S3  
Azure Blob Storage
Azure Data Lake Storage Gen2  
Azure Event Hub 生产者          
Azure IoT Hub 生产者            
Azure Synapse SQL * * 不适用 * * *
Cassandra * * 不适用 * * *
CoAP 客户端            
Couchbase      
数据块 * * 不适用 * * *
Elasticsearch * * 不适用 * * *
Google BigQuery * * 不适用 * * *
Google Bigtable * * 不适用 * * *
Google Cloud Storage    
Google 出版商/副出版商    
HTTP 客户端      
IBM Cloud Object Storage * * 不适用 * * *
IBM Db2 * * 不适用 * * *
IBM watsonx.data * * 不适用 * * *
InfluxDB 2.x * * 不适用 * * *
JDBC 生产者 * * 不适用 * * *
Jira * * 不适用 * * *
JMS 生产者    
Kafka 生产者    
Kinesis Firehose                
Kinesis 生产者      
本地文件系统    
MongoDB Atlas * * 不适用 * * *
MQTT 发布程序            
命名管道            
Oracle * * 不适用 * * *
Pulsar 生产者    
RabbitMQ 生产者      
Redis      
Salesforce * * 不适用 * * *
Salesforce Bulk API 2.0 * * 不适用 * * *
信息来源发送回复                  
SFTP/FTP/FTPS 客户端                  
SingleStore * * 不适用 * * *
Snowflake * * 不适用 * * *
Snowflake 文件上传程序                  
Splunk * * 不适用 * * *
SQL Server 2019 BDC 散装装载机 * * 不适用 * * *
系统日志    
Tableau CRM * * 不适用 * * *
Teradata * * 不适用 * * *
发送至错误 * * 不适用 * * *
废纸篓 * * 不适用 * * *
Web 客户端
WebSocket 客户端