连接到 Spark SQL

Spark SQL 提供了一个编程接口，用于使用 SQL ，数据帧和数据集来处理结构化数据。 Spark SQL 支持批处理和流式处理以优化性能。

Spark SQL 连接器需要特定信息才能在 Data Virtualization中创建与其的连接。有关更多信息，请参阅 Data Virtualization中的对象存储器中的数据源。

准备工作

您将需要此连接的以下连接详细信息:

主机名
端口号
目标数据库
用户名和密码

过程

要在 Data Virtualization中连接到 Spark SQL ，请执行以下步骤。

在导航菜单上，单击数据 > Data virtualization。此时将显示 " 数据源 " 页面。
单击添加连接 > 新建连接以查看数据源列表。
选择 Spark SQL 数据源连接。
输入连接名称和描述。
输入连接的主机名，端口号，目标数据库和认证凭证 (用户名和密码)。
Spark SQL 有两个用于认证以设置连接的选项:
- 使用用户名和密码凭证进行认证。
- 使用 Kerberos 通过服务主体名称 (SPN) ，用户主体和密钥表进行认证。
  
  注：
  要使用 Kerberos 认证方法，您必须事先配置 Kerberos 认证 Data Virtualization。更多信息，请参阅在 Data Virtualization 中启用 Kerberos 身份验证。
如果连接需要定制 SSL 证书，请在 SSL 证书字段中输入该证书。
单击创建以将连接添加到数据源环境。

结果

现在，您可以将 Spark SQL 数据库用作 Data Virtualization中的数据源。