连接到 Spark SQL

Spark SQL 提供了一个编程接口,用于使用 SQL ,数据帧和数据集来处理结构化数据。 Spark SQL 支持批处理和流式处理以优化性能。

Spark SQL 连接器需要特定信息才能在 Data Virtualization中创建与其的连接。 有关更多信息,请参阅 Data Virtualization中的对象存储器中的数据源

准备工作

您将需要此连接的以下连接详细信息:
  • 主机名
  • 端口号
  • 目标数据库
  • 用户名和密码

过程

要在 Data Virtualization中连接到 Spark SQL ,请执行以下步骤。

  1. 在导航菜单上,单击 数据 > Data virtualization。 此时将显示 " 数据源 " 页面。

  2. 单击 添加连接 > 新建连接 以查看数据源列表。

  3. 选择 Spark SQL 数据源连接。

  4. 输入连接名称和描述。

  5. 输入连接的主机名,端口号,目标数据库和认证凭证 (用户名和密码)。

  6. Spark SQL 有两个用于认证以设置连接的选项:
    • 使用用户名和密码凭证进行认证。

    • 使用 Kerberos 通过服务主体名称 (SPN) ,用户主体和密钥表进行认证。

      注:

      要使用 Kerberos 认证方法,您必须事先配置 Kerberos 认证 Data Virtualization更多信息,请参阅在 Data Virtualization 中启用 Kerberos 身份验证

  7. 如果连接需要定制 SSL 证书,请在 SSL 证书 字段中输入该证书。

  8. 单击 创建 以将连接添加到数据源环境。

结果

现在,您可以将 Spark SQL 数据库用作 Data Virtualization中的数据源。