Microsoft Azure Data Lake Storage 连接

要在 Microsoft Azure Data Lake Storage中访问数据,请为其创建连接资产。

Azure Data Lake Storage (ADLS) 是在 Microsoft 公共云 Azure中托管的可扩展数据存储和分析服务。 Microsoft Azure Data Lake Storage 连接支持访问 Gen1 和 Gen2 Azure Data Lake Storage 存储库。

创建与 Microsoft Azure Data Lake Storage 的连接

要创建连接资产,您需要根据部署情况获得这些连接详细信息:

公共连接

  • WebHDFS URL : ,用于访问。 WebHDFS URL HDFS
    要连接到第 2 代 ADLS ,请使用以下格式: https://<account-name>.dfs.core.windows.net/<file-system>
    其中 <account-name> 是创建 ADLS 实例时使用的名称。
    对于 <file-system>,请使用您创建的容器的名称。 有关详细信息,请参阅 Microsoft Data Lake Storage Gen2 文档

选择服务器代理 ,通过代理服务器访问 Microsoft Azure Data Lake Storage 数据源。 根据不同的设置,代理服务器可以提供负载平衡、更高的安全性和隐私性。 代理服务器设置独立于认证凭证以及个人或共享凭证选择。

  • 代理主机 :代理 URL。 例如,https://proxy.example.com
  • 代理端口号: 用于连接到代理服务器的端口号。 例如, 80808443
  • 代理协议 :代理服务器协议:代理服务器协议。 您可以选择两种协议中的一种: HTTPHTTPS.
  • 加密代理通信 :如果选择 HTTP 则可以启用此选项。 如果 tartget 服务器支持 HTTP 代理通信,且代理被配置为加密隧道,则该选项可启用分层隧道。 HTTPS 且代理已配置为加密隧道,则该选项可启用代理通信的分层隧道。
  • 无代理 :以逗号分隔的主机列表,用于绕过连接中配置的代理。

StreamSets

  • WebHDFS URL : ,用于访问。 WebHDFS URL HDFS
    要连接到第 2 代 ADLS ,请使用以下格式: https://<account-name>.dfs.core.windows.net/<file-system>
    其中 <account-name> 是创建 ADLS 实例时使用的名称。
    对于 <file-system>,请使用您创建的容器的名称。 有关详细信息,请参阅 Microsoft Data Lake Storage Gen2 文档

选择安全连接 ,使用 Azure Blob File System Secure (ABFSS) 协议启用安全连接。

凭证

您可以根据部署情况使用特定的身份验证方法:

注:Entra ID 身份验证的前提条件:

Microsoft Entra ID 是一项基于云的身份和访问管理服务。 要获取 Entra ID 身份验证方法的连接值,请登录 Microsoft Azure 门户,然后转到您的存储帐户。 有关 Microsoft Entra ID 的信息,请参阅 What is Microsoft Entra ID?

公共连接

选择验证方法:

客户机凭证

  • 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请访问 Microsoft Entra ID > Properties。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID
  • 客户 ID:授权访问 Microsoft Azure Data Lake Storage 的客户 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托
  • 客户端密钥:与客户端 ID 关联的身份验证密钥,用于授权访问 Microsoft Azure Data Lake Storage。 要查找应用程序的客户机密钥,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 转到 Certificates & secrets > Client secrets。 单击复制以复制现有客户端密钥,或单击新客户端密钥以创建新的客户端密钥并复制它。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托

用户名和密码

  • 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请访问 Microsoft Entra ID > Properties。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID
  • 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托
  • UsernamePassword:Microsoft Azure Data Lake Storage 帐户的用户名和密码。 您需要有权限才能在没有多因素身份验证的情况下访问文件。

证书

  • SSL 证书 :当主机证书不是由已知证书颁发机构签署时,应信任主机的 SSL 证书。

StreamSets

选择验证方法:

Azure 托管身份

  • 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托

客户机凭证

  • 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请访问 Microsoft Entra ID > Properties。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID
  • 客户 ID:授权访问 Microsoft Azure Data Lake Storage 的客户 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托
  • 客户端密钥:与客户端 ID 关联的身份验证密钥,用于授权访问 Microsoft Azure Data Lake Storage。 要查找应用程序的客户机密钥,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 转到 Certificates & secrets > Client secrets。 单击复制以复制现有客户端密钥,或单击新客户端密钥以创建新的客户端密钥并复制它。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托

共享密钥

  • 账户共享密钥 : Azure 存储账户存储密钥。

对于专用连接 ,要连接到未外部化到互联网的数据库(例如,在防火墙后面),必须设置安全连接

Azure Data Lake Storage 认证设置

要设置认证,您需要租户标识、客户机(或应用程序)标识和客户机密钥。

支持的文件类型

Microsoft Azure Data Lake Storage 连接支持以下文件类型 :Avro , CSV ,定界文本, Excel , JSON , ORC , Parquet , SAS , SAV , SHP 和 XML。

表格式

除 Flat 文件外, Microsoft Azure Data Lake Storage 连接还支持以下数据湖表格格式: Delta Lake 和 Iceberg。

了解更多