Microsoft Azure Data Lake Storage 连接
要在 Microsoft Azure Data Lake Storage中访问数据,请为其创建连接资产。
Azure Data Lake Storage (ADLS) 是在 Microsoft 公共云 Azure中托管的可扩展数据存储和分析服务。 Microsoft Azure Data Lake Storage 连接支持访问 Gen1 和 Gen2 Azure Data Lake Storage 存储库。
创建与 Microsoft Azure Data Lake Storage 的连接
要创建连接资产,您需要根据部署情况获得这些连接详细信息:
公共连接
- WebHDFS URL : ,用于访问。 WebHDFS URL HDFS
要连接到第 2 代 ADLS ,请使用以下格式:https://<account-name>.dfs.core.windows.net/<file-system>
其中<account-name>是创建 ADLS 实例时使用的名称。
对于<file-system>,请使用您创建的容器的名称。 有关详细信息,请参阅 Microsoft Data Lake Storage Gen2 文档。
选择服务器代理 ,通过代理服务器访问 Microsoft Azure Data Lake Storage 数据源。 根据不同的设置,代理服务器可以提供负载平衡、更高的安全性和隐私性。 代理服务器设置独立于认证凭证以及个人或共享凭证选择。
- 代理主机 :代理 URL。 例如,
https://proxy.example.com。 - 代理端口号: 用于连接到代理服务器的端口号。 例如,
8080或8443。 - 代理协议 :代理服务器协议:代理服务器协议。 您可以选择两种协议中的一种: HTTP 或 HTTPS.
- 加密代理通信 :如果选择 HTTP 则可以启用此选项。 如果 tartget 服务器支持 HTTP 代理通信,且代理被配置为加密隧道,则该选项可启用分层隧道。 HTTPS 且代理已配置为加密隧道,则该选项可启用代理通信的分层隧道。
- 无代理 :以逗号分隔的主机列表,用于绕过连接中配置的代理。
StreamSets
- WebHDFS URL : ,用于访问。 WebHDFS URL HDFS
要连接到第 2 代 ADLS ,请使用以下格式:https://<account-name>.dfs.core.windows.net/<file-system>
其中<account-name>是创建 ADLS 实例时使用的名称。
对于<file-system>,请使用您创建的容器的名称。 有关详细信息,请参阅 Microsoft Data Lake Storage Gen2 文档。
选择安全连接 ,使用 Azure Blob File System Secure (ABFSS) 协议启用安全连接。
凭证
您可以根据部署情况使用特定的身份验证方法:
Microsoft Entra ID 是一项基于云的身份和访问管理服务。 要获取 Entra ID 身份验证方法的连接值,请登录 Microsoft Azure 门户,然后转到您的存储帐户。 有关 Microsoft Entra ID 的信息,请参阅 What is Microsoft Entra ID?。
公共连接
选择验证方法:
客户机凭证
- 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请访问 Microsoft Entra ID > Properties。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID。
- 客户 ID:授权访问 Microsoft Azure Data Lake Storage 的客户 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
- 客户端密钥:与客户端 ID 关联的身份验证密钥,用于授权访问 Microsoft Azure Data Lake Storage。 要查找应用程序的客户机密钥,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 转到 Certificates & secrets > Client secrets。 单击复制以复制现有客户端密钥,或单击新客户端密钥以创建新的客户端密钥并复制它。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
用户名和密码
- 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请访问 Microsoft Entra ID > Properties。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID。
- 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
- Username 和 Password:Microsoft Azure Data Lake Storage 帐户的用户名和密码。 您需要有权限才能在没有多因素身份验证的情况下访问文件。
证书
- SSL 证书 :当主机证书不是由已知证书颁发机构签署时,应信任主机的 SSL 证书。
StreamSets
选择验证方法:
Azure 托管身份
- 客户端 ID:授权访问 Microsoft Azure Data Lake Storage 的客户端 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
客户机凭证
- 租户 ID:Microsoft Entra 租户 ID。 要查找租户 ID,请访问 Microsoft Entra ID > Properties。 向下滚动到 租户 ID 字段。 有关详细信息,请参阅 如何查找您的 Microsoft Entra 租户 ID。
- 客户 ID:授权访问 Microsoft Azure Data Lake Storage 的客户 ID。 要查找应用程序的客户端 ID,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 单击 " 复制 ",复制应用程序的客户端 ID。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
- 客户端密钥:与客户端 ID 关联的身份验证密钥,用于授权访问 Microsoft Azure Data Lake Storage。 要查找应用程序的客户机密钥,请选择 Microsoft Entra ID。 从 应用程序注册中,选择您的应用程序。 转到 Certificates & secrets > Client secrets。 单击复制以复制现有客户端密钥,或单击新客户端密钥以创建新的客户端密钥并复制它。 有关详细信息,请参阅 注册 Microsoft Entra 应用程序并创建服务委托。
Azure Data Lake Storage 认证设置
要设置认证,您需要租户标识、客户机(或应用程序)标识和客户机密钥。
- Gen1:
- 创建 Azure Active Directory (Azure AD) Web 应用程序,获取应用程序标识,认证密钥和租户标识。
- 然后,必须将 Azure AD 应用程序分配给 Azure Data Lake Storage 帐户文件或文件夹。 按照使用 Azure Active Directory 通过 Azure Data Lake Storage 进行服务到服务身份验证中的步骤 1、2 和 3 进行操作。
- Gen2:
- 请按照从 Azure AD 获取令牌以授权客户端应用程序请求中的说明进行操作。 这些步骤将创建新身份。 创建身份后,设置许可权以授予应用程序对 ADLS 的访问权。 Microsoft Azure Data Lake Storage 连接将使用应用程序的相关客户端 ID、客户端密文和租户 ID。
- 使用 Storage Explorer 授予 Azure 应用程序对存储容器的访问权。 有关说明,请参阅使用 Azure Storage Explorer 管理 Azure Data Lake Storage Gen2 中的目录和文件。
支持的文件类型
Microsoft Azure Data Lake Storage 连接支持以下文件类型 :Avro , CSV ,定界文本, Excel , JSON , ORC , Parquet , SAS , SAV , SHP 和 XML。
表格式
除 Flat 文件外, Microsoft Azure Data Lake Storage 连接还支持以下数据湖表格格式: Delta Lake 和 Iceberg。