规划访问数据
要使 Cloud Pak for Data 为您工作,您需要访问数据。 规划涉及确认要使用的服务和工具中是否支持数据源,认证需求,安全性等。
位置
您可以使用数据源服务提供的多个数据库之一在 Cloud Pak for Data 上托管数据,也可以创建与外部数据源的连接。
- 在 Cloud Pak for Data 上使用数据源服务
- 使用其中一个数据源服务在集群中部署数据库。 某些数据源服务包含在 Cloud Pak for Data中; 其他服务单独定价。 有关数据源的列表,请参阅 数据源服务。
- 连接到 Cloud Pak for Data 外部的数据
- 访问数据所在的位置。 您可以创建与云或内部部署数据的连接。
规划可连接到的数据源
规划与数据源的连接时,请考虑所有这些区域。
哪些服务支持连接? 并非所有服务都支持相同的数据源。 请参阅 连接器 (Connectors)。
如果未定义要连接到的数据源,请检查该数据源是否具有可用的 JDBC 驱动程序。 然后,您有两个选项:
- Cloud Pak for Data 管理员可以为数据源创建 定制 JDBC 连接器 。 用户可以使用连接器以一致方式连接到数据源的多个实例。 该连接将以管理员为连接器定义的名称显示在 " 新建连接 " 页面上。
- Cloud Pak for Data 管理员 可以上载 JDBC JAR 文件 ,以便用户可以创建与数据源的 通用 JDBC 连接 。
这些服务中的哪些工具支持连接? 此外,请检查可能适用于特定工具的任何数据源连接限制或设置要求。 请参阅位于 项目和目录的连接器的 工具支持的连接器 部分中的列表。
- 连接的限制。 在 项目和目录的连接器中查看特定数据源连接的信息:
- 如果需要将数据结果存储在数据源中,请确认该数据源支持写,导出或目标访问。 某些连接仅用于源数据。
- 受支持的文件格式 (如果适用)。
- 先决条件和限制。
- 受支持的产品版本。
在 Cloud Pak for Data 用户之间共享连接
您可以通过将连接添加到 Platform assets catalog (平台级连接) 或使用 IBM Knowledge Catalog来与其他用户共享连接。 用户可以将相同的连接用于多个服务或实例,也可以跨多个项目使用这些连接。
目录具有这些特征。
| Platform assets catalog | IBM Knowledge Catalog |
|---|---|
| Cloud Pak for Data common core services 由需要它们的服务自动安装。 | 管理员必须安装 IBM Knowledge Catalog 服务 并设置 缺省目录。 |
| 与其他服务共享的平台连接是对原始平台连接的 引用 。 如果您更新平台连接,那么它将自动更新添加该连接的所有位置 (在使用该连接时)。 | 发布到其他目录或项目的连接是副本。 |
| 平台上的所有用户至少自动具有 "查看" 访问权。 管理员可以 管理平台连接上的合作者。 | 管理员必须 将合作者添加到目录。 |
| Platform assets catalog 不受监管。 | 您使用 IBM Knowledge Catalog 创建的目录可以 受管。 |
| 并非所有服务都可以使用 Platform assets catalog中的连接。 有关更多信息,请参阅 在平台级别连接到数据源。 | 有关更多信息,请参阅 将连接资产添加到目录。 |
用于连接到数据源的认证功能
确认是否希望贵组织遵循任何认证功能的一致方法。 每个数据源都有自己的认证需求,例如用户名和密码或密钥和 API 密钥。 缺省情况下,用户手动输入凭证。 Cloud Pak for Data中提供了以下认证功能:
- 个人凭证
如果您希望用户仅访问其具有凭证的数据源,请禁用共享凭证:
用户创建与数据源的连接时,可以选择 个人凭证 或 共享凭证。 缺省情况下,凭证设置为 "共享" ,并且由连接的创建者输入的凭证可供项目中的所有其他合作者在通过连接访问数据时使用。 使用个人凭证,每个用户在创建新连接或使用连接访问数据时输入自己的凭证。 管理员可以 禁用共享凭证。
- 保险库和私钥
如果需要额外的安全性来存储凭证,请设置私钥和保险库以存储凭证:
Cloud Pak for Data 包含可通过 保险库文件和私钥 API访问的内部保险库文件。 用户可以从 Web 客户机将私钥添加到内部保险库,或者使用外部保险库中的私钥,例如 CyberArk 或 HashiCorp。 有关支持使用保险库中的私钥的连接的服务列表,请参阅 管理私钥和保险库。
管理员可以 禁用内部保险库,从而确保只能在 Cloud Pak for Data中使用外部保险库文件和私钥。 管理员还可以设置 要求所有连接对凭证和 SSL 证书使用保险库文件和私钥的策略。
- Kerberos 认证
Kerberos 是一种网络认证协议,它使用强密码术对客户机/服务器应用程序进行认证和授权。 Cloud Pak for Data 在与远程数据源的多个连接中支持 Kerberos 。 请参阅 Cloud Pak for Data 中的 Kerberos 认证。
- Cloud Pak for Data 凭证
如果不希望用户使用或查看数据源凭证,请使用 Cloud Pak for Data 凭证:
某些数据源允许用户使用其 Cloud Pak for Data 凭证进行认证。 用户登录到 Cloud Pak for Data ,并且从不输入数据源连接的凭证。 如果他们更改其 Cloud Pak for Data 密码,那么无需更改每个数据源连接的密码。 仅当在用户创建连接的 Cloud Pak for Data 实例上部署相应服务时, 使用我的平台登录凭证 选项才可用。 有关支持 Cloud Pak for Data (JWT) 凭证的数据源的列表,请参阅 认证和授权。
数据源连接中的 SSL
某些数据源要求您使用 SSL 进行安全通信。 每个数据源都有自己的 SSL 证书。 其他数据源支持 SSL ,但不需要 SSL。 确保您了解需要提供哪些信息才能与数据源进行安全通信。
您还可以设置私钥和保险库文件以存储 SSL 证书。 (SSL 证书可以有自己的私钥,以便您可以将私钥用于凭证和/或 SSL 证书。) Cloud Pak for Data 包含可通过 保险库文件和私钥 API访问的内部保险库文件。 用户可以从 Web 客户机将私钥添加到内部保险库,或者使用外部保险库中的私钥,例如 CyberArk 或 HashiCorp。 有关支持使用保险库中的私钥的连接的设置信息和服务列表,请参阅 管理私钥和保险库。
有关加密和 SSL 的更多信息,请参阅 加密。
常见问题
问: 我的数据存储在多个数据源中。 如何确定 Cloud Pak for Data 是否支持数据源?
A: 检查数据源是否在 连接器中列出。
Q: Cloud Pak for Data不支持我使用的数据源。 我该怎么办?
A.: Cloud Pak for Data 管理员可以为数据源创建 定制 JDBC 连接器 。 该连接将以管理员为连接器定义的名称显示在 " 新建连接 " 页面上。 如果用户需要以一致方式连接到数据源的多个实例,请使用此方法。
Cloud Pak for Data 管理员可以 上载 JDBC JAR 文件 ,以便用户可以创建与数据源的 通用 JDBC 连接 。
并非所有工具和服务都支持定制 JDBC 连接器或通用 JDBC 连接。 确保连接器将在您计划使用的服务和工具中工作。
问: 如果要使用 ETL 变换数据,请在数据建模工具中分析数据。 如何知道哪些工具支持我的数据源?
A: 可以将 DataStage 用于 ETL 任务。 其中一个可用的建模工具是 Watson Studio中的 AutoAI 图形工具。 请参阅 项目和目录的连接器 中的 工具支持的连接器 部分,并确认数据源同时受服务和工具支持。
问: 什么是 "专用" 和 "公用" 连接,它们与使用 "个人" 或 "共享" 凭证的连接有何不同?
A: 如果将数据源连接添加到 IBM Knowledge Catalog,那么可以将该连接标记为公用或专用。 请参阅 控制对目录中资产的访问。
创建与数据源的连接时,可以选择个人凭证或共享凭证。 缺省情况下,将共享连接,并且该连接的创建者输入的凭证可供所有其他用户在使用该连接访问数据时使用。 使用个人凭证,每个用户在创建新连接或使用连接访问数据时输入自己的凭证。 管理员可以 禁用共享凭证。
问: 如何知道我的组织应该在平台级别还是在服务级别创建连接?
A: 首选平台级别连接,因为用户可以将相同连接与多个服务或跨项目使用。 例如,您可以使用与 Data Refinery (包括在 Watson Studio 或 IBM Knowledge Catalog 服务中) 相同的连接来准备数据,然后使用 Cognos Analytics 中的输出来创建仪表板。 有关平台级别连接的信息,请参阅 在平台级别连接到数据源。