规划管道

在规划如何连接资源、添加资产以及管理管道中的资源时,请参考以下要点。

访问管道中的组件

当您使用管道来自动化工作流时,必须能够访问管道中的所有元素。 请确保在创建和运行管道时,已获得对管道中使用的一切资产、项目和空间的适当访问权限。 负责管理该管道的协作者也必须能够访问管道组件。

管理管道凭证

要运行一个作业,管道必须能够访问 Cloud Pak for Data 的凭据。 通常,管道会使用您的个人 API 密钥,以便在不造成中断的情况下在管道中执行长时间运行的操作。 如果创建作业时凭证不可用,系统会提示您提供 API 密钥或创建新的 API 密钥。

要从 yourIBM Cloud Pak for Data 用户账户生成 API 密钥:

  1. 进入您的用户个人资料。
  2. 点击 “API密钥” > “生成新令牌 ”。
  3. 为用户账户创建或选择一个 API 密钥。

将资源添加到管道中

创建管道时,您需要向管道中添加资产(例如数据、笔记本、部署作业或 Data Refinery 作业),以协调一个顺序流程。 强烈建议将资产添加到管道中的方法是:在包含该管道的项目中收集资产,然后使用资产浏览器为管道选择项目资产。

注意: 虽然您可以引入其他项目的资源,但此举可能会给您的制作流程带来复杂性及潜在问题,且未来版本中可能会禁止此操作。 建议的做法是使用当前项目中的资源。

与 DataStage 的链接

对于职责分离(SOD)集群,建议在 DataStage 所在的位置创建一个存储卷。 否则,Bash 脚本将无法在管道中运行。 更多详情请参阅 “存储与数据访问 ”。

通过设置内存限制来管理资源

请将您的 Cloud Pak for Data 实例的内存大小限制设置为 Redis ,以避免内存消耗过量。 建议的内存大小应为最大并行运行数与用户变量大小限制的倍数。 例如,如果您支持 1000 个并行管道,且用户变量大小限制为 256Ki ,建议将内存限制设置为 256Mi。

更新默认运行时类型

您可以通过修改 ConfigMap 文件来更新节点的默认运行时类型。

打开 ConfigMap watson-pipelines-config。 并将该值更新 default_runtime_type 为:

  • shared 默认情况下,节点使用共享运行时。
  • standalone 默认情况下,节点将使用独立运行时。

示例如下:

oc -n cpd-instance get cm watson-pipelines-config  -o yaml
apiVersion: v1
data:
  default_runtime_type: shared
  shutdown: "false"
  user_variables_size_limit: 64Ki
kind: ConfigMap

ConfigMap 的更新仅影响新节点。 现有节点不受影响。