重要说明:

IBM Cloud Pak® for Data 4.7 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告

在 IBM Cloud Pak for Data 4.7 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。

Watson Pipelines 的已知问题和限制

以下已知问题和限制适用于 Watson Pipelines。

已知问题

限制

故障诊断

失败的作业运行可能需要增加集群资源

如果手动或调度的管道作业无法运行或未完成,请在日志中查找以下错误之一:

  • Failure Internal error occurred: resource quota evaluation timed out InternalError
  • the server was unable to return a response in the time allotted, but may still be processing the request
  • Unable to load original variables, error: 1 error occurred: * context deadline exceeded
  • Internal error occurred: resource quota evaluation timed out
  • Internal error occurred: admission plugin "OwnerReferencesPermissionEnforcement" failed to complete validation
  • Resuming pipeline execution after activity failure
  • cannot retrieve Run resources

其中任何问题都可能指示您需要增加集群上的资源。 请参阅 Red Hat OpenShift 文档,以获取有关如何管理和扩展集群的指导信息。 请参阅在生产环境中扩展 OpenShift Container Platform 集群和调整性能

嵌套循环超过 2 个级别可能导致管道错误

当您运行管道时,超过 2 个级别的嵌套循环可能会导致错误,例如,检索运行时发生错误。 查看日志可能会显示错误,例如 text in text not resolved: neither pipeline_input nor node_output。 如果您正在使用 Bash 脚本的输出进行循环,那么日志可能会列出类似如下的错误: PipelineLoop can't be run; it has an invalid spec: non-existent variable in $(params.run-bash-script-standard-output)。 要解决此问题,请勿嵌套超过 2 个级别的循环。

在某些条件下,删除 AutoAI 试验失败

使用删除 AutoAI 试验节点以删除从项目 UI 创建的 AutoAI 试验将不会删除 AutoAI 资产。 但是,流程的其余部分可成功完成。

管道状态显示不正确

适用于: 4.7.0 和更高版本
固定于: 4.7.3

安装或升级到 4.7.0 或 4.7.1后,管道服务状态未正确显示。 显示的状态不反映实际服务状态。

可变大小限制

用户变量和参数值 (例如, RunJob 阶段参数) 不能超过 2K(包括名称)。

要解决此问题,请参阅 配置用户变量的大小限制

将截断大于 4MB 的日志

适用于: 4.7.0 和更高版本

将截断大于约 4MB 的 Watson Pipelines 日志,以避免破坏合并日志视图。

清除高速缓存不可用

适用于: 4.7.2
固定于: 4.7.3

当您重新运行引用特定版本的管道作业,该作业没有流参数并且使用条件高速缓存时,可能不会显示用于清除高速缓存的选项。

未检测外部服务

适用于: 4.7.0 和更高版本

由于 pod 的内存中组件高速缓存未更新,因此管道 pod 可能间歇性无法检测 IBM Watson Pipelines 之后安装的外部服务。 这将导致使用外部组件的管道作业无法成功运行。 重新启动管道服务以使用可用组件列表更新管道的所有副本的高速缓存。

升级后未复原高速缓存

适用于: 4.7.1 和更高版本

将 Cloud Pak for Data 从 4.7.0 和更高版本升级到更高版本将清除高速缓存。 升级后不会复原高速缓存的数据。

更改 Bash 脚本输出的行为可能会破坏现有作业

适用于: 4.7.0
修订于: 4.7.1

在 4.7.0中,运行 Bash 脚本的输出未正确除去尾部 \n 字符。 例如,当 echo 处于开启状态时,期望的是尾部 \n ,但正在将其移除。 在 4.7.1中,已更正排除,因此将按预期复原尾部 \n 字符。

行为更改可能会导致中断现有作业,并显示以下错误消息: An error occurred while creating the asset. 要更正问题,请打开 运行 Bash 脚本 节点,然后使用 echo -n 命令显式禁止尾部字符以解决不匹配问题。

编辑参数集值时标签不正确

适用于: 4.7.3 及更高版本

当您编辑参数集的值时,标识 值集 来自何处的标签不正确地显示 $flow_param 而不是正确的标签,例如 Value set from pipeline parameter.

单个管道限制

这些限制适用于单个管道,而不考虑配置。

  • 任何单个管道不能包含超过 250 个标准节点
  • 任何具有循环的管道在所有迭代中不能包含超过 600 个节点 (例如, 10 个管道-10 个迭代-6 个节点)

按配置大小的限制

小型配置

SALL 配置支持 600 个标准节点 (跨所有活动管道) 或 300 个在循环中运行的节点。 例如:

  • 30 个标准管道,其中 20 个节点并行运行 = 600 个标准节点
  • 3 管道包含循环,每个循环中有 10 个迭代和 10 个节点 = 循环中的 300 个节点

中型配置

MEDIUM 配置支持 1200 个标准节点 (跨所有活动管道) 或 600 个在循环中运行的节点。 例如:

  • 30 个标准管道, 40 个节点并行运行 = 1200 个标准节点
  • 6 管道包含循环,每个循环中有 10 个迭代和 10 个节点 = 循环中的 300 个节点

大型配置

LARGE 配置支持 4800 个标准节点 (跨所有活动管道) 或 2400 个在循环中运行的节点。 例如:

  • 80 个标准管道,其中 60 个节点并行运行 = 4800 个标准节点
  • 包含循环的 24 个管道,每个循环中有 10 个迭代和 10 个节点 = 循环中的 2400 个节点

从较早发行版导入的 Bash 脚本不支持大输出

适用于: 4.7.0 和更高版本

如果从 4.7.0之前的发行版导入包含 Bash 脚本的管道,那么该脚本将生成适用于内联文本的限制的标准输出。 如果您希望输出被视为大输出,那么必须重新配置管道和脚本,并具有更高的限制。

批量输入仅限于数据资产

当前,批量部署作业的输入仅限于数据资产。 这意味着不支持某些类型的部署 (需要 JSON 输入或多个文件作为输入)。 例如,不支持需要多个文件作为输入的 SPSS 模型和 Decision Optimization 解决方案。

没有作业的参数覆盖

适用于: 4.7.0 和更高版本

管道作业将使用先前运行中的参数,而不是覆盖的值。 要解决此问题,在使用现有参数编辑或重新运行作业时,必须重新输入参数值。

高速缓存显示为已启用但未启用

适用于: 4.7.0 和更高版本

如果 复制资产 Pipeline 节点的 复制方式 设置为 Overwrite,那么高速缓存将显示为已启用但仍处于禁用状态。

环境变量大小限制

环境变量不能超过 128 KB。

无法导入管道

适用于: 4.7.0 和更高版本

无法导入从 pre-4.7.0 作用域导出的管道。 只能将从 4.7.0 和更高版本生成的导出导入到现有项目中。 要获取相应的管道,必须重新构建该管道。

将 SPSS 节点添加到现有管道可能会中断批处理作业

适用于: 4.7.0 和更高版本

如果在 Cloud Pak for Data 版本 (低于 4.7) 中为管道配置了批处理部署作业,然后将 SPSS 流添加到管道,那么在运行管道时可能会迂到运行时错误,指示缺少连接字段的值。 SPSS 的 Watson Machine Learning 运行时也要求将 connection 字段作为 data_asset 的一部分传递。 connection 字段是必填字段。 对于未使用连接的 data_assets ,可以将空 json ({ }) 用作值。 完整的 input_data_reference 如下所示:

[
  {
      "connection": {},
      "location": {
          "href": "/v2/assets/a066a855-dea4-40e7-ad93-e54c87de2bd8?space_id=fbdbb348-b88b-4374-8531-0de331bf587d"
      },
      "type": "data_asset"
  }
]

升级后未复原高速缓存结果

适用于: 4.7.0 和更高版本

不会复原来自 4.6.4 升级的高速缓存结果。 在升级后重新运行作业时,无法从高速缓存恢复任何内容。

运行失败后清除高速缓存

适用于: 4.7.0 和更高版本

在启用高速缓存重置选项 (清除管道高速缓存数据) 的情况下,管道作业可能会失败。 如果修正作业并在未启用此重置选项的情况下重新运行,那么仍将清除高速缓存结果,并且不会使用这些结果。

资产浏览器不会始终反映资产类型总数的计数

适用于: 4.7.1 和更高版本

从资产浏览器中选择资产 (例如,选择 "复制" 节点的源) 时,您会看到某些资产列出了该资产类型的可用总数,但 Notebook 没有列出。

管道版本控制与试运行不兼容

适用于: 4.7.1 和更高版本

管道试用运行不会在其有效内容中使用分配的版本标识。 无法使用先前版本的试用运行或先前运行中的高速缓存。 请改为创建具有先前版本的作业以使用高速缓存。

电子邮件附件大小限制

适用于: 4.7.2 和更高版本

使用管道中的 发送电子邮件 节点添加附件时,附件总大小不能超过 25 MB。

管道作业运行的持续时间限制

适用于: 4.7.3 及更高版本

如果管道作业运行未在 24 小时内完成,那么将失败,因为管道超时设置为 24 小时。

从 4.7.3开始,如果管道作业运行未在 72 小时内完成,那么将失败,因为管道超时现在设置为 72 小时。

共享运行时中的 Bash 脚本问题

适用于: 4.7.3 及更高版本

当运行时处于活动状态超过 15 分钟时,在共享运行时中运行 Bash 脚本可能会意外失败。 如果要在共享运行时中使用 Bash 脚本,那么可能无法在日志视图中正确显示 Bash 脚本的故障。 不能在 Bash 脚本中直接使用 cpdctl 命令。

存储卷的高速缓存数据不会立即更新

适用于: 4.7.0 和更高版本

删除或添加新存储卷不会在删除或创建后立即影响高速缓存。 高速缓存可能需要最多 10 分钟才能更新。

The character '&' is interpreted literally

适用于: 4.7.0 和更高版本

The '&' in a Bash script is incorrectly interpreted as its string literal value u0026 when it is passed to an external function. This causes previews of outputs to be rendered incorrectly, with u0026 in the place of '&'.

Tekton 扩展 Webhook 错误

适用于: 4.7.3

您可能会看到一条错误消息,其中包含 Instana 的 TLS 握手问题,例如日志中的以下内容:

{"level":"error","ts":----.----,"logger":"fallback","caller":"[go-sensor@v1.44.0](mailto:go-sensor@v1.44.0)/fsm.go:---","msg":"Cannot connect to the agent through localhost or default gateway. Scheduling retry.","stacktrace":"[github.com/instana/go](http://github.com/instana/go)-sensor.(*fsmS).lookupAgentHost.func1.1\n\[tgithub.com/instana/go-sensor@v1.44.0/fsm.go:109](http://tgithub.com/instana/go-sensor@v1.44.0/fsm.go:109)\[ngithub.com/instana/go](http://ngithub.com/instana/go)-sensor.(*fsmS).checkHost\n\[tgithub.com/instana/go-sensor@v1.44.0/fsm.go:---](http://tgithub.com/instana/go-sensor@v1.44.0/fsm.go:---)"}
2023/11/08 13:33:27 http: TLS handshake error from --.---.--.--:-----: remote error: tls: bad certificate

错误消息是由 Instana 启动导致的,即使该消息未安装在集群上也是如此。 此问题实际上不会影响 Tekton 扩展 Webhook ,因此可以安全地忽略此问题。

父主题: 限制和已知问题