Watson Studio 和补充服务的已知问题和限制

以下已知问题和限制适用于 Watson Studio。

已知问题

Anaconda Repository for IBM Cloud Pak for Data
- Anaconda Repository for IBM Cloud Pak for Data 的通道名称不支持双字节字符
Hadoop 集成的已知问题
Notebook 的已知问题
- 未能在 Jupyter Notebook 编辑器中将 Notebook 导出到 HTML
- 尝试访问 Oracle 数据库中的数据时出错
项目的已知问题
可视化的已知问题
- 具有以下类型的列的连接数据资产的列级配置文件信息DATE，不显示行
已知问题 RStudio
- read_tables() 函数调用的问题 RStudio

限制

资产限制
Hadoop 集成的限制
- Cloud Pak for Data 集群和 Hadoop 集群必须位于同一网络中
- 重新引导集群时， Livy 服务不会重新启动
作业限制
项目限制
笔记本的限制
- 在 Spark 环境中创建 JupyterLab 时，无法在终端中打开 Git 存储库
可视化的限制
- 可视化不支持屏蔽数据

Anaconda Repository for IBM Cloud Pak for Data 的已知问题

Anaconda Repository for IBM Cloud Pak for Data 的通道名称不支持双字节字符

在 Anaconda Team Edition 中创建通道时，不能使用双字节字符或大多数特殊字符。只能使用下列字符：a-z 0-9 - _

Hadoop 集成的已知问题

在 Livy 中无法通过连接到 Hadoop 集群。 RStudio

适用于： 5.0.1

当您在 R 4.3 上使用 RStudio 或 Jupyter Notebook 与 Runtime 24.1 时，可能无法通过 Livy 连接到 Hadoop 集群。

解决方法：使用运行时23.1在 R 上4.2连接到Hadoop通过集群Livy。

从 Notebook 中的 hi_core_utils 执行其中一个方法时出错

适用于: 5.0.0

在 Notebook 中使用推送的 imageId 创建 Livy Spark 会话后，在执行 hi_core_utils中的某个方法时可能会看到以下错误:

An error was encountered:
<class 'RuntimeError'> —- OpenSSL 3.0's legacy provider failed to load. This is a fatal error by default, but cryptography supports running without legacy algorithms by setting the environment variable CRYPTOGRAPHY_OPENSSL_NO_LEGACY. If you did not expect this error, you have likely made a mistake with your OpenSSL configuration.

变通方法: 在同一单元中插入以下代码以在 Notebook 中设置环境变量 CRYPTOGRAPHY_OPENSSL_NO_LEGACY :

import os
os.environ["CRYPTOGRAPHY_OPENSSL_NO_LEGACY"] = "1"

支持 Spark 版本

适用于: 5.0.0

Apache Spark 3.1 for Power 不受支持。

要在 Cloud Pak for Data 5.0.0上运行 Jupyter Enterprise Gateway (JEG) ，必须在内核启动后作为第一个单元运行以下命令:

from pyspark.sql import SparkSession
from pyspark import SparkContext
spark = SparkSession.builder.getOrCreate()
sc = SparkContext.getOrCreate()

笔记本的已知问题

未能在 Jupyter Notebook 编辑器中将 Notebook 导出到 HTML

适用于： 5.0.0然后

使用在 Watson Studio以外的工具中创建的 Jupyter Notebook 时，您可能无法将 Notebook 导出为 HTML。当单元输出公开时，会发生此问题。

变通方法

在 Jupyter Notebook UI 中，转至编辑，然后单击 编辑 Notebook 元数据。

除去以下元数据:

"widgets": {
   "state": {},
   "version": "1.1.2"
}

单击编辑。
保存 Notebook。

尝试访问 Oracle 数据库中的数据时出错

如果您尝试访问 Oracle 数据库中的数据，如果模式或表名包含特殊字符（如句点 . 字符），您可能会收到 DatabaseError 的提示。原因是 Oracle 在模式、表和列之间使用句点作为分隔符。如果出现此问题，请考虑删除数据库表名或模式中的任何句点，或调整代码，用双引号包围表名或模式标识符，如 my_schema."table.with.dots"。

项目的已知问题

UI 报告的作业状态不正确

适用于： 5.0.0 和 5.0.1

已在以下内容中修正： 5.0.2

如果您使用 UI 查看已启动作业的状态，则实际作业状态可能与报告的状态不同。发生这种情况的原因是，用于启动作业的后端令牌可能在作业仍在运行时过期。如果发生这种情况，Cloud Pak for Data负责更新运行时状态的服务将无法执行此操作。如果你的工作状态是Running比预期的时间更长，这可能意味着后端令牌已过期。如果您遇到此问题，请尝试验证您的工作是否完成（例如，通过检查任何预期输出）。

创建新运行时时性能缓慢

适用于： 5.0.0 和 5.0.1

已在以下内容中修正： 5.0.2

启动新的运行时间可能会花费更长的时间。其中一个可能的原因是，集群中运行的某些作业的后端运行时资源没有得到正确清理（例如当触发资源清理之前后端令牌已过期）。

变通方法

如果你有oc delete rta权限，您可以通过运行以下命令手动清理分配给空闲作业的资源：

首先，找到并删除有删除操作的资源：

for drta in $(oc get rta -o jsonpath='{range .items[*]}{@.metadata.name}{" "}{@.status.last_action.action}{"\n"}{end}' | grep "delete" | awk '{print $1}'); do oc delete rta $drta; done

然后删除以下作业的运行时资源：Failed或者Succeeded地位：

echo ""; for drta in $(oc get rta -l type=job -o jsonpath='{range .items[*]}{@.metadata.name}{" "}{@.status.artifact.runtimes[*].status}{"\n"}{end}' | grep -i "\(\(succeeded\)\|\(failed\)\)" | awk '{print $1}'); do oc delete rta $drta; done; echo ""

最后，查找并删除没有状态的运行时资源：

for jstat in $(oc get rta -l type=job -o jsonpath='{range .items[*]}{@.metadata.name}{" "}{@.status.artifact.runtimes[*].status}{"\n"}{end}' | awk '{print $1":"$2}'); do stat=$(echo $jstat | cut -d':' -f 2); rtaid=$(echo $jstat | cut -d':' -f 1); if [ -z "$stat" ]; then oc delete rta $rtaid; fi; done

如果此解决方法不能提高性能，则问题是由后端运行时资源中的空闲作业以外的其他原因引起的。

从 GIT 存储库中删除某些资产不会清除所有关联文件。

适用于: 5.0.0

例如，删除 AutoAI 试验可能会将管道的文件保留在存储库中。如果识别残差文件，那么可以从 Git 存储库中手动删除这些残差文件。

项目导出失败

适用于: 5.0.0

如果您不再能够使用导出项目功能，那么必须通过以下步骤重新启动 rabbitmq pod:

要删除 asset-files-api:

oc get po -n ${PROJECT_CPD_INST_OPERANDS} | grep asset-files-api | awk '{print $1}' | xargs oc delete po -n ${PROJECT_CPD_INST_OPERANDS}

要删除 RMQ:

oc delete po -n ${PROJECT_CPD_INST_OPERANDS} rabbitmq-ha-{0,1,2}

可视化的已知问题

列类型为 DATE 的连接数据资产的列级配置文件信息不显示行

适用于: 5.0.0 及更高版本

在类型为 DATE 列的已连接数据资产的列级配置文件信息中，单击选项卡 数据类别、格式或类型中的 显示行时，不会显示任何行。

已知问题 RStudio

read_tables() 函数调用的问题 RStudio

适用于： 5.0.1然后

RStudio read_tables() 函数时会返回错误信息。当 RStudio 在基于 Runtime 23.1 的环境中运行，而环境部署在 IBM Power® ( ppc64le ) 架构上时，就会出现这种情况。该问题是由于版本不匹配引起的reticulate图书馆。该问题会影响在 RStudio IDE 中运行的 R 作业、Shiny 应用程序和 R 脚本。

变通方法

安装正确版本的reticulate图书馆。请使用此代码：

install.packages("https://cran.r-project.org/src/contrib/Archive/reticulate/reticulate_1.34.0.tar.gz", repos=NULL, lib="/cc-home/_global_/R/23.1")

资产的限制

文件上载的安全性

适用于: 5.0.0

不会验证或扫描通过 Watson Studio 或 Watson Machine Learning UI 上载的文件以查找潜在的恶意内容。强烈建议您在上传之前运行安全软件，如对所有文件的防病毒应用程序，以确保内容的安全性。

无法将 CSV 文件装入到大于 20 GB 的项目

无法将 CSV 文件装入到 Cloud Pak for Data 中大于 20 GB 的项目。

资产预览限制

您无法查看这些资产类型的预览:

与使用个人凭证的连接相关联的文件夹资产。系统会提示您输入个人凭证，以开始该连接资产的预览或概要分析。
项目中图像文件的已连接数据资产。
文本文件和 JSON 文件的使用共享凭证的已连接资产不正确地显示在网格中。
项目中 PDF 文件的已连接数据资产。

Hadoop 集成的限制

Cloud Pak for Data 集群和 Hadoop 集群必须位于同一网络中

要使 Cloud Pak for Data 与 Hadoop 集群之间的连接正常工作，它们必须位于同一网络设置中。

重新引导集群时， Livy 服务不会重新启动

如果 HDFS Namenode 未处于活动状态，那么在系统重新引导后， Livy 服务不会自动重新启动。

变通方法: 重新启动 Livy 服务。

作业的限制

在重复时调度的作业也在以下时间运行: 00 分钟

在调度的时间重复运行时调度的作业，并在下一分钟 (: 00) 开始时再次运行。

如果使用特殊字符，那么作业运行具有错误的环境变量值

如果变量值包含特殊字符，那么未将作业配置中定义的环境变量正确传递给作业运行。这可能导致作业运行失败，或者作业运行的行为不正确。要解决此问题，请参阅如果使用特殊字符，那么作业运行具有错误的环境变量值。

删除环境或升级 Cloud Pak for Data 后作业运行失败

如果作业正在使用已删除或在 Cloud Pak for Data 版本升级后不再受支持的环境，那么在部署空间或项目中运行作业将失败。要使作业再次运行，请编辑该作业以指向备用环境。

要防止作业由于升级而运行失败，请基于定制运行时映像创建定制环境。与这些环境关联的作业在升级后仍将运行。有关详细信息，请参阅构建定制映像。

在调度作业时排除某些天导致意外结果

如果您选择调度作业，使其在一周中给定日子以外的每一天运行，那么您可能会注意到调度的作业没有按预期运行。这是因为，创建该调度的用户在一个时区，运行该作业所在的主节点在另一个时区。

只有在调度作业运行时间时排除掉一周中某几天的情况下，才会出现此问题。

项目的限制

无法在一个项目中同时运行多个 RStudio 会话

适用于: 5.0.0 及更高版本

在一个项目中，任何时候都只能有一个 RStudio 会话处于活动状态。如果要同时打开多个会话，那么必须设置单独的项目。

无法打开使用拼合文件和分区拼合文件导入的已连接数据资产

导入选择了 parquet 和 partitioned_parquet 资产的已连接数据资产后，生成的 partitioned_parquet 资产已损坏，无法从项目的 " 资产 " 页面打开。

变通方法: 不支持导入资产 (包括分区资产) 的批量选择。您需要逐个手动选择和导入资产。

无法在删除所有资产后同步不推荐的 Git 项目

如果从不推荐的 Git 项目中删除所有资产，那么该项目无法再与 Git 存储库同步。

变通方法: 在不推荐的 Git 项目中至少保留一个资产。

在基于 Git 的项目中，无法预览具有从目录导入的受管附件的资产

在基于 Git 的项目中，当您尝试预览具有从目录导入的受管附件的资产时，会收到错误。不支持在基于 Git 的项目中预览这些资产。

请勿在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库

不应在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库，因为这可能会导致错误。例如，在 Bitbucket 中，您将看到一个错误，指示存储库包含来自不推荐的 Git 项目的内容，尽管所选分支包含缺省 Git 项目内容。

在具有缺省 Git 集成的项目中，可以使用新的干净 Git 存储库或链接到具有缺省 Git 集成的项目中使用的存储库。

在 Watson Studio 中导入大小超过 1 GB 的项目失败

如果在 Watson Studio 中创建空项目，然后尝试导入大小超过 1 GB 的项目，那么该操作可能会失败，具体取决于 Cloud Pak for Data 集群的大小和计算能力。

在 Watson Studio 中导出大型项目失败，发生超时

如果您正在尝试导出具有大量资产 (例如， 7000 以上) 的项目，那么导出过程可能会超时并失败。在这种情况下，虽然可以在子集中导出资产，但建议的解决方案是使用 CPDCTL 命令行界面进行导出。

基于 Git的项目中不支持调度作业

在基于 Git的项目中，必须手动运行所有作业。不支持作业调度。

将项目导出到桌面时无法包含 Cognos 仪表板

当前，将项目导出到桌面时，无法选择 Cognos 仪表板。

变通方法：

虽然无法将仪表板添加到项目导出，但可以将仪表板从一个项目移至另一个项目。

要将仪表板移至另一个项目，请执行以下操作:

从原始项目中下载仪表盘 JSON 文件。
单击 “导出到桌面”图标将原始项目导出到桌面 从项目工具栏中。
通过导入具有所需数据源的项目 ZIP 来创建新项目。
单击 " 来自文件 "选项卡并添加从原始项目下载的 JSON 文件，创建新的仪表板。
此时将弹出一个对话框，询问您是否要重新链接每个数据源。单击 "重新链接" 按钮，然后在新项目中选择与数据源对应的资产。

无法使用 Git 存储库中需要 JDBC 驱动程序并且是在另一个集群上的项目中创建的连接

如果您的项目与另一个集群中的项目中使用的 Git 存储库相关联，并且包含需要 JDBC 驱动程序的连接，那么这些连接将无法在您的项目中工作。如果上载所需的 JDBC JAR 文件，那么您将看到一个错误，指示无法初始化 JDBC 驱动程序。

此错误是由作为预签名 URI 添加到连接的 JDBC JAR 文件引起的。此 URI 在另一个集群中的项目中无效。即使 JAR 文件存在于集群中，也无法再找到该文件，并且连接将不起作用。

变通方法

要使用其中任何连接，需要在项目中创建新连接。以下连接需要 JDBC 驱动程序，并且受此错误情况影响:

Db2 for i
Db2 for z/OS
通用 JDBC
Hive 通过 Execution Engine for Apache Hadoop
Impala 通过 Execution Engine for Apache Hadoop
SAP HANA
Exasol

最多可显示 2000 个项目

适用于: 5.0.0 及更高版本

出于绩效方面的考虑， All active projects 清单中显示的项目数量上限为 2000 个。

笔记本的限制

无法在 Spark 环境中的 JupyterLab 中打开终端窗口

适用于: 5.0.0 及更高版本

在 Spark 环境中使用 JupyterLab 时，将禁用所有终端选项。

可视化的限制

可视化不支持屏蔽数据

可视化不支持掩蔽数据。如果尝试在项目中数据资产的 可视化 选项卡中生成图表时使用屏蔽数据，那么会收到以下错误消息: Bad Request: Failed to retrieve data from server. Masked data is not supported。

父主题： IBM Cloud Pak for Data