Watson Studio 和补充服务的已知问题和限制

以下已知问题和限制适用于 Watson Studio。

已知问题

限制

Anaconda Repository for IBM Cloud Pak for Data 的已知问题

Anaconda Repository for IBM Cloud Pak for Data 的通道名称不支持双字节字符

在 Anaconda Team Edition 中创建通道时,不能使用双字节字符或大多数特殊字符。 只能使用下列字符:a-z 0-9 - _

Hadoop 集成的已知问题

Cloudera 数据平台 (CDP) 对 DSXHI REST 状态检查可能会返回 错误 7.3.1 500

适用于 5.1.3

在 CDP 7.3.1 上运行 ./status.py 命令时,DSXHI REST 状态检查可能会返回 500 错误。 该错误不会影响 Execution Engine for Apache Hadoop 的功能。

Python 和R环境将在 项目中失败 Git

适用于 : 5.1.1

当在 Git 项目中访问 Python 或R环境时,您会在应用程序日志中看到以下错误:

Error: Unable to initialize main class com.ibm.dsxhiYarnApp.ApplicationMaster
Caused by: java.lang.OutOfMemoryError: Java heap space

从 Notebook 中的 hi_core_utils 执行其中一个方法时出错

适用于 5.5.1.0及更高版本

在 Notebook 中使用推送的 imageId 创建 Livy Spark 会话后,在执行 hi_core_utils中的某个方法时可能会看到以下错误:

An error was encountered:
<class 'RuntimeError'> —- OpenSSL 3.0's legacy provider failed to load. This is a fatal error by default, but cryptography supports running without legacy algorithms by setting the environment variable CRYPTOGRAPHY_OPENSSL_NO_LEGACY. If you did not expect this error, you have likely made a mistake with your OpenSSL configuration.

变通方法: 在同一单元中插入以下代码以在 Notebook 中设置环境变量 CRYPTOGRAPHY_OPENSSL_NO_LEGACY :

import os
os.environ["CRYPTOGRAPHY_OPENSSL_NO_LEGACY"] = "1"

支持 Spark 版本

适用于 5.5.1.0及更高版本

  • Apache Spark 3.1 for Power 不受支持。

  • 要在Cloud Pak for Data 5.1.0 上运行 Jupyter Enterprise Gateway (JEG),必须在内核启动后的第一个单元运行以下命令:

    from pyspark.sql import SparkSession
    from pyspark import SparkContext
    spark = SparkSession.builder.getOrCreate()
    sc = SparkContext.getOrCreate()
    

笔记本的已知问题

未能在 Jupyter Notebook 编辑器中将 Notebook 导出到 HTML

适用于 5.5.1.0及更高版本

使用在 Watson Studio以外的工具中创建的 Jupyter Notebook 时,您可能无法将 Notebook 导出为 HTML。 当单元输出公开时,会发生此问题。

变通方法

  1. 在 Jupyter Notebook UI 中,转至 编辑 ,然后单击 编辑 Notebook 元数据

  2. 除去以下元数据:

    "widgets": {
       "state": {},
       "version": "1.1.2"
    }
    
  3. 单击编辑

  4. 保存该 Notebook。

尝试访问 Oracle 数据库中的数据时出错

如果您尝试访问 Oracle 数据库中的数据,如果模式或表名包含特殊字符(如句点 . 字符),您可能会收到 DatabaseError 的提示。 原因是 Oracle 在模式、表和列之间使用句点作为分隔符。 如果出现此问题,请考虑删除数据库表名或模式中的任何句点,或调整代码,用双引号包围表名或模式标识符,如 my_schema."table.with.dots"

Py4JJavaError 在默认 Spark 环境下使用 文件连接器时 Hadoop S3

在默认 Spark 环境下使用 Hadoop S3 文件连接器时,可能会遇到以下异常情况:

Py4JJavaError: An error occurred while calling o114.parquet.
: java.lang.NoSuchFieldError: software/amazon/awssdk/http/SdkHttpConfigurationOption.PROTOCOL_NEGOTIATION

要解决这个问题,请使用 Flight Spark 数据源 (com.ibm.connect.spark.flight)。为此,请在笔记本中生成代码片段(请参阅通过生成的代码片段加载数据 )或调整此示例代码以满足您的需求:

import itc_utils.flight_service as itcfs

from pyspark.sql import SparkSession
sparkSession = SparkSession(spark).builder.getOrCreate()

nb_data_request = {
    'connection_name': """<ConnectionName>""",
    'interaction_properties': {
        'file_name': '<FileName>',
        'bucket': '<Bucket Name>',
        'infer_schema': 'true',
        'infer_as_varchar': 'false'
    }
}
flight_request = itcfs.get_data_request(nb_data_request=nb_data_request)

sp_df_0 = sparkSession.read.format("com.ibm.connect.spark.flight") \
    .option("flight.location", itcfs.get_flight_service_url()) \
    .option("flight.command", itcfs.get_flight_cmd(data_request=flight_request)) \
    .option("flight.authToken", itcfs.get_bearer_token()) \
    .load()
sp_df_0.show(10)

项目的已知问题

从 GIT 存储库中删除某些资产不会清除所有关联文件。

适用于5.5.1.0及更高版本

例如,删除 AutoAI 试验可能会将管道的文件保留在存储库中。 如果识别残差文件,那么可以从 Git 存储库中手动删除这些残差文件。

更新 Reporting on asset metadata 的访问权限时出现未知错误

适用于 : 5.1.0

固定于 : 5.1.1

在项目设置中,授予或取消 Reporting on asset metadata 的访问权限时会出现以下错误信息:

An unknown error occurred. Something went wrong performing the requested action.

变通方法:

忽略错误信息,因为其显示不正确。 访问已成功更新。

可视化的已知问题

列类型为 DATE 的连接数据资产的列级配置文件信息不显示行

适用于5.5.1.0及更高版本

在类型为 DATE 列的已连接数据资产的列级配置文件信息中,单击选项卡 数据类别格式类型中的 显示行时,不会显示任何行。

资产的限制

文件上载的安全性

适用于5.5.1.0及更高版本

不会验证或扫描通过 Watson Studio 或 Watson Machine Learning UI 上载的文件以查找潜在的恶意内容。 强烈建议您在上传之前运行安全软件,如对所有文件的防病毒应用程序,以确保内容的安全性。

无法将 CSV 文件装入到大于 20 GB 的项目

无法将 CSV 文件装入到 Cloud Pak for Data 中大于 20 GB 的项目。

资产预览限制

您无法查看这些资产类型的预览:

  • 与使用个人凭证的连接相关联的文件夹资产。 系统会提示您输入个人凭证,以开始该连接资产的预览或概要分析。
  • 项目中图像文件的已连接数据资产。
  • 文本文件和 JSON 文件的使用共享凭证的已连接资产不正确地显示在网格中。
  • 项目中 PDF 文件的已连接数据资产。

Hadoop 集成的限制

Cloud Pak for Data 集群和 Hadoop 集群必须位于同一网络中

要使 Cloud Pak for Data 与 Hadoop 集群之间的连接正常工作,它们必须位于同一网络设置中。

重新引导集群时, Livy 服务不会重新启动

如果 HDFS Namenode 未处于活动状态,那么在系统重新引导后, Livy 服务不会自动重新启动。

变通方法: 重新启动 Livy 服务。

作业的限制

在重复时调度的作业也在以下时间运行: 00 分钟

在调度的时间重复运行时调度的作业,并在下一分钟 (: 00) 开始时再次运行。

如果使用特殊字符,那么作业运行具有错误的环境变量值

如果变量值包含特殊字符,那么未将作业配置中定义的环境变量正确传递给作业运行。 这可能导致作业运行失败,或者作业运行的行为不正确。 要解决此问题,请参阅 如果使用特殊字符,那么作业运行具有错误的环境变量值

Cloud Pak for Data版本升级后删除环境时,任务运行失败

如果任务使用的环境不再安全,且在Cloud Pak for Data版本升级后已被删除,则部署空间或项目中的任务运行会失败。

解决方法:要防止任务运行因升级而失败:

  • 检查哪些环境将在升级前移除。
  • 编辑任务,使其指向不被移除的替代环境。
  • 如果作业无法在任何替代环境中运行,请根据现有环境创建自定义环境,并将作业指向该自定义环境。 有关详情,请参阅自定义环境

在调度作业时排除某些天导致意外结果

如果您选择调度作业,使其在一周中给定日子以外的每一天运行,那么您可能会注意到调度的作业没有按预期运行。 这是因为,创建该调度的用户在一个时区,运行该作业所在的主节点在另一个时区。

只有在调度作业运行时间时排除掉一周中某几天的情况下,才会出现此问题。

项目的限制

无法在一个项目中同时运行多个RStudio会话

适用于5.5.1.0及更高版本

在一个项目中,任何时候都只能有一个RStudio会话处于活动状态。 如果要同时打开多个会话,那么必须设置单独的项目。

无法在删除所有资产后同步不推荐的 Git 项目

如果从不推荐的 Git 项目中删除所有资产,那么该项目无法再与 Git 存储库同步。

变通方法: 在不推荐的 Git 项目中至少保留一个资产。

在基于 Git 的项目中,无法预览具有从目录导入的受管附件的资产

在基于 Git 的项目中,当您尝试预览具有从目录导入的受管附件的资产时,会收到错误。 不支持在基于 Git 的项目中预览这些资产。

请勿在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库

不应在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库,因为这可能会导致错误。 例如,在 Bitbucket 中,您将看到一个错误,指示存储库包含来自不推荐的 Git 项目的内容,尽管所选分支包含缺省 Git 项目内容。

在具有缺省 Git 集成的项目中,可以使用新的干净 Git 存储库或链接到具有缺省 Git 集成的项目中使用的存储库。

在 Watson Studio 中导入大小超过 1 GB 的项目失败

如果在 Watson Studio 中创建空项目,然后尝试导入大小超过 1 GB 的项目,那么该操作可能会失败,具体取决于 Cloud Pak for Data 集群的大小和计算能力。

在 Watson Studio 中导出大型项目失败,发生超时

如果您正在尝试导出具有大量资产 (例如, 7000 以上) 的项目,那么导出过程可能会超时并失败。 在这种情况下,虽然可以在子集中导出资产,但建议的解决方案是使用 CPDCTL 命令行界面进行导出。

无法导出 Tuning Studio 实验或提示会话

如果在项目中运行 Tuning Studio 实验,则无法导出实验或提示会话。 导出项目时,它们不会显示在候选列表中。

将项目导出到桌面时无法包含 Cognos 仪表板

当前,将项目导出到桌面时,无法选择 Cognos 仪表板。

变通方法

虽然无法将仪表板添加到项目导出,但可以将仪表板从一个项目移至另一个项目。

要将仪表板移至另一个项目,请执行以下操作:

  1. 从原始项目中下载仪表盘 JSON 文件。 将仪表板下载到桌面
  2. 单击 “导出到桌面”图标将原始项目导出到桌面 替代=“” 从项目工具栏中。
  3. 通过导入具有所需数据源的项目 ZIP 来创建新项目。
  4. 单击 " 来自文件 "选项卡并添加从原始项目下载的 JSON 文件,创建新的仪表板。 根据文件创建仪表板
  5. 此时将弹出一个对话框,询问您是否要重新链接每个数据源。 单击 "重新链接" 按钮,然后在新项目中选择与数据源对应的资产。

无法使用 Git 存储库中需要 JDBC 驱动程序并且是在另一个集群上的项目中创建的连接

如果您的项目与另一个集群中的项目中使用的 Git 存储库相关联,并且包含需要 JDBC 驱动程序的连接,那么这些连接将无法在您的项目中工作。 如果上载所需的 JDBC JAR 文件,那么您将看到一个错误,指示无法初始化 JDBC 驱动程序。

此错误是由作为预签名 URI 添加到连接的 JDBC JAR 文件引起的。 此 URI 在另一个集群中的项目中无效。 即使 JAR 文件存在于集群中,也无法再找到该文件,并且连接将不起作用。

变通方法

要使用其中任何连接,需要在项目中创建新连接。 以下连接需要 JDBC 驱动程序,并且受此错误情况影响:

  • Db2 for i
  • Db2 for z/OS
  • 通用 JDBC
  • Hive 通过 Execution Engine for Apache Hadoop
  • Impala 通过 Execution Engine for Apache Hadoop
  • SAP HANA
  • Exasol

最多可显示 2000 个项目

适用于5.5.1.0及更高版本

出于绩效方面的考虑, All active projects 清单中显示的项目数量上限为 2000 个。

笔记本的限制

无法在 Spark 环境中的 JupyterLab 中打开终端窗口

适用于5.5.1.0及更高版本

在 Spark 环境中使用 JupyterLab 时,将禁用所有终端选项。

可视化的限制

无法在从4.8版或更早版本导入的数据资产的可视化中使用屏蔽数据

适用于5.5.1.0及更高版本

如果将带有4.8版或更早版本屏蔽数据的数据资产导入到项目中,则无法使用这些资产创建可视化。

如果尝试在数据资产的 "可视化 "选项卡中从已屏蔽数据的导入资产生成图表,会收到以下错误信息: Bad Request: Failed to retrieve data from server. Masked data is not supported.

解决方法:要在可视化中正确屏蔽导入数据资产的数据,必须将Data Virtualization配置为保护解决方案。 有关详细信息,请参阅数据源定义保护解决方案主题中的Data Virtualization作为保护解决方案部分。

母主题: 服务问题