重要说明:

IBM Cloud Pak® for Data 4.7 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告

在 IBM Cloud Pak for Data 4.7 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。

Watson Studio 和补充服务的已知问题和限制

以下已知问题和限制适用于 Watson Studio。

已知问题

限制

已知问题

Anaconda Repository for IBM Cloud Pak for Data 的已知问题

Anaconda Repository for IBM Cloud Pak for Data 的通道名称不支持双字节字符

在 Anaconda Team Edition 中创建通道时,不能使用双字节字符或大多数特殊字符。 只能使用下列字符:a-z 0-9 - _

Data Refinery 的已知问题

数据保护规则并不总是屏蔽 Data Refinery 可视化中的数据

适用于: 4.7.0 和更高版本

如果为资产设置数据保护规则,那么不会始终强制实施数据保护规则。 因此,在某些情况下,可以在 Data Refinery 可视化图表中查看数据。

Data Refinery 中已连接的数据资产不支持个人凭证

适用于: 4.7.0 和更高版本

如果您创建使用个人凭证的已连接数据资产,那么其他用户必须采用以下变通方法,才能在 Data Refinery 中使用该已连接数据资产。

变通方法

  1. 转至项目页面,然后单击该已连接数据资产的链接,以打开预览。
  2. 输入凭证。
  3. 打开 Data Refinery,并使用已认证的已连接数据资产作为源或目标。

Hadoop 集成的已知问题

支持 Spark 版本

适用于: 4.7.0

  • Apache Spark 3.1 for Power 不受支持。

  • 要在 Cloud Pak for Data 4.7.0, 4.7.1或 4.7.2上运行 Jupyter Enterprise Gateway (JEG) ,必须在内核启动后作为第一个单元运行以下命令:

    from pyspark.sql import SparkSession
    from pyspark import SparkContext
    spark = SparkSession.builder.getOrCreate()
    sc = SparkContext.getOrCreate()
    

无法通过 Execution Engine for Hadoop 连接到 Impala via Execution Engine for Hadoop

在 CDP 版本 7.1.8上, JDBC 客户机失败,当您尝试通过 Execution Engine for Hadoop 连接到 Impala via Execution Engine for Hadoop时,您会收到以下 SQL 错误消息:

SQL error: [Cloudera][ImpalaJDBCDriver](500593) Communication link failure. Failed to connect to server. Reason: Socket is closed by peer. ExecuteStatement for query "SHOW DATABASES".

变通方法: 将属性 -idle_client_poll_period_s=0 设置为 0 ,然后重新启动 Impala:

  1. 转至 Cloudera Manager。
  2. 在主页中,单击 状态 选项卡。
  3. 选择 Impala
  4. 单击 配置 选项卡。
  5. 在 Impala 命令行参数 Advanced Configuration Snippet (impalad_cmd_args_safety_阈值) 中,添加属性: -idle_client_poll_period_s=0
  6. 重新启动 Impala。

作业的已知问题

在调度作业时排除某些天导致意外结果

如果您选择调度作业,使其在一周中给定日子以外的每一天运行,那么您可能会注意到调度的作业没有按预期运行。 这是因为,创建该调度的用户在一个时区,运行该作业所在的主节点在另一个时区。

只有在调度作业运行时间时排除掉一周中某几天的情况下,才会出现此问题。

无法删除陷入 正在启动正在运行 状态的 Notebook 作业

如果 Notebook 作业停留在 正在启动正在运行 状态,并且不会停止,那么尽管您尝试取消该作业并停止活动环境运行时,您可以尝试通过使用 API 手动除去作业运行的资产来删除该作业。

  1. 使用 API 调用从用户管理服务检索不记名令牌:

    curl -k -X POST https://PLATFORM_CLUSTER_URL/icp4d-api/v1/authorize -H 'cache-control: no-cache' -H 'content-type: application/json' -d '{"username":"your_username","password":"your_password"}'
    
  2. (可选)获取作业运行资产,并测试该 API 调用。 请相应地替换 ${token}${asset_id}${project_id}

    curl -H 'accept: application/json' -H 'Content-Type: application/json' -H "Authorization: Bearer ${token}" -X GET "<PLATFORM_CLUSTER_URL>/v2/assets/${asset_id}?project_id=${project_id}"
    
  3. 删除该作业运行资产。 同样,请相应地替换 ${token}${asset_id}${project_id}

    curl -H 'accept: application/json' -H 'Content-Type: application/json' -H "Authorization: Bearer ${token}" -X DELETE "<PLATFORM_CLUSTER_URL>/v2/assets/${asset_id}?project_id=${project_id}"
    

笔记本的已知问题

未能在 Jupyter Notebook 编辑器中将 Notebook 导出到 HTML

使用在 Watson Studio以外的工具中创建的 Jupyter Notebook 时,您可能无法将 Notebook 导出为 HTML。 当单元输出公开时,会发生此问题。

变通方法

  1. 在 Jupyter Notebook UI 中,转至 编辑 ,然后单击 编辑 Notebook 元数据

  2. 除去以下元数据:

    "widgets": {
       "state": {},
       "version": "1.1.2"
    }
    
  3. 单击编辑

  4. 保存 Notebook。

在 "do_put" PyArrow 库方法中传递值 "None" 作为模式参数将停止内核

运行 FlightClient do_put 方法并传递值 "None" 作为模式参数时,内核将崩溃。

变通方法

确保将类型为 "Schema" 的有效值作为模式参数传递到 FlightClient do_put 方法。 不应将 "None" 值用于模式自变量或任何其他必需自变量。

例如,请勿使用:

schema = None
flight_client.do_put(flight_descriptor, schema)

尝试访问 Oracle 数据库中的数据时出错

如果您尝试访问 Oracle 数据库中的数据,如果模式或表名包含特殊字符(如句点 . 字符),您可能会收到 DatabaseError 的提示。 原因是 Oracle 在模式、表和列之间使用句点作为分隔符。 如果出现此问题,请考虑删除数据库表名或模式中的任何句点,或调整代码,用双引号包围表名或模式标识符,如 my_schema."table.with.dots"

项目的已知问题

需要上载的 JAR 文件的连接在升级后可能无法在基于 Git的项目中工作

这些连接要求您上载一个或多个 JAR 文件:

  • IBM Db2 for i
  • IBM Db2 for z/OS (除非您在 Db2 for z/OS 服务器上具有 IBM Db2 Connect Unlimited Edition 许可证证书文件)
  • 通用 JDBC
  • SAP Bulk Extract
  • SAP Delta Extract
  • SAP HANA
  • SAP IDoc

如果从低于 4.7.0的 Cloud Pak for Data 版本进行升级,那么使用关联 JAR 文件的连接可能不起作用。

变通方法: 编辑连接以使用来自其新位置的 JAR 文件。

限制

资产的限制

文件上载的安全性

适用于: 4.7.0 和更高版本

不会验证或扫描通过 Watson Studio 或 Watson Machine Learning UI 上载的文件以查找潜在的恶意内容。 强烈建议您在上传之前运行安全软件,如对所有文件的防病毒应用程序,以确保内容的安全性。

无法将 CSV 文件装入到大于 20 GB 的项目

无法将 CSV 文件装入到 Cloud Pak for Data 中大于 20 GB 的项目。

资产预览限制

您无法查看这些资产类型的预览:

  • 与使用个人凭证的连接相关联的文件夹资产。 系统会提示您输入个人凭证,以开始该连接资产的预览或概要分析。
  • 项目中图像文件的已连接数据资产。
  • 文本文件和 JSON 文件的使用共享凭证的已连接资产不正确地显示在网格中。
  • 项目中 PDF 文件的已连接数据资产。

Data Refinery 的限制

对大型数据资产执行记号化 GUI 操作可能不起作用

对于大型数据资产,包含 Tokenize GUI 操作的 Data Refinery 流作业可能会失败。

Hadoop 集成的限制

重新引导集群时, Livy 服务不会重新启动

如果 HDFS Namenode 未处于活动状态,那么在系统重新引导后, Livy 服务不会自动重新启动。

变通方法: 重新启动 Livy 服务。

作业的限制

在重复时调度的作业也在以下时间运行: 00 分钟

在调度的时间重复运行时调度的作业,并在下一分钟 (: 00) 开始时再次运行。

如果使用特殊字符,那么作业运行具有错误的环境变量值

如果变量值包含特殊字符,那么未将作业配置中定义的环境变量正确传递给作业运行。 这可能导致作业运行失败,或者作业运行的行为不正确。 要解决此问题,请参阅 如果使用特殊字符,那么作业运行具有错误的环境变量值

删除环境或升级 Cloud Pak for Data 后作业运行失败

如果作业正在使用已删除或在 Cloud Pak for Data 版本升级后不再受支持的环境,那么在部署空间或项目中运行作业将失败。 要使作业再次运行,请编辑该作业以指向备用环境。

要防止作业由于升级而运行失败,请基于定制运行时映像创建定制环境。 与这些环境关联的作业在升级后仍将运行。 有关详细信息,请参阅 构建定制映像

项目的限制

无法在删除所有资产后同步不推荐的 Git 项目

如果从不推荐的 Git 项目中删除所有资产,那么该项目无法再与 Git 存储库同步。

变通方法: 在不推荐的 Git 项目中至少保留一个资产。

在基于 Git 的项目中,无法预览具有从目录导入的受管附件的资产

在基于 Git 的项目中,当您尝试预览具有从目录导入的受管附件的资产时,会收到错误。 不支持在基于 Git 的项目中预览这些资产。

请勿在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库

不应在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库,因为这可能会导致错误。 例如,在 Bitbucket 中,您将看到一个错误,指示存储库包含来自不推荐的 Git 项目的内容,尽管所选分支包含缺省 Git 项目内容。

在具有缺省 Git 集成的项目中,可以使用新的干净 Git 存储库或链接到具有缺省 Git 集成的项目中使用的存储库。

在 Watson Studio 中导入大小超过 1 GB 的项目失败

如果在 Watson Studio 中创建空项目,然后尝试导入大小超过 1 GB 的项目,那么该操作可能会失败,具体取决于 Cloud Pak for Data 集群的大小和计算能力。

在 Watson Studio 中导出大型项目失败,发生超时

如果您正在尝试导出具有大量资产 (例如, 7000 以上) 的项目,那么导出过程可能会超时并失败。 在这种情况下,虽然您可以导出子集中的资产,但建议的解决方案是使用 CPDCTL 命令行界面工具中提供的 API 进行导出。

基于 Git的项目中不支持调度作业

在基于 Git的项目中,必须手动运行所有作业。 不支持作业调度。

无法使用 Git 存储库中需要 JDBC 驱动程序并且是在另一个集群上的项目中创建的连接

如果您的项目与另一个集群中的项目中使用的 Git 存储库相关联,并且包含需要 JDBC 驱动程序的连接,那么这些连接将无法在您的项目中工作。 如果上载所需的 JDBC JAR 文件,那么您将看到一个错误,指示无法初始化 JDBC 驱动程序。

此错误是由作为预签名 URI 添加到连接的 JDBC JAR 文件引起的。 此 URI 在另一个集群中的项目中无效。 即使 JAR 文件存在于集群中,也无法再找到该文件,并且连接将不起作用。

变通方法

要使用其中任何连接,需要在项目中创建新连接。 以下连接需要 JDBC 驱动程序,并且受此错误情况影响:

  • Db2 for i
  • Db2 for z/OS
  • 通用 JDBC
  • Hive 通过 Execution Engine for Apache Hadoop
  • Impala 通过 Execution Engine for Apache Hadoop
  • SAP HANA
  • Exasol

数据可视化的限制

数据可视化中不支持掩码数据

数据可视化中不支持掩码数据。 如果尝试在项目中数据资产的 可视化 选项卡中生成图表时使用屏蔽数据,那么会收到以下错误消息: Bad Request: Failed to retrieve data from server. Masked data is not supported

父主题: IBM Cloud Pak for Data