重要说明:

IBM Cloud Pak® for Data 4.8 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告
在 版本支持结束之前,升级到 版本。 IBM Cloud Pak for Data 4.8 IBM Software Hub 5.1 有关更多信息,请参阅从 IBM Cloud Pak for Data 版本 4.8 升级到 IBM Software Hub 版本 5.1

Watson Studio 和补充服务的已知问题和限制

以下已知问题和限制适用于 Watson Studio。

已知问题

限制

Anaconda Repository for IBM Cloud Pak for Data 的已知问题

Anaconda Repository for IBM Cloud Pak for Data 的通道名称不支持双字节字符

在 Anaconda Team Edition 中创建通道时,不能使用双字节字符或大多数特殊字符。 只能使用下列字符:a-z 0-9 - _

Data Refinery 的已知问题

在Data Refinery流程中使用更新选项时,目标表丢失和作业失败

适用于 4.4.8.0及更高版本

对关系数据源(如Db2)的写模式目标属性使用更新选项会删除原始目标表,Data Refinery任务可能会失败。
解决方法将 "合并"选项用作写入模式,将 "追加"用作表操作

关闭和重启后打开Data Refinery

适用于 : 4.8.7 及更高版本

关机并重新启动后,尝试重新打开Data Refinery 时可能会遇到 504 错误。

解决方法群集管理员可以重新启动 ibm-nginx pod:

 oc delete pod -n ${PROJECT_CPD_INST_OPERANDS} -l component=ibm-nginx

无法在 Data Refinery中使用掩码资产

适用于: 4.8.4 和更高版本

有关详细信息,请参阅 IBM Knowledge Catalog的已知问题和限制主题中的 无法在 Data Refinery 中使用屏蔽资产。

Dremio Cloud: Data Refinery 流的连接失败

适用于: 4.8.3 和 4.8.4

固定位置: 4.8.5

如果连接到 Dremio 云实例并运行 Data Refinery 流或作业,那么该流将失败。

并置操作不允许您将新列放在原始列旁边

适用于: 4.8.3 和更高版本

将具有 Concatenate 操作的步骤添加到 Data Refinery 流程时,如果选择 保留原始列 ,并对新列位置选择 旁边的原始列 ,那么该步骤将失败并产生错误。

但是,您可以选择 数据集中最右边的列

Dremio 连接失败,返回 java.lang.NoClassDefFoundError...

适用于: 4.8.3

固定位置: 4.8.4

使用 Dremio 连接中的数据运行 Data Refinery 流作业时,该作业将失败并返回错误消息: java.lang.NoClassDefFoundError: org.apache.arrow.flight.sql.impl.FlightSql$SqlInfo

Google BigQuery 连接: Data Refinery 流程作业中的 TRUNCATE TABLE 语句失败

适用于: 4.8.3 和更高版本

如果使用来自 Google BigQuery 连接的数据运行 Data Refinery 流作业,并且 DDL 包含 TRUNCATE TABLE 语句,那么该作业将失败。

无法使用定制 Spark 环境在基于 Git的项目中运行 Data Refinery 流作业

适用于: 4.8.3

固定位置: 4.8.4

如果在基于 Git的项目中运行 Data Refinery 流作业并使用定制 Spark 环境,那么该作业将失败。

变通方法: Use one of the default environments: Default Spark 3.4 & R 4.2 or Default Data Refinery XS.

日志在基于 Git的项目中不可用于使用缺省 Spark 和 R 环境运行的 Data Refinery 流作业

适用于: 4.8.3

固定位置: 4.8.4

在基于 Git 的项目中,如果使用默认 Spark 3.3 & R 4.2 或默认 Spark 3.4 & R 4.2 环境运行 Data Refinery flow 作业,日志文件将无法下载。

变通方法: 使用缺省 Data Refinery XS 环境。

在使用缺省 Data Refinery XS 环境运行作业时, Data Refinery 流作业与 Excel 目标文件一起失败

适用于: 4.8.3

固定位置: 4.8.4

当您使用目标 Excel 文件运行 Data Refinery 流作业并使用缺省 Data Refinery XS 环境时,可能会收到错误。

变通方法: Change the target to a different file type or run the job with a Spark & R environment.

Data Refinery 无法从 Presto 连接检索大型数据集

适用于: 4.8.0, 4.8.1, 4.8.2, 4.8.3和 4.8.4

固定位置: 4.8.5

在 Data Refinery中,尝试通过 Presto 连接检索大型数据集 (例如, 25 MB 或更大) 时,可能会迂到以下超时错误消息:

Cannot retrieve the data from Flight service

变通方法: 使用其他连接从数据源检索数据。 例如,如果 Presto 连接器具有来自连接到 Presto 服务器的 IBM Db2 数据库的数据,请使用 IBM Db2 连接来检索 Db2 数据。

Hadoop 集成的已知问题

从 Notebook 中的 hi_core_utils 执行其中一个方法时出错

适用于: 4.8.5

在 Notebook 中使用推送的 imageId 创建 Livy Spark 会话后,在执行 hi_core_utils中的某个方法时可能会看到以下错误:

An error was encountered:
<class 'RuntimeError'> —- OpenSSL 3.0's legacy provider failed to load. This is a fatal error by default, but cryptography supports running without legacy algorithms by setting the environment variable CRYPTOGRAPHY_OPENSSL_NO_LEGACY. If you did not expect this error, you have likely made a mistake with your OpenSSL configuration.

变通方法: 在同一单元中插入以下代码以在 Notebook 中设置环境变量 CRYPTOGRAPHY_OPENSSL_NO_LEGACY :

import os
os.environ["CRYPTOGRAPHY_OPENSSL_NO_LEGACY"] = "1"

支持 Spark 版本

适用于: 4.8.0 和更高版本

  • Apache Spark 3.1 for Power 不受支持。

  • 要在 Cloud Pak for Data 4.8.0 及更高版本上运行 Jupyter Enterprise Gateway (JEG) ,必须在内核启动后作为第一个单元运行以下命令:

    from pyspark.sql import SparkSession
    from pyspark import SparkContext
    spark = SparkSession.builder.getOrCreate()
    sc = SparkContext.getOrCreate()
    

无法通过 Execution Engine for Hadoop 连接到 Impala via Execution Engine for Hadoop

适用于: 4.8.0 和更高版本

在 CDP 版本 7.1.8上, JDBC 客户机失败,当您尝试通过 Execution Engine for Hadoop 连接到 Impala via Execution Engine for Hadoop时,您会收到以下 SQL 错误消息:

SQL error: [Cloudera][ImpalaJDBCDriver](500593) Communication link failure. Failed to connect to server. Reason: Socket is closed by peer. ExecuteStatement for query "SHOW DATABASES".

变通方法: 将属性 -idle_client_poll_period_s=0 设置为 0 ,然后重新启动 Impala:

  1. 转至 Cloudera Manager。
  2. 在主页中,单击 状态 选项卡。
  3. 选择 Impala
  4. 单击 配置 选项卡。
  5. 在 Impala 命令行参数 Advanced Configuration Snippet (impalad_cmd_args_safety_阈值) 中,添加属性: -idle_client_poll_period_s=0
  6. 重新启动 Impala。

笔记本的已知问题

未能在 Jupyter Notebook 编辑器中将 Notebook 导出到 HTML

使用在 Watson Studio以外的工具中创建的 Jupyter Notebook 时,您可能无法将 Notebook 导出为 HTML。 当单元输出公开时,会发生此问题。

变通方法

  1. 在 Jupyter Notebook UI 中,转至 编辑 ,然后单击 编辑 Notebook 元数据

  2. 除去以下元数据:

    "widgets": {
       "state": {},
       "version": "1.1.2"
    }
    
  3. 单击编辑

  4. 保存 Notebook。

尝试访问 Oracle 数据库中的数据时出错

如果您尝试访问 Oracle 数据库中的数据,如果模式或表名包含特殊字符(如句点 . 字符),您可能会收到 DatabaseError 的提示。 原因是 Oracle 在模式、表和列之间使用句点作为分隔符。 如果出现此问题,请考虑删除数据库表名或模式中的任何句点,或调整代码,用双引号包围表名或模式标识符,如 my_schema."table.with.dots"

项目的已知问题

项目导出失败

适用于: 4.8.3 和更高版本

如果您不再能够使用导出项目功能,那么必须通过以下步骤重新启动 rabbitmq pod:

  1. 要删除 asset-files-api:
    oc get po -n ${PROJECT_CPD_INST_OPERANDS} | grep asset-files-api | awk '{print $1}' | xargs oc delete po -n ${PROJECT_CPD_INST_OPERANDS}
    
  2. 要删除 RMQ:
    oc delete po -n ${PROJECT_CPD_INST_OPERANDS} rabbitmq-ha-{0,1,2}
    

需要上载的 JAR 文件的连接在升级后可能无法在基于 Git的项目中工作

适用于: 4.8.0 和更高版本

这些连接要求您上载一个或多个 JAR 文件:

  • IBM Db2 for i
  • IBM Db2 for z/OS (除非您在 Db2 for z/OS 服务器上具有 IBM Db2 Connect Unlimited Edition 许可证证书文件)
  • 通用 JDBC
  • SAP Bulk Extract
  • SAP Delta Extract
  • SAP HANA
  • SAP IDoc

如果从低于 4.7.0的 Cloud Pak for Data 版本进行升级,那么使用关联 JAR 文件的连接可能不起作用。

变通方法: 编辑连接以使用来自其新位置的 JAR 文件。

部署空间的已知问题

未安装 Watson Machine Learning 时管理部署空间时出错

适用于: 4.8.0 和更高版本
修订于: 4.8.5

如果浏览到部署空间的 "管理" 选项卡,并且未安装 Watson Machine Learning serice ,那么您将看到指示部署未能装入的错误:

Error loading deployments. Unexpected response code: 404

您可以忽略该错误并继续使用部署空间。

资产的限制

文件上载的安全性

适用于: 4.8.0 和更高版本

不会验证或扫描通过 Watson Studio 或 Watson Machine Learning UI 上载的文件以查找潜在的恶意内容。 强烈建议您在上传之前运行安全软件,如对所有文件的防病毒应用程序,以确保内容的安全性。

无法将 CSV 文件装入到大于 20 GB 的项目

无法将 CSV 文件装入到 Cloud Pak for Data 中大于 20 GB 的项目。

资产预览限制

您无法查看这些资产类型的预览:

  • 与使用个人凭证的连接相关联的文件夹资产。 系统会提示您输入个人凭证,以开始该连接资产的预览或概要分析。
  • 项目中图像文件的已连接数据资产。
  • 文本文件和 JSON 文件的使用共享凭证的已连接资产不正确地显示在网格中。
  • 项目中 PDF 文件的已连接数据资产。

Data Refinery 的限制

数据列标题不能包含特殊字符

列标题包含特殊字符的数据可能会导致 Data Refinery 作业失败,并给出错误 Supplied values don't match positional vars to interpolate

解决方法:删除列标题中的特殊字符。

数据保护规则并不总是屏蔽 Data Refinery 可视化中的数据

如果为资产设置数据保护规则,那么不会始终强制实施数据保护规则。 因此,在某些情况下,可以在 Data Refinery 可视化图表中查看数据。

对大型数据资产执行记号化 GUI 操作可能不起作用

对于大型数据资产,包含 Tokenize GUI 操作的 Data Refinery 流作业可能会失败。

Hadoop 集成的限制

Cloud Pak for Data 集群和 Hadoop 集群必须位于同一网络中

要使 Cloud Pak for Data 与 Hadoop 集群之间的连接正常工作,它们必须位于同一网络设置中。

重新引导集群时, Livy 服务不会重新启动

如果 HDFS Namenode 未处于活动状态,那么在系统重新引导后, Livy 服务不会自动重新启动。

变通方法: 重新启动 Livy 服务。

作业的限制

在重复时调度的作业也在以下时间运行: 00 分钟

在调度的时间重复运行时调度的作业,并在下一分钟 (: 00) 开始时再次运行。

如果使用特殊字符,那么作业运行具有错误的环境变量值

如果变量值包含特殊字符,那么未将作业配置中定义的环境变量正确传递给作业运行。 这可能导致作业运行失败,或者作业运行的行为不正确。 要解决此问题,请参阅 如果使用特殊字符,那么作业运行具有错误的环境变量值

删除环境或升级 Cloud Pak for Data 后作业运行失败

如果作业正在使用已删除或在 Cloud Pak for Data 版本升级后不再受支持的环境,那么在部署空间或项目中运行作业将失败。 要使作业再次运行,请编辑该作业以指向备用环境。

要防止作业由于升级而运行失败,请基于定制运行时映像创建定制环境。 与这些环境关联的作业在升级后仍将运行。 有关详细信息,请参阅 构建定制映像

在调度作业时排除某些天导致意外结果

如果您选择调度作业,使其在一周中给定日子以外的每一天运行,那么您可能会注意到调度的作业没有按预期运行。 这是因为,创建该调度的用户在一个时区,运行该作业所在的主节点在另一个时区。

只有在调度作业运行时间时排除掉一周中某几天的情况下,才会出现此问题。

项目的限制

无法打开使用拼合文件和分区拼合文件导入的已连接数据资产

导入选择了 parquetpartitioned_parquet 资产的已连接数据资产后,生成的 partitioned_parquet 资产已损坏,无法从项目的 " 资产 " 页面打开。

适用于: 4.8.0

变通方法: 不支持导入资产 (包括分区资产) 的批量选择。 您需要逐个手动选择和导入资产。

无法在删除所有资产后同步不推荐的 Git 项目

如果从不推荐的 Git 项目中删除所有资产,那么该项目无法再与 Git 存储库同步。

变通方法: 在不推荐的 Git 项目中至少保留一个资产。

在基于 Git 的项目中,无法预览具有从目录导入的受管附件的资产

在基于 Git 的项目中,当您尝试预览具有从目录导入的受管附件的资产时,会收到错误。 不支持在基于 Git 的项目中预览这些资产。

请勿在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库

不应在具有缺省 Git 集成的项目中使用具有不推荐的 Git 集成的项目中的 Git 存储库,因为这可能会导致错误。 例如,在 Bitbucket 中,您将看到一个错误,指示存储库包含来自不推荐的 Git 项目的内容,尽管所选分支包含缺省 Git 项目内容。

在具有缺省 Git 集成的项目中,可以使用新的干净 Git 存储库或链接到具有缺省 Git 集成的项目中使用的存储库。

在 Watson Studio 中导入大小超过 1 GB 的项目失败

如果在 Watson Studio 中创建空项目,然后尝试导入大小超过 1 GB 的项目,那么该操作可能会失败,具体取决于 Cloud Pak for Data 集群的大小和计算能力。

在 Watson Studio 中导出大型项目失败,发生超时

如果您正在尝试导出具有大量资产 (例如, 7000 以上) 的项目,那么导出过程可能会超时并失败。 在这种情况下,虽然您可以导出子集中的资产,但建议的解决方案是使用 CPDCTL 命令行界面工具中提供的 API 进行导出。

基于 Git的项目中不支持调度作业

在基于 Git的项目中,必须手动运行所有作业。 不支持作业调度。

将项目导出到桌面时无法包含 Cognos 仪表板

当前,将项目导出到桌面时,无法选择 Cognos 仪表板。

变通方法

虽然无法将仪表板添加到项目导出,但可以将仪表板从一个项目移至另一个项目。

要将仪表板移至另一个项目,请执行以下操作:

  1. 从原始项目中下载仪表盘 JSON 文件。 将仪表板下载到桌面
  2. 点击项目工具栏上的 "导出到桌面" 图标 ,将原始项目导出到桌面。
  3. 通过导入具有所需数据源的项目 ZIP 来创建新项目。
  4. 单击 " 来自文件 "选项卡并添加从原始项目下载的 JSON 文件,创建新的仪表板。 根据文件创建仪表板
  5. 此时将弹出一个对话框,询问您是否要重新链接每个数据源。 单击 "重新链接" 按钮,然后在新项目中选择与数据源对应的资产。

无法使用 Git 存储库中需要 JDBC 驱动程序并且是在另一个集群上的项目中创建的连接

如果您的项目与另一个集群中的项目中使用的 Git 存储库相关联,并且包含需要 JDBC 驱动程序的连接,那么这些连接将无法在您的项目中工作。 如果上载所需的 JDBC JAR 文件,那么您将看到一个错误,指示无法初始化 JDBC 驱动程序。

此错误是由作为预签名 URI 添加到连接的 JDBC JAR 文件引起的。 此 URI 在另一个集群中的项目中无效。 即使 JAR 文件存在于集群中,也无法再找到该文件,并且连接将不起作用。

变通方法

要使用其中任何连接,需要在项目中创建新连接。 以下连接需要 JDBC 驱动程序,并且受此错误情况影响:

  • Db2 for i
  • Db2 for z/OS
  • 通用 JDBC
  • Hive 通过 Execution Engine for Apache Hadoop
  • Impala 通过 Execution Engine for Apache Hadoop
  • SAP HANA
  • Exasol

笔记本的限制

无法在 Spark 环境中的 JupyterLab 中打开终端窗口

在 Spark 环境中使用 JupyterLab 时,将禁用所有终端选项。

数据可视化的限制

数据可视化中不支持掩码数据

数据可视化中不支持掩码数据。 如果尝试在项目中数据资产的 可视化 选项卡中生成图表时使用屏蔽数据,那么会收到以下错误消息: Bad Request: Failed to retrieve data from server. Masked data is not supported

父主题: IBM Cloud Pak for Data