IBM Cloud Pak® for Data 4.7 版本将于 2025 年 7 月 31 日结束支持(EOS)。 欲了解更多信息,请参阅 IBM Cloud Pak for Data 版本 4.X 的停止服务公告。
在 IBM Cloud Pak for Data 4.7 版本支持结束之前,升级到 IBM Software Hub 5.1 版本。 更多信息,请参阅 IBM Software Hub 版本 5.1 文档中的升级 IBM Software Hub。
使用 Data Refinery 优化数据
要优化数据,请从一个位置获取数据,对其进行清理和塑形,然后将结果装入到另一个位置。 您可以使用名为 Data Refinery的图形流编辑器工具来清理和塑造表格数据。
服务 缺省情况下,Data Refinery 服务不可用。 管理员必须在 IBM Cloud Pak for Data 平台上安装 Watson Studio 服务或 Watson Knowledge Catalog 服务。 要确定是否已安装此服务,请打开“服务”目录,并检查是否已启用 Data Refinery 服务。
清理数据时,可修复或移除不正确、不完整、格式错误或者重复的数据。 当您 塑造数据时,可以通过过滤,排序,组合或除去列来对其进行定制。
创建 Data Refinery 流作为数据的有序操作集。 Data Refinery 包含一个图形界面,用于对数据进行概要分析以验证数据以及超过 20 个可定制图表,使您能够深入了解数据。
- 必需服务
- Watson Studio 或 Watson Knowledge Catalog
- 数据格式
- Avro , CSV , JSON , Microsoft Excel (xls 和 xlsx 格式)。 仅第一个工作表,连接和已连接的数据资产除外。) 具有 "sas7bdat" 扩展 (只读) , TSV (只读) 或定界文本数据资产的 Parquet , SAS
- 关系数据源中的表
- 数据大小
- 不限。 Data Refinery 对数据集中的部分行样本进行操作。 样本大小是 1 MB 或 10,000 行,以先达到者为准。 但是,运行 Data Refinery 流程作业时,就会处理整个数据集。 如果 Data Refinery 流因大型数据资产而失败,请参阅 对 Data Refinery中的变通方法。
先决条件
您需要一个项目才能优化数据。
如果您在云或本地数据源中有数据,那么需要 添加连接 到这些源,并且需要从每个连接 添加数据资产 。 如果要将优化的数据保存到云端或本地数据源,也要创建连接。 源连接只能用于读取数据;目标连接只能用于装入(保存)数据。 创建目标连接时,请确保使用具有写许可权的凭证,否则无法将 Data Refinery 流输出保存到目标。
源文件限制
CSV 文件
请确保 CSV 文件正确格式化并符合以下规则:
- 行中的两个连续逗号指示空列。
- 如果一行以逗号结尾,那么会另外创建一列。
空格字符被视为数据的一部分
如果数据包含包含空格 (空白) 字符的列,那么 Data Refinery 会将这些空格字符视为数据的一部分,尽管您在网格中看不到这些空格字符。 某些数据库工具可能会使用空格字符来填充字符串,以使列中的所有数据的长度相同,并且此更改会影响比较数据的 Data Refinery 操作的结果。
列名
请确保列名符合以下规则:
- 不允许重复的列名。 列名在数据集中必须是唯一的。 列名不区分大小写。 同时包含列名“Sales”和“sales”的数据集无法工作。
- 列名不是 R 编程语言中的保留字。
- 列名不是数字。 变通方法是,将列名括在双引号 ("") 内。
在 Data Refinery 流中不支持具有 "其他" 数据类型的列的数据集
如果数据集包含在 Watson Studio 预览中标识为 "其他" 的数据类型的列,那么这些列将在 Data Refinery中显示为字符串数据类型。 但是,如果您尝试在 Data Refinery 流中使用数据,那么 Data Refinery 流的作业将失败。 在预览中显示为 "其他" 的数据类型的示例是 Db2 DECFLOAT 数据类型。
目标文件限制
如果将 Data Refinery 流输出 (目标数据集) 保存到文件,那么以下限制适用:
- 如果文件是现有数据资产,那么无法更改文件格式。
数据保护规则
Data Refinery 不支持针对行过滤的数据保护规则。 如果资产由行过滤数据保护规则管理,那么 Data Refinery 作业将失败。 有关信息,请参阅 数据保护规则实施。
数据集预览
Data Refinery 支持大型数据集,大型数据集可能非常耗时且难以优化。 为了能够快速高效地运作,在您以交互方式优化数据的同时,Data Refinery 可以对数据集中的部分行进行操作。 运行 Data Refinery 流程作业时,它会对整个数据集执行操作。
优化数据
1. 从项目中访问 Data Refinery 。 单击 新建资产> Data Refinery。 然后选择要使用的数据。 或者,从项目的 资产 选项卡中,打开文件 (支持的格式) 以进行预览,然后单击 准备数据。
2。使用步骤来应用用于清理,塑形和扩充数据的操作。 浏览 操作类别或搜索特定操作,然后让 UI 指导您。 您可以在命令行中输入 R 代码,并让自动填充功能帮助您获取正确的语法。 将操作应用于数据集之后,Data Refinery 将对数据集进行跟踪并构建 Data Refinery 流。 对于您应用的每个操作, Data Refinery 会添加一个步骤。
数据选项卡

如果数据包含非字符串数据类型,那么在 Data Refinery 中打开文件时,转换列类型 GUI 操作会作为 Data Refinery 流程的第一步自动应用。 数据类型将自动转换为推断的数据类型(例如,整数、日期或布尔值)。 您可以撤销或编辑此步骤。
4. 单击 可视化 选项卡以在图表中 可视化数据 。 取消覆盖数据中的模式、趋势和关联。
可视化选项卡

5. 优化样本数据集以满足您的需求。
6。单击工具栏中的 保存并创建作业 或 保存并查看作业 以对整个数据集运行 Data Refinery 流。 选择运行时并添加一次性或重复调度。 有关作业的信息,请参阅 在 Data Refinery中创建作业。
有关在优化数据时可以执行的操作,请参阅 管理 Data Refinery 流程。
了解更多
父主题: 集成和准备数据