使用 Data Refinery 优化数据
要完善数据,需要从一个位置获取数据,对其进行清理和塑造,然后将结果写入另一个位置。 您可以使用名为 Data Refinery的图形流编辑器工具来清理和塑造表格数据。
清理数据时,可修复或移除不正确、不完整、格式错误或者重复的数据。 当您 塑造数据时,可以通过过滤,排序,组合或除去列来对其进行定制。
创建 Data Refinery 流作为数据的有序操作集。 Data Refinery 包含一个图形界面,用于对数据进行概要分析以验证数据以及超过 20 个可定制图表,使您能够深入了解数据。
- 数据格式
- Avro , CSV , JSON , Microsoft Excel (xls 和 xlsx 格式)。 仅第一个工作表,连接和已连接的数据资产除外。) 具有 "sas7bdat" 扩展 (只读) , TSV (只读) 或定界文本数据资产的 Parquet , SAS
- 关系数据源中的表
- 数据大小
- 不限。 Data Refinery 对数据集中的部分行样本进行操作。 样本大小为 1 MB 或 10,000 行,以先到者为准。 但是,当您对 Data Refinery 流运行作业时,将处理整个数据集。 如果 Data Refinery 流因大型数据资产而失败,请参阅 对 Data Refinery中的变通方法。
先决条件
您需要 项目,然后才能优化数据。 观看此视频以了解如何创建项目。
观看此视频以了解如何创建项目
此视频提供了一种可视方法来学习本文档中的概念和任务。
如果您有云数据源或内部部署数据源中的数据,您需要对这些数据源进行 "添加连接,或者对每个连接进行 "添加数据资产。 如果您希望能够将优化数据保存到云或内部部署数据源,请为此目的创建连接。 在Data Refinery,源连接只能用于读取数据;目标连接只能用于写入数据。 创建目标连接时,请确保使用具有 "写入 "权限的凭据,否则将无法将Data Refinery流程输出保存到目标。
观看此视频以了解如何创建连接并将已连接的数据添加到项目。
观看本视频,了解如何创建连接和添加连接数据
此视频提供了一种可视方法来学习本文档中的概念和任务。
源文件限制
CSV 文件
请确保该 CSV 文件的格式正确,并符合下列规则:
- 一行内的两个连续逗号表示空列。
- 如果某一行以逗号结尾,那么会创建额外的列。
如果您的 CVS 文件在输入字段中包含任何恶意有效载荷(例如公式),这些项目可能会被执行。
空格字符被视为数据的一部分
如果数据包含包含空格 (空白) 字符的列,那么 Data Refinery 会将这些空格字符视为数据的一部分,尽管您在网格中看不到这些空格字符。 某些数据库工具可能会使用空格字符来填充字符串,以使列中的所有数据的长度相同,并且此更改会影响比较数据的 Data Refinery 操作的结果。
列名
请确保列名符合下列规则:
- 不允许重复的列名。 列名在数据集中必须唯一。 列名不区分大小写。 包含列名 "Sales" 和另一列名 "sales" 的数据集将不起作用。
- 列名不是 R 编程语言中的保留字。
- 列名不是数字。 变通方法是,将列名括在双引号 ("") 内。
在 Data Refinery 流中不支持具有 "其他" 数据类型的列的数据集
如果数据集包含在 Watson Studio 预览中标识为 "其他" 的数据类型的列,那么这些列将在 Data Refinery中显示为字符串数据类型。 但是,如果尝试使用 Data Refinery 流中的数据,那么 Data Refinery 流的作业将失败。 在预览中显示为 "其他" 的数据类型的示例是 Db2 DECFLOAT 数据类型。
目标文件限制
如果将 Data Refinery 流输出 (目标数据集) 保存到文件,那么以下限制适用:
- 如果文件是现有数据资产,那么无法更改文件格式。
数据集预览
Data Refinery 提供了对大型数据集的支持,这可能耗时耗力,难以优化。 为了使您能够快速高效地工作,它在您以交互方式优化数据时对数据集中的部分行执行操作。 当您为 Data Refinery 流运行作业时,它将对整个数据集执行操作。
优化数据
以下视频显示了如何优化数据。
此视频提供了一种可视方法来学习本文档中的概念和任务。
1.从项目内部访问Data Refinery。 单击新建资产 > 准备和可视化数据。 然后选择要使用的数据。 或者,从项目的 "资产"选项卡,单击数据资产预览,然后单击 "准备数据"。
2。使用步骤来应用用于清理,塑形和扩充数据的操作。 浏览 操作类别或搜索特定操作,然后让 UI 指导您。 您可以在命令行中输入 R 代码,并让自动填充功能帮助您获取正确的语法。 将操作应用于数据集之后,Data Refinery 将对数据集进行跟踪并构建 Data Refinery 流。 对于您应用的每个操作, Data Refinery 会添加一个步骤。
数据选项卡 "
""
如果数据包含非字符串数据类型,那么当您在 Data Refinery中打开文件时, 转换列类型 GUI 操作将作为 Data Refinery 流程中的第一步自动应用。 数据类型将自动转换为推断的数据类型,例如整数,日期或布尔值。 您可以撤销或编辑此步骤。
4. 单击 可视化 选项卡以在图表中 可视化数据 。 取消覆盖数据中的模式、趋势和关联。
可视化选项卡 '
'
5. 优化样本数据集以满足您的需求。
6。单击工具栏中的 保存并创建作业 或 保存并查看作业 以对整个数据集运行 Data Refinery 流。 选择运行时并添加一次性或重复调度。 有关作业的信息,请参阅 在 Data Refinery中创建作业。
为Data Refinery流程运行作业时,将处理整个数据集。 因此,根据转换和流程中处理的数据量,作业可能会创建一个大型输出(目标)数据集。 默认情况下,Data Refinery流程的结果会保存为项目中的数据资产。
有关在优化数据时可以执行的操作,请参阅 管理 Data Refinery 流程。
下一步
了解更多
父主题: 准备数据