使用 Python for Spark 导入和导出数据
通过使用针对扩展的定制对话框构建器,您可以创建定制节点和编写 Python for Spark 脚本,以从数据源所在位置读取数据,将数据写出到 Apache Spark 支持的任何数据格式。
例如,用户希望将他的数据写入数据库。他使用针对扩展的定制对话框构建器和 Python for Spark 来创建定制导出 JDBC 节点,然后运行模型以将数据写入数据库。要从数据库读取数据,还可以创建定制导入 JDBC 节点。例如,还可以使用此方法将数据从 JSON 文件读入 SPSS® Modeler。 然后,在将其数据读入 SPSS Modeler 后,他可以使用所有可用的 SPSS Modeler 节点来处理业务问题。
注: 如果您希望将 JDBC 与 Python for Spark 导入和导出功能配合使用,必须将 JDBC 驱动程序文件复制到 IBM® SPSS Modeler 安装目录中的 as/lib 目录。
使用 Python for Spark 导入/导出数据
- 转至。
- 在对话框属性下,为脚本类型选择 Python for Spark,为节点类型选择导入或导出。
- 根据需要输入其他属性,如对话框名称。
- 在“脚本”部分中,为导入或导出数据输入或粘贴 Python for Spark 脚本。
- 单击安装以安装 Python for Spark 脚本。新的定制导入节点将添加到“源”选用板,新的定制导出节点将添加到“导出”选用板。