使用 Python for Spark 导入和导出数据

通过使用针对扩展的定制对话框构建器,您可以创建定制节点和编写 Python for Spark 脚本,以从数据源所在位置读取数据,将数据写出到 Apache Spark 支持的任何数据格式。

例如,用户希望将他的数据写入数据库。他使用针对扩展的定制对话框构建器和 Python for Spark 来创建定制导出 JDBC 节点,然后运行模型以将数据写入数据库。要从数据库读取数据,还可以创建定制导入 JDBC 节点。例如,还可以使用此方法将数据从 JSON 文件读入 SPSS® Modeler。 然后,在将其数据读入 SPSS Modeler 后,他可以使用所有可用的 SPSS Modeler 节点来处理业务问题。

注: 如果您希望将 JDBC 与 Python for Spark 导入和导出功能配合使用,必须将 JDBC 驱动程序文件复制到 IBM® SPSS Modeler 安装目录中的 as/lib 目录。

使用 Python for Spark 导入/导出数据

  1. 转至扩展 > 定制节点对话框构建器
  2. 在对话框属性下,为脚本类型选择 Python for Spark,为节点类型选择导入导出
  3. 根据需要输入其他属性,如对话框名称。
  4. 在“脚本”部分中,为导入或导出数据输入或粘贴 Python for Spark 脚本。
  5. 单击安装以安装 Python for Spark 脚本。新的定制导入节点将添加到“源”选用板,新的定制导出节点将添加到“导出”选用板。