Importación y exportación de datos mediante Python para Spark

Utilizando el generador de cuadros de diálogo personalizados para extensiones, puede crear nodos personalizados y escribir scripts Python para Spark para leer datos de su origen de datos, esté dónde esté, y escriba datos en cualquier formato de datos compatible con Apache Spark.

Por ejemplo, un usuario desea grabar sus datos en una base de datos. Utiliza el Generador de cuadros de diálogo personalizados para extensiones y Python para Spark para crear un nodo JDBC de exportación personalizado y, a continuación, ejecuta el modelo para grabar los datos en una base de datos. Para leer datos de la base de datos, también puede crear un nodo JDBC de importación personalizado. También puede utilizar este mismo método para leer datos en SPSS Modeler desde un archivo JSON, por ejemplo. A continuación, después de leer estos datos en SPSS Modeler, puede utilizar todos los nodos disponibles de SPSS Modeler para trabajar en su problema empresarial.

Nota: Si desea utilizar JDBC con la funcionalidad de importación y exportación de Python para Spark, debe copiar el archivo de controlador JDBC en el directorio as/lib, dentro del directorio de su instalación de IBM® SPSS Modeler.

Para importar/exportar datos utilizando Python para Spark

  1. Vaya a Extensiones > Generador de diálogos de nodo personalizados.
  2. En Propiedades de diálogo, seleccione Python para Spark para el tipo de script y seleccione Importar o Exportar para el tipo de nodo.
  3. Especifique otras propiedades como desee como, por ejemplo, un nombre de diálogo.
  4. En la sección de script, escriba o pegue el script Python para Spark para importar o exportar datos.
  5. Haga clic en Instalar para instalar el script Python para Spark. Los nuevos nodos de importación personalizados se añadirán a la paleta de orígenes y los nuevos nodos de exportación personalizados se añadirán a la paleta de exportación.