Scripts Python for Spark

SPSS Modeler suporta scripts Python para Apache Spark.

Nota:
  • Os nós Python dependem do ambiente Spark.
  • Os scripts Python devem usar a API Spark porque os dados são apresentados na forma de um Spark DataFrame.
  • Ao instalar o Python, certifique-se de que todos os usuários tenham permissão para acessar a instalação do Python.
  • Se você deseja usar a Biblioteca de Aprendizado de Máquina ( Machine Learning, MLlib), é necessário instalar uma versão do Python que inclua o NumPy.

Dicas

É possível executar os scripts Python a seguir por meio de um nó de Saída de extensão:

  • Para visualizar informações sobre a distribuição de Python incluída com SPSS Modeler :
    import sys
    sys.version
  • Para listar todos os pacotes Python instalados:
    import subprocess
    subprocess.check_call([sys.executable, '-m', 'pip', 'list'])
  • Para instalar pacotes Python por meio de um ambiente com entreferro, use a opção --index-url que permite que pip instale pacotes de um determinado repositório Python (o repositório deve ser compatível com PEP 503). Para obter mais informações, incluindo uma lista de todas as opções, consulte https://pip.pypa.io/en/stable/cli/pip_install/.