Ambientes Execution Engine for Apache Hadoop
Você pode criar modelos Hadoop de ambiente e sessões do Jupyter Enterprise Gateway (JEG) em projetos Watson Studio analíticos para executar tarefas no cluster Hadoop.
Serviço Os ambientes do Execution Engine for Apache Hadoop não estão disponíveis por padrão. Um administrador deve instalar o serviço Execution Engine for Apache Hadoop na plataforma IBM Cloud Pak for Data. Para determinar se o serviço está instalado, abra o catálogo de serviços e verifique se o serviço está ativado.
Use um ambiente Hadoop quando desejar executar as tarefas a seguir:
- Treinar um modelo no cluster Hadoop em um bloco de notas do Jupyter.
- Gerenciar um modelo no cluster Hadoop com métodos de utilitário de integração do Hadoop dentro de um bloco de notas do Jupyter.
- Visualizar e refinar dados do Hadoop (HDFS, Hive e Impala) no Watson Studio.
- Executar fluxos do Data Refinery no cluster Hadoop.
- Planejar scripts Python ou R como tarefas para executar em clusters Hadoop remotamente.
Se você estiver usando Livy para executar tarefas Spark no Hadoop, não use o Hadoop ambiente. Em vez disso, use o ambiente que é executado localmente no cluster Cloud Pak for Data.
Hadoop modelos de ambiente
Para criar um modelo Hadoop de ambiente:
- Na guia Gerenciar do seu projeto, selecione a página Ambientes e, em Modelos, clique em Novo modelo.
- Insira um nome e uma descrição.
- Selecione o tipo de configuração de ambiente Hadoop.
- Selecione um dos sistemas Hadoop registrados na lista suspensa de configuração do Hadoop.
- Se a tarefa alavancar os pacotes Python do Watson Studio Local e do Cloud Pak for Data para o cluster Hadoop, será possível escolher a imagem que foi enviada por push da página de registro do Hadoop no campo da versão do Software.
- Use o campo Fila de YARN para selecionar a fila na qual seu ambiente estará sendo executado. Isso se aplica a tarefas e execuções de bloco de notas.
- Por padrão, todas as execuções são enviadas para a fila padrão do YARN. O administrador do Hadoop pode configurar e expor a lista de filas de yarn disponíveis que podem ser usadas.
- O administrador do Hadoop deveria ter concedido ao usuário do Watson Studio Local as permissões necessárias para enviar a tarefa em relação à fila YARN especificada.
- Selecione o tamanho do ambiente em que você executará seu notebook ou seus trabalhos.
- Depois de salvar o novo ambiente, você pode selecioná-lo como um ambiente para notebooks e trabalhos.
Incluindo configurações do usuário
Quando você estiver trabalhando com grandes conjuntos de dados no Hadoop ou for necessário ajustar adequadamente sua sessão do Spark, use as Variáveis de sessão definidas pelo usuário. As variáveis são parâmetros que ajudam a definir opções adicionais do Spark que podem ser usadas como parte do lançamento do seu bloco de notas ou executando uma tarefa.
Para que seja possível usar as variáveis, seu administrador do Hadoop deve primeiro definir a lista de opções disponíveis e o intervalo de valor para as opções como parte da configuração do Hadoop. Entre em contato com o seu administrador do Hadoop para saber quais opções estão disponíveis para você configurar. Depois de incluir as novas opções, elas entram em vigor depois de lançar um novo bloco de notas ou executar uma tarefa.
Para adicionar novos parâmetros ao seu modelo Hadoop de ambiente:
- Na seção de Variáveis de sessão definidas pelo usuário, clique em Nova variável de sessão.
- Selecione os parâmetros e valores.