Execution Engine for Apache Hadoop ambientes
Você pode criar modelos Hadoop de ambiente e sessões do Jupyter Enterprise Gateway (JEG) em projetos Watson Studio analíticos para executar tarefas no cluster Hadoop.
Os ambientes do ServiceExecution Engine for Apache Hadoop não estão disponíveis por padrão. Um administrador deve instalar o serviço do Execution Engine for Apache Hadoop na plataforma IBM Cloud Pak for Data. Para verificar se o serviço está instalado, abra o catálogo de serviços e verifique se o serviço está ativado.
Utilize um ambiente de " Hadoop " quando desejar realizar as seguintes tarefas:
- Treine um modelo no cluster Hadoop em um notebook Jupyter.
- Gerencie um modelo no cluster Hadoop utilizando os métodos do utilitário de integração Hadoop em um notebook Jupyter.
- Visualize e refine os dados do Hadoop ( HDFS, Hive e Impala ) no Watson Studio.
- Execute fluxos do ` Data Refinery ` no cluster ` Hadoop `.
- Programe scripts do Python ou do R como tarefas para serem executadas remotamente em clusters do Hadoop.
Se você estiver usando Livy para executar tarefas Spark no Hadoop, não use o Hadoop ambiente. Em vez disso, use o ambiente que é executado localmente no cluster do Cloud Pak for Data.
Hadoop modelos de ambiente
Para criar um modelo Hadoop de ambiente:
- Na guia Gerenciar do seu projeto, selecione a página Ambientes e, em Modelos, clique em Novo modelo.
- Digite um nome e uma descrição.
- Selecione o tipo de configuração de ambiente “ Hadoop ”.
- Selecione um dos sistemas Hadoop registrados no menu suspenso de configuração do Hadoop.
- Se a tarefa utilizar os pacotes do Python, disponíveis em Watson Studio Local e Cloud Pak for Data, no cluster Hadoop, você pode selecionar a imagem enviada a partir da página de registro Hadoop no campo “Versão do software”.
- Use o campo "Fila do YARN" para selecionar a fila na qual seu ambiente será executado. Isso se aplica a tarefas e execuções de notebooks.
- Por padrão, todas as execuções são enviadas para a fila padrão do YARN. O administrador do Hadoop pode configurar e disponibilizar a lista de filas do Yarn que você pode usar.
- O administrador do Hadoop deveria ter concedido ao usuário Watson Studio Local as permissões necessárias para enviar o trabalho para a fila YARN especificada.
- Selecione o tamanho do ambiente em que você executará seu notebook ou seus trabalhos.
- Depois de salvar o novo ambiente, você pode selecioná-lo como um ambiente para notebooks e trabalhos.
Adicionar configurações do usuário
Quando estiver trabalhando com grandes conjuntos de dados no ` Hadoop ` ou precisar ajustar sua sessão do Spark, use as variáveis de sessão definidas pelo usuário. As variáveis são parâmetros que ajudam a definir opções adicionais do Spark, que podem ser utilizadas ao iniciar um notebook ou ao executar uma tarefa.
Antes de poder usar as variáveis, o administrador do Hadoop deve primeiro definir a lista de opções disponíveis e o intervalo de valores para essas opções, como parte da configuração do Hadoop. Entre em contato com o administrador do Hadoop para saber quais opções estão disponíveis para você configurar. Depois de adicionar as novas opções, elas entram em vigor assim que você abrir um novo bloco de notas ou executar uma tarefa.
Para adicionar novos parâmetros ao seu modelo Hadoop de ambiente:
- Na seção Variáveis de sessão definidas pelo usuário, clique em Nova variável de sessão.
- Selecione os parâmetros e os valores.